Chýla post-pravdivý a post-faktický

Může být i diskuse o hodnocení vědy označena módními slovy post-pravdivá či post-faktická? Bohužel ano, jak ukazuje článek Jiřího Chýly Münich nebo Šebek? uveřejněný na tomto blogu 21. 11. 2016.

Text překypuje emocemi a silnými výrazy. Chýla v něm kritizuje hlava nehlava, pravda nepravda, fakta nefakta. V první části kritizuje, že se něco nestalo – i když se to stalo. To je nepravda. Navíc je kritizujícímu vlastní nepravdivost fuk - co je asi znak post-pravdivosti. Ve druhé části vnucuje a chválí něco vlastního –ale bez fakt dokazujících, že to je pochvaly hodné. Chýla to přece ví - takže jaképak důkazy? To je post-faktičnost.

Celá debata se točí kolem role expertních panelů při výběru nejvýznamnějších či nejkvalitnějších výsledků výzkumu podle Pilíře II Metodiky (s. 16 a dále) a odstartovala ji kritika Dana Municha Co všechno unese druhý pilíř kafemlejnku, na kterou jsem reagoval já v článcích Pohled do kuchyně Panelu pro technické a informatické vědy a Co všechno unese kritika druhého pilíře kafemlejnku. Nezasvěcený čtenář by si to raději měl přečíst všechno, pro zasvěcené nejprve pomocí krátkých citací Metodiky shrnu tři úkoly, které měl každý expertní panel:

„V každé oborové skupině posoudí všechny předložené výsledky panel. Tyto výsledky poté rozdělí do dvou tříd A a B s tím, že třída A odpovídá nejvýznamnějším či nejkvalitnějším výsledkům v daném oboru. Počet výsledků zařazených do třídy A nesmí přesáhnout 20 % z celkového počtu výsledků předložených v rámci dané oborové skupiny.“
„Kromě vlastního roztřídění výsledků je výstupem panelu i zdůvodnění - uvede především všechny hlavní argumenty, které jej vedly k zařazení výsledků do třídy A.“
„Výstupem panelu bude též stanovisko, v jakém kvalitativním poměru jsou výsledky zařazené do třídy A ke světovému standardu či světové špičce.

Nyní zopakuji, že náš panel (EP04 Technické vědy a informatika) všechny tyto tři úkoly beze zbytku, podle svého nejlepšího vědomí a svědomí splnil! Konkrétněji:

1a) Výsledky posoudil a rozdělil, přičemž výsledná třída A odpovídá nejvýznamnějším či nejkvalitnějším výsledkům v daném oboru. Výběr byl zveřejněn Úřadem vlády.

1b) Počet výsledků zařazených do třídy A BYL MENŠÍ NEŽ 20 % z celkového počtu výsledků předložených v rámci dané oborové skupiny. Tuto větu jsme chápali ve smyslu součtů podílů zmíněných výsledků, neboť to vychází z ducha metodiky a opakovaně nám to tak potvrdili autoři metodiky.

2) „Kromě vlastního roztřídění výsledků jsme také odevzdali požadovaná zdůvodnění. I ta byla zveřejněna Úřadem vlády.

3) Dalším výstupem našeho panelu bylo též stanovisko, v jakém kvalitativním poměru jsou výsledky zařazené do třídy A ke světovému standardu či světové špičce. Toto stanovisko konkrétně vyhotovili členové panelu ze zahraničních univerzit a ostatní do něj nezasahovali. Za takový postup jsme už jednou byli autory Metodiky a jinými kolegy chváleni, a proto očekáváme další pochvalu. Toto stanovisko bylo součástí naší závěrečné zprávy. Úřad vlády toto Stanovisko nezveřejnil, ani letos, ani minule. Důvody neznám. Mě to štve, takže jsem ho letos několikrát zveřejnil sám. Například zde v mém předminulém článku „Pohled do kuchyně.“

Zatím jsem vlastně nenapsal nic, co bych už neuvedl v minulých textech a zasvěcené čtenáře to opakování mohlo nudit. Dále snad budu zajímavější a dostanu se k tomu, co mi Chýla vlastně vyčítá. Přestože on je osobní a velmi expresivní, já se silným výrazům pokusím vyhnout.

Část 1

Hlavní kritika v první části Chýlova článku se týká 3. úkolu „Výstupem panelu bude též stanovisko, v jakém kvalitativním poměru jsou výsledky zařazené do třídy A ke světovému standardu či světové špičce.“

Chýla: „To je nejen velmi rozumné, ale má-li být hodnocení více než hledání jednookých mezi slepými naprosto nezbytné. Jedině tehdy, vztáhneme-li úroveň článku ke světovému standardu či dokonce špičce, má smysl mluvit o "excelenci". Bez takového srovnání nemá tento pojem smysl. Požadavek srovnání se světovou špičkou Panel 4 zcela a nepokrytě ignoruje, je ovšem pravda, že toto činí téměř všechny panely. ...

Michael Šebek tedy nepokrytě a svévolně ignoruje zásadní požadavky, které na panely klade sama Metodika v ustanovení o II. pilíři, který Šebek tak chválí. To je nepřijatelné, neboť pokud by každý ignoroval to ustanovení Metodiky, které nepovažuje za důležité, vnikl by naprostý chaos.“

Šebek: Chýla nepíše pravdu! Stejně jako před dvěma roky, i tentokrát požadované stanovisko v EP04 vypracovali výhradně panelisté ze zahraničních univerzit, bez zásahu panelistů domácích. Stanovisko je jednou z hlavních součástí závěrečné zprávy, kterou panel konsensuálně schválil a v požadovaném termínu odevzdal Úřadu vlády.

Pokud vím, Úřad vlády toto stanovisko zatím nezveřejnil, to však nedává nikomu právo tvrdit, že nebylo vypracováno. Já sám jsem ho celé s drobnými úpravami zveřejnil právě zde ve svém článku Výběr excelentních výsledků – Pohled do kuchyně Panelu pro technické a informatické vědy, kde ho nelze přehlédnout, protože tam tvoří samostatnou kapitolu nazvanou Porovnání posuzovaných výsledků v oborech Technických a informatických věd s globálními standardy a světovou špičkou. Na tento článek přitom odkazuji hned na začátku v pozdějším článku Co všechno unese kritika druhého pilíře kafemlejnku, který Chýla kritizuje. Navíc, v diskusi pod tímto článkem znovu opakuji, že jsme požadované srovnání se světem vypracovali a odevzdali.

Mimochodem, Chýla nemůže vědět, zda stanovisko odevzdaly či neodevzdaly „téměř všechny panely“. Takže nechápu, proč to píše. Nevím to ani já. Jenom vím od předsedy jednoho z panelů, že to stanovisko odevzdal.

Dílčí závěr k první části: EP04srovnání se světovou špičkou vypracoval a odevzdal, a já ho tu dokonce zveřejnil. Chýla nemluví pravdu a já za to od něj požaduji veřejnou omluvu na tomto webu!

Část 2

Druhá část Chýlova textu se týká samotného zadání, tedy II. pilíře Metodiky. Tato část je naopak téměř post-faktická a hodně post-argumentační. Připomínám, že já sám nejsem autorem Metodiky a jenom jsem plnil - a splnil! - její zadání. Přesto své názory uvedu – takové debaty mě baví a pokládám je za důležité. Už jsem toho v životě celkem dost zažil: Žil a pracoval jsem v různých institucích - v Akademii věd i na škole - i v různých zemích - dlouhodobě v Holandskou a Švýcarsku, krátkodobě (tři a více měsíců) ještě v Itálii, Skotsku a Kanadě. Mám snad celkem nadhled, místní spory mě málo vzrušují a troufám si nevolit Losnu ani Mažňáka. V řízení a hodnocení výzkumu jsem v ČR na vlastní kůži zažil snad vše možné: ne-hodnocení, předstírané hodnocení, kafemlejnek v různých formách, šíbrovský přístup i spiknutí průměrných, monarchii osvícenou i neosvícenou, manus manum lavat i jánabráchismus.

Na základě mnoha osobních zkušeností soudím, že jak scientometrie, tak peer-review mají silné i slabé stránky a osobně jsem pro jejich moudrou kombinaci. Dobře si uvědomuji, že britský systém funguje hlavně proto, že ho realizují Britové. U nás se zatím po čase pokazila každá metoda. O vadách kafemlejnku bylo napsáno mnohé a nemá smysl to opakovat. Má však smysl upozornit na to, že ani peer-review není bez vady a že je dost zranitelné. Peer-review totiž stojí a padá s kvalitou peers, a ta přirozeně kriticky závisí na kvalitě těch, kteří peers vybírají.

Zavedení Pilíře II bylo nejspíš reakcí autorů Metodiky na kritiku mechaničnosti kafemlejnku a podle mě to byl krok zdařilý a přínosný. Mnohé instituce excelující v kafemlejnku tady dopadly dost špatně a nejspíš i naopak. Každý takový případ by měl být blíže prozkoumán a vysvětlen. Ideální by bylo vše ještě poměřit vstupy: množstvím peněz či akademiků. Nejsem si jist, že k tomu dojde, ale konečně alespoň máme nějaká další data k analýze.

Chýla: „První chybný krok bylo rozhodnutí, že peer review má pouze rozdělovat články do dvou kategorií, A a B, přičemž Áčka mají zahrnovat maximálně 20 procent článků (přesněji vážených autorskými podíly). Takto se samozřejmě excelence hledat nedá a nikde ve světě to tak nedělají. Nesmyslnost tohoto rozhodnutí je ještě umocněna dalším chybným rozhodnutím.“

Šebek: Chýla nevysvětluje, proč by to mělo být chybné, a přesto se s „chybností“ jako prokázanou hned dál pracuje. Tvrzení „nikde ve světě“ je při nejmenším neověřitelné. Na takovou kombinaci argumentačních faulů nemá smysl reagovat.

Chýla: „Druhý zásadně chybný krok bylo rozhodnutí, že peer-review provedou výlučně samy panely, které měly od 6 do 26 členů, Panel 4 přitom 24 a Panel 8: fyzika, o němž bude dále řeč, 23. To je pro velké obory jako Fyzika, Chemie, Biologie, Technické a informatické vědy neproveditelný úkol, tedy pokud má být hodnocení odpovědné. Je si třeba uvědomit, že srovnání kvality článků v rámci tak širokých oborů jako je Fyzika, Chemie, Biologie i Technické vědy nemohou provádět členové Panelu, protože většině článků nerozumí... (Pozn.Šebek: Vynechávám konkrétní příklady z jiných panelů) ...Tady poradí jedině baba nebo bibliometrie, což je ovšem ještě horší, než ta baba, protože publikační zvyklosti v uvedených podoborech jsou zcela rozdílné. Vsadil bych se o karton dobrého vína, že podobná situace je ve všech panelech, včetně Panelu 4.“

Šebek: Ano, vzájemně porovnat kvalitu různých výsledků ze široké skupiny oborů je pro panel EP04 těžký úkol. Nejen proto, že zahrnuje velmi různé obory - od strojařiny, přes elektro, stavařinu, materiály, robotiku až k informatice – ale navíc ještě má porovnat výsledky velmi různých typů a fází vývoje, např. článek, patent, prototyp či technologie. Je významnějším či kvalitnějším výsledkem nový typ betonu, expertní systém UI, nový kardiostimulátor, nová rovnice či rychlý algoritmus? Možných řešení je několik:

Samozřejmě bych mohl panel rozdělit podle specializací: betony dát stavařům, UI informatikům, kardiostimulátory elektrikářům. Jak by to asi dopadlo? Jednak je u nás zvykem své specializaci nadržovat, ale i bez toho bych nejspíš dostal příliš mnoho áčkových návrhů. A co teď s nimi, když můžeme vybrat jen 20%? Má stavařské Áčko větší váhu než strojařské?
Alternativně bych mohl nejprve definovat specializace, přidělit jim předem nějaké kvóty a pak nechat specialisty uvnitř jednat samostatně. To je také špatné, už jen proto, že jsou u nás některé specializace na světové špičce a jiné sto let za opicemi.
Zvolil jsem tedy jiný postup a ten se ukázal velmi efektivní a velmi férový: Ideálně by měl každý zhodnotit všechno, ale to by se udřeli. Spokojil jsem se s tím, že každý zhodnotil co nejvíce výsledků - statistika je uvedena v „Pohledu do kuchyně“.
Přitom jsem různé míry "porozumění" u různých panelistů naopak využil ku prospěchu věci! Každý výsledek se několik (málo) nejbližších specialistů prozkoumalo podrobně a hlavně ho porovnalo s konkurencí. Odborně vzdálenější kolegové ho zase lépe zasadili do kontextu. No a ti nejvzdálenější alespoň pohlídali, aby nejbližší specialisté nenadržovali své tematice. Výsledné porovnání je tak spolehlivé i férové.

Ano, donutil jsem každého člena panelu zhodnotit velmi mnoho výsledků, a jsem na to pyšný! A současně jsem jim vděčný, stálo je to všechny neuvěřitelně moc času. Moc nám pomohly i další použité postupy:

Samozřejmě bylo uvnitř panelu vše veřejné: Panelisté vzájemně viděli individuální hodnocení a společně sdíleli své argumenty. To ještě zvýšilo férovost, zabránilo excesům a přispělo konsensu. K tomu však byla nutné úprava webu, kterou jsem si na Úřadu vlády vymohl. Bohužel trvala skoro 3 měsíce a zdržela začátek naší práce!
Velmi také pomohlo, že jsme kromě originality, míry pokroku a srovnání s konkurencí posuzovali také skutečný ohlas a dopad výsledku. Dopad se sice u různých typů výsledků projeví různě (detaily viz Pohled do kuchyně), přesto ho lze obvykle shrnout do několika málo slov: žádný, malý, střední či velký. Pak lze tuto kategorii snáze porovnávat i napříč přes specializace.

Chýla: „A nyní, abych jen nekritizoval, jak má smysluplný II. pilíř vypadat? Odpověď je prostá: jako první fáze hodnocení týmů a ústavů Akademie věd, které proběhlo v roce 2015 a jehož výsledky jsou od 5. května 2016 veřejně přístupné zde. „

Šebek: Chýla bohužel ke svému návrhu uvádí jen velmi málo detailů. I z nich je ale zřejmé, že cílem bylo celkové hodnocení ústavů a skupin AV, zatímco v Pilíři II jde o výběr „nejvýznamnějších či nejkvalitnějších výsledků v daném oboru.” Při vědomí rozdílných cílů obou metodik jsou pak další Chýlou uváděné „výhody“ pochybné:

V AV sice hodnotili větší množinu výsledků a řadili je do 5 skupin kvality, avšak do té nejvyšší skupiny – excelentní :) - jich vybrali cca 17 %? Není to dost podobné necelým 20 % vybraným v Pilíři II?
Fakt, že Pilíř II pracuje s relativně méně výsledky - v našem případě jich bylo 200 - přece není nevýhodou: Vstupní výsledky jsou totiž už předvybrány zasílajícími organizacemi. Panel tedy už dostává „smetanu“ a vybírá z ní jen „tu nejlepší.“ Vybírá „nej z nej“. Navíc bylo z rychle klesající kvality béčkových výsledků zřejmé, že se nic významného neztratilo. O tom ostatně hovoří mezinárodní srovnání provedené cizinci v panelu, neboť oni z pilnosti porovnali se světem nejen A-skupinu, ale i B-skupinu.
Fakt, že každý výsledek v AV hodnotilo jen několik nejužších specialistů - a pokud ti se nelišili, nikdo už je nekorigoval - vůbec neumožňuje srovnání napříč specializacemi. A už vůbec neumožnuje mezioborovou kalibraci, po které volá Dan Munich v Co všechno unese druhý pilíř kafemlejnku?
Chýla o tom nemluví, ale já odhaduji, že cílem hodnocení v AV snad mohlo být i kolegům poradit – a teprve tam je detailní zdůvodnění opravdu účelné. Překvapivě, kolegové z akademie mi potvrdili, že i tam byla některá zdůvodnění velmi stručná.

Celkově se k Chýlově návrhu nemohu vyjádřit a ani kvalitu hodnocení v AV nemohu posoudit, neboť mi k tomu nedává – kromě několika detailů – skoro žádné informace. Pokud chce Chýla postup AV „prodat“ jako Best Practice, měl by nám o něm nejprve říct vše podstatné. Abychom si udělali názor, musíme samozřejmě vědět např.:

Kdo byli externí hodnotitelé a jakým postupem byli vybráni. „Známka“ má totiž jen takovou prestiž jako ten, kdo ji uděluje.
Jak vůbec hodnocení dopadlo a jak byly konkrétní výsledky hodnoceny? Zejména: Kde je seznam výsledků v nejvyšší kategorii a jejich zdůvodněními? Bez těchto dat nemůžeme hodnocení ani v principu falsifikovat, nemá tedy smysl ani o něm začít přemýšlet.

Dílčí závěr ke druhé části:

Když nejsou podstatné náležitosti zveřejněny, proč bychom měli věřit, že je navrhovaný postup kvalitnější? Když nejsou zveřejněny výsledky a zdůvodnění, proč bychom měli věřit, že dopadlo kvalifikovaněji a správněji než Pilíř II? Je to poněkud legrační: AV i její ústavy jsou veřejné instituce, proč tedy nejsou konkrétní výsledky zveřejněny? Nebo jsou?

Nakonec si oplátkou za Chýlovy expresivní výrazy přece jen malou jízlivost neodpustím: Pilíř II má zřejmý dopad: veřejná sláva a peníze vítězům. Jaký konkrétní dopad mělo hodnocení v AV?

Závěr celkový:

První část Chýlova textu je zjevně nepravdivá. Tady požaduji omluvu.
Vychvalování hodnocení provedeného v AV ignoruji, dokud Chýla nedodá podstatná fakta. Důkazní břemeno je na něm!

Michael Šebek, Praha, 28. 11. 2016

Kategorie: Michael Šebek