Münich nebo Šebek?

21. 11. 2016

11. listopadu vyšly na tomto portálu dva texty, jeden od Daniela Münicha a druhý od Michaela Šebka, které komentují nedávno zveřejněné výsledky II. pilíře hodnocení výzkumných organizací. Následně vyšel 14. listopadu druhý článek Michaela Šebka, v němž odmítá Münichovu kritiku. Rozhodl jsem se být samozvaným rozhodčím jejich sporu. Můj verdikt: na body vítězí jasně Münich.

31. října se na webové stránce RVVI s osmiměsíčním zpožděním objevil dokument „Hodnocení výsledků výzkumných organizací za rok 2015 - Pilíř II.“, jež obsahuje hodnocení vybraných výsledků za léta 2009-2013. Na výsledky tohoto hodnocení reagovali 11. listopadu Daniel Münich, jenž se metodikou hodnocení výzkumu systematicky věnuje i Michael Šebek, předseda Panelu 4: Technické a informatické vě-dy, jednoho z 11 panelů, které hodnocení provedly.

Daniel Münich je ve svém článku Co všechno unese druhý pilíř kafemlejnku na tomto portálu velmi kritický a jeho kritiku lze shrnout do konstatování, že některé z panelů svou práci vysloveně odflákly a jen tři (Panel 3: Společenské vědy typu C, Panel 8: Fyzikální vědy a Panel 10: Biologické vědy) „budí dojem solidně odvedené práce“ neboť „Většina jejich odůvodnění obsahuje alespoň náznak věcných (odborných) důvodu, proč byl výsledek vybrán jako excelentní.“. Münich se přitom odvolává na Metodiku hodnocení výsledků výzkumných organizací:

V Metodice se na straně 17 jasně píše, že "Kromě vlastního roztřídění výsledků je výstupem panelu i zdůvodnění - uvede především všechny hlavní argumenty, které jej vedly k zařazení výsledků do třídy A".

Nejvíce kritiky přitom schytal právě Panel 4, o jehož práci se pochvalně zmiňuje v článku Výběr excelentních výsledků - Pohled do kuchyně Panelu pro technické a informatické vědy publikovaném v týž den jeho předseda Michael Šebek. Není tedy divu, že se za tři dny nato ozval v příznačně nazvaném polemickém textu Co všechno unese kritika druhého pilíře kafemlejnku. Svůj základní argument proti tvrzení Münicha formuluje takto:

Asi základním nedostatkem Münichovy kritiky je to, že zaměňuje výběr - které konkrétní výsledky byly vybrány za excelentní a jak – se slovním zdůvodněním, které má doprovázet konkrétní vybrané výsledky, ale přirozeně nepopisuje, jakým způsobem byly vybrány. Jde o dvě úplně jiné věci, přičemž hlavní je určitě výběr samotný. Celý Pilíř II totiž stojí a padá s tím, zda jsou nebo nejsou vybrány výsledky skutečně nejlepší.

Na závěr článku na obhajobu, proč jsou odůvodnění tak formální, Šebek mimo jiné uvádí:

Nedostatek času: Po mnoha týdnech zdržení, a diskusí s administrátory a po mnoha dalších týdnech práce na vlastním výběru nám zbyly na sepsání zdůvodnění v podstatě 1-2 dny. Napsat je podrobně, diskutovat jednotlivé formulace se všemi členy, zaparkovat jejich námitky a získat jejich konsensuální souhlas by trvalo další týdny.

Shrnuto: Zdůvodnění jsem sepsal sám za odpoledne a příští den mi to všichni schválili. Možná tohle je trochu odbyté, ale jinak to nešlo. Hlavně ale, nepovažuji to za důležité! Za důležitý považuji samotný výběr!

Poslední věta jasně vyjadřuje Šebkův názor, co je podstatou II. pilíře a co zbytečný balast. Proti sobě tedy stojí dva vyhraněné a protichůdné názory na to, jak má vypadat smysluplný výsledek II. pilíře. Kdo má pravdu, či lépe kdo je pravdě blíže? Můj názor je jasný: jednoznačně Münich. Zbytek textu je odůvodnění, proč jsem o tom přesvědčen.

Pro ty šťastlivce, kteří zatím nepocítili potřebu studovat 60 stránkový opus Metodika 2013, uvádím nejdříve základní fakta o pilíři II. hodnocení, jenž probíhá po oborových skupinách, jichž je 11 (3 jsou pro společenské a humanitní vědy, dále technické a informatické vědy, zemědělské vědy, vědy o Zemi, matematika, fyzika, chemie, biologie a lékařství).

VII.4. Posouzení výsledků

V každé oborové skupině posoudí všechny předložené výsledky panel. Tyto výsledky poté rozdělí do dvou tříd A a B s tím, že třída A odpovídá nejvýznamnějším či nejkvalitnějším výsledkům v daném oboru. Počet výsledků zařazených do třídy A nesmí přesáhnout 20 % z celkového počtu výsledků předložených v rámci dané oborové skupiny. Do této kvóty se započtou i podíly na dříve posuzovaných výsledcích ohodnocených jako „A“, ke kterým se v daném roce přihlásí spolupracující instituce.

Kromě vlastního roztřídění výsledků je výstupem panelu i zdůvodnění - uvede především všechny hlavní argumenty, které jej vedly k zařazení výsledků do třídy A. Výstupem panelu bude též stanovisko, v jakém kvalitativním poměru jsou výsledky zařazené do třídy A ke světovému standardu či světové špičce.

První větu druhého odstavce cituje ve svém článku Münich, druhá jde ještě dál a po panelech požaduje "stanovisko, v jakém kvalitativním poměru jsou výsledky zařazené do třídy A ke světovému standardu či světové špičce". To je nejen velmi rozumné, ale má-li být hodnocení více než hledání jednookých mezi slepými naprosto nezbytné. Jedině tehdy, vztáhneme-li úroveň článku ke světovému standardu či dokonce špičce, má smysl mluvit o "excelenci". Bez takového srovnání nemá tento pojem smysl. Požadavek srovnání se světovou špičkou Panel 4 zcela a nepokrytě ignoruje, je ovšem pravda, že toto činí téměř všechny panely.

Michael Šebek ovšem výraz "excelence" používá i pro všechna svá "Áčka", a to přesto, že Metodika sama je střízlivá a hovoří jen o tom, že třída "A odpovídá nejvýznamnějším či nejkvalitnějším výsledkům v daném oboru." samozřejmě v rámci předložených výsledků. Áčko v jedné množině výsledků tedy může být Béčko v jiné množině. Pojem "excelence" v Metodice nenajdete.

Michael Šebek tedy nepokrytě a svévolně ignoruje zásadní požadavky, které na Panely klade sama Metodika v ustanovení o II. pilíři, který Šebek tak chválí. To je nepřijatelné, neboť pokud by každý ignoroval to ustanovení Metodiky, které nepovažuje za důležité, vnikl by naprostý chaos.

Na konce ještě jednu poznámku. V závěru prvního textu Michael Šebek píše:

V prvním kole – Hodnocení 2014 – byl panel EP04 jedním z mála všeobecně chválených a žádná konkrétní kritika se ke mně nedostala. Obecně ale bylo první hodnocení dle Pilíře II kritizováno hodně. „Vlivní kolegové“ se ho dokonce pokusili zrušit úplně, naštěstí dosáhli jen ročního odkladu. Přestože na konkrétních detailech Pilíře I (kafemlejnku) i Pilíře II a jejich konkrétním provedení je možné kritizovat ledasco, principálně je lze kritizovat těžko. Přesto se to opakovaně děje, a někteří dokonce kritizují oba Pilíře současně. Na kafemlejnku jim vadí „mechaničnost“, a tak si léta přejí nahradit ho expertním hodnocením. Když je ale konečně jejich přání vyhověno v Pilíři II, jsou zase nespokojeni.

Michael Šebek ví, že Dan Münich i já jsme horliví stoupenci peer-review, na němž je pilíř II. založen a oba jsme se výrazně podíleli na přípravě i realizaci nedávného hodnocení týmů a ústavů Akademie věd a proto mu rád vyhovím a budu kritizovat v rámci "ledasčeho" konkrétní kroky provedení II. pilíře a současně uvedu, jak by měly být modifikován, aby vedl k identifikaci skutečné excelence.

Omezený počet vybraných výsledků je OK, i když se mi zdá oněch cca 1440, které byly panely hodnoceny, dost málo.

První chybný krok bylo rozhodnutí, že peer review má pouze rozdělovat články do dvou kategorií, A a B, přičemž Áčka mají zahrnovat maximálně 20 procent článků (přesněji vážených autorskými podíly). Takto se samozřejmě excelence hledat nedá a nikde ve světě to tak nedělají. Nesmyslnost tohoto rozhodnutí je ještě umocněna dalším chybným rozhodnutím.

Druhý zásadně chybný krok bylo rozhodnutí, že peer-review provedou výlučně samy panely, které měly od 6 do 26 členů, Panel 4 přitom 24 a Panel 8: fyzika, o němž bude dále řeč, 23. To je pro velké obory jako Fyzika, Chemie, Biologie, Technické a informatické vědy neproveditelný úkol, tedy pokud má být hodnocení odpovědné. Je si třeba uvědomit, že srovnání kvality článků v rámci tak širokých oborů jako je Fyzika, Chemie, Biologie i Technické vědy nemohou provádět členové Panelu, protože většině článků nerozumí. Budu konkrétní a vezmu Panel 8: Fyzika. Polovinu členů tohoto panelu osobně znám a znám i odbornosti ostatních a proto si dovolím tvrdit, že v panelu je jediný člen, který pořádně rozumí fyzice elementárních částic (ale jen experimentu), jeden, který rozumí jaderné fyzice (ale jen teorii), jeden zkušený astronom, ale ne astrofyzik, několik fyziků pevných látek, což je ovšem podobor, který má sám řadu velmi odlišných směrů. Počet členů, kteří jsou skutečně natolik fundovaní, aby sami posoudili originalitu a význam daného článku kolísá mezi nulou a třemi. Za tu nulu dám ruku do ohně, proto uvádím názvy tří prací, které předložil "můj" fyzikální ústav:

Multibrane Solutions in Open String Field Theory
Open superstring field theory I: gauge fixing, ghost structure, and propagator
The semiclassical limit of W-N CFTs and Vasiliev theory

Těmto pracím nerozuměl v Panelu 8 nikdo, a proto po zásluze žádný z těchto článků nedostal Áčko. Ale i kdyby rozuměl, jak se má srovnat význam těchto článků, které patří do CEP podoboru BF Elementární částice a fyzika vysokých energií, s článkem:

"Brightly Luminescent Organically Capped Silicon Nanocrystals Fabricated at Room Temperature and Atmospheric Pressure"

který patří do podoboru BH: Optika, masery a lasery a kterému rozuměl pořadně zase jen jeden či dva členové panelu? Tady poradí jedině baba nebo bibliometrie, což je ovšem ještě horší, než ta baba, protože publikační zvyklosti v uvedených podoborech jsou zcela rozdílné. Vsadil bych se o karton dobrého vína, že podobná situace je ve všech panelech, včetně Panelu 4.

A nyní, abych jen nekritizoval, jak má smysluplný II. pilíř vypadat? Odpověď je prostá: jako první fáze hodnocení týmů a ústavů Akademie věd, které proběhlo v roce 2015 a jehož výsledky jsou od 5. května 2016 veřejně přístupné zde. Jen ve zkratce jeho hlavní zásady:

Stejně jako ve II. pilíři oborové informované peer-review, tedy peer-review dopl-něné podrobnými bibliometrickými informacemi, jen místo 11 jsme měli 13 oboro-vých panelů.
Stejně jako ve II. pilíři omezený počet vybraných článků, jen jejich počet byl 4krát větší, celkem 5580, což představovalo cca čtvrtinu všech článků a nikoliv jen cca 1,5 % jako ve II. pilíři.
Oborové panely ale samy nehodnotily, jen jeho členové přidělovali články ex-terním hodnotitelům, na každý článek nejméně dva externí hodnotitelé, což byli již specialisté na konkrétní dané téma. Členové panelů zasahovali je v případě, kdy se hodnotitelů hodnocení externích hodnotitelů výrazně lišilo.
Žádná Áčka a Béčka, ale článkům hodnotitelé přiřadili jeden z pěti stupňů kva-lity, jejichž definice jsme převzali doslova z britského systému REF:
1. Quality that is world-leading in terms of originality, significance and rigour.
2. Quality that is internationally excellent in terms of originality, significance and rigour but which falls short of the highest standards of excellence.
3. Quality that is recognized internationally in terms of originality, significance and rigour.
4. Quality that is recognized nationally in terms of originality, significance and rigour.
5. Quality that falls below the standard of nationally recognized work. Or work which does not meet the published definition of research for the purposes of this assess-ment.

Na základě takto získaných výsledků byly sestaveny tzv. profily kvality jednotlivých týmů i ústavů Akademie věd, ale lze s nimi provádět i různé další kejkle, například s nimi lze nakrmit algoritmus na rozdělovaní peněz. A také se můžeme začít dohadovat, kterým stupňům v uvedené stupnici odpovídá „excelence“.

Doufám, že Michael Šebek bude s mou konstruktivní kritikou spokojen a bude se snažit prosadit tento způsob i ve II. pilíři současné Metodiky.

Zpět do rubriky Jiří Chýla

Jiří Chýla

Nejnovější od Jiří Chýla