DORA a ARRA: Módní vlny v hodnocení vědy

Využívání bibliometrie ve světě i u nás zažívá jízdu na horské dráze – od prvotního nadšení po přehnané zatracování. Hlavní roli v tom sehrály deklarace DORA a ARRA. První DORA popsala bibliometrii jako scénář k apokalyptickému filmu. Pozdější deklarace ARRA opět bibliometrii přiznala užitečnost v rámci hodnocení formou peer-review.

Česká jízda na této horské dráze vypadala podobně. Jen s nějakým zpožděním a s většími extrémy. Módní vlna přehnaného zatracování bibliometrie ve světě proběhla v letech 2010–2020. U nás zřejmě nabývá vrcholu až nyní. Bibliometrie není zlo, ale nástroj jako každý jiný, který dobře slouží, pokud je správně použit. Pokud ji uživatelé používají špatně, je to jako používat kuchařku k řešení matematických rovnic. Hodnocení vědy je velmi komplexní úkol, který vyžaduje kombinovat peer-review přístup a kvalitní bibliometrickou oporu. Bez toho riskujeme návrat do éry „black box managementu“. Odpor proti bibliometrii pohání nejen zklamání z jejího nevhodného používání a interpretace. Roli hraje i nelibost řady podprůměrných vědců a pracovišť z toho, že bibliometrie jejich podprůměrnost příliš zřetelně nasvěcuje.

Před rokem 2010

Před rokem 2010 se u nás o hodnocení výzkumných organizací dalo mluvit jen stěží. Pro vysoké školy MŠMT tehdy organizovalo soutěž o tzv. výzkumné záměry. Smysluplné hodnocení vědy na vysokých školách v podstatě absentovalo, o bibliometrické informační opoře nemluvě. Ani interní hodnocení vědy na většině vysokých škol tehdy neexistovalo, respektive bylo spíše jen hrou na hodnocení. Jak před rokem 2010 vypadala hodnocení pracovišť Akademie věd (AV ČR) si už nepamatuji a na svém webu AV ČR k tomu už bohužel nic nemá. Ale tipuji, že pokud nějaká hodnocení měla, bibliometrická informační opora v nich hrála roli malou, nejspíše žádnou.

Roky 2010–2018

Opakovaně zklamávající pokusy o hodnocení vědy připravily živnou půdu pro ďábelský kafemlejnek. Rozšířené zklamání posílilo přesvědčení, že nespolehlivý lidský soud v hodnocení nahradí „neovlivnitelně" tvrdá čísla bibliometrických indikátorů. I díky tomu pak hodnocení a hlavně financování vědy na našich vysokých školách kafemlejnek zcela opanoval. Bylo to zhruba v letech 2010–2018. Z pohledu hodnocení vědních oborů a institucí ale z výsledků kafemlejnku nikdo moc chytrý nebyl (1 / 2). Pro účel financování byl ale kafemlejnek jednoduchým a pohodlným nástrojem, který z mnohých sejmul díl manažerských zodpovědností. Spíše zázrakem se v rámci interního hodnocení Univerzity Karlovy vedené tehdejším prorektorem pro vědu Janem Konvalinkou podařilo prosadit použití velmi detailní a pro fakulty informativní bibliometrické opory, na které jsem měl možnost se podílet (článek / bibliometrická zpráva / instruktážní videa).

Kafemlejnek ale zároveň vedl ke spoustě absurdit. Na světě asi těžko najdeme jinou zemi, kde by bibliometrické indikátory v tak obrovském měřítku plnily roli hodnocení vysokých škol a jejich součástí s tak zásadním dopadem na rozdělování veřejné finanční podpory vědy. Hlavní problém spočíval právě v tom, že se na základě čisté bibliometrie začala rozdělovat institucionální podpora – peníze, hodně peněz. Dřevní verze kafemlejnku pracovaly s naivně primitivními bibliometrickými ukazateli a pravidla se postupem let hodně měnila. Bylo to jak na základě postupného poznávání nesmyslů v nastavení, tak ve snaze krotit nezamýšlené vedlejší efekty, ale namnoze také jako důsledek prosazování parciálních finančních zájmů.

Absurdnost kafemlejnkového financování a jeho neblahé dopady nakonec vedly k jeho opuštění koncem druhé dekády. Kafemlejnek však v našem vysokoškolském systému zanechal hluboké jizvy citelné dosud. Jednak v podivných proporcích, v jakých se dosud rozděluje veřejná institucionální podpora výzkumu mezi vysoké školy a vědní obory. Dále v tom, že na většině vysokých škol se nějaký klon kafemlejnku, spíše pro potřeby financování než hodnocení vědy, používá dodnes.

Nový způsob národního hodnocení vědy dle Metodiky 17+ na vysokých školách dosud také nepředstavoval žádný zázrak. Ale výrazný posun kupředu proti kafemlejnku představuje rozhodně (1 / 2). Bibliometrie je v něm důležitou součástí hodnocení oborů a výzkumných organizací v tzv. Modulu 2 a rok od roku se metodika po malých krůčcích zlepšuje. Není to určitě dokonalé, ale je to mnohem lepší než kafemlejnek.

Dlužno říci, že AV ČR se plné aplikaci kafemlejnku podařilo vyhnout. Web AV ČR informuje o prvním kole hodnocení v letech 2010–2011 (detaily zde). Hodnotilo se tehdy období 2005–2009. Na kolo další se výrazně modernizovala metodika, podle které se odehrála další dvě kola, která postupně zhodnotila období 2010–2014 a 2015–2019. V těchto kolech bibliometrie roli informační opory hrála, byť vypovídací schopnost zvolených bibliometrických ukazatelů byla dost diskutabilní.

Vlna odporu k bibliometrii ve světě

Vlna kritiky vůči používání bibliometrických indikátorů pro hodnocení se v zahraničí zvedla v polovině minulé dekády. Tehdy ještě hodnocení VŠ u nás zcela ovládal bibliometrizovaný kafemlejnek. Kritika bibliometrie v zahraničí nejdříve v roce 2018 vyústila v deklaraci DORA. O její idealistické naivnosti jsem psal zde. DORA byla tehdy v zatracování bibliometrie pro potřeby hodnocení vědy velmi striktní.

V roce 2022 pak následovala deklarace či dohoda ARRA (Agreement on Reforming Research). Základní závazky ARRA najdete zde, samotný text zde a psali o ní také na VědaVýzkum.cz. ARRA bibliometrickým indikátorům už informační roli v hodnocení opět přisuzuje. O klíčových závazcích ARRA číslo 2 a 3 píši podrobněji níže.

Na podporu propagace dohody ARRA, rozšiřování sítě jejích signatářů a postupné implementace závazků ARRA do národních a institucionálních systému hodnocení vznikla platforma The Coalition for Advancing Research Assessment (CoARA). Z Česka už má ARRA také řadu signatářů. Zde o přihlášení psala AV ČR v roce 2022. Přímo k tématu tohoto blogu se váže její závazek, který se přímo váže na 3. závazek ARRA: ...opuštění nevhodného používání publikačních metrik (např. Journal Impact Factor a Article Influence Score) v hodnocení. Jak vysvětluji níže, jde o případ špatné interpretace 3. závazku ARRA.

Obecné argumenty proti absolutnímu odmítání bibliometrie a na podporu komplementárního používání bibliometrických ukazatelů jako informační opory peer-review nedávno sepsala skupina autorů včetně lidí z řídicího výboru CoARA. V jejich článku se kromě užitečnosti bibliometrie osvětluje nevhodnost paušálního odmítání bibliometrie bez ohledu na úroveň hodnocení. Převzatý diagram níže ukazuje, že pro hodnocení zemí, vědních disciplín (na úrovni zemí) bibliometrie ve vhodnosti dominuje nad metodou peer-review. Role bibliometrie je stále silná pro hodnocení na úrovni univerzit (případně pracovišť AV ČR). Doporučovaný význam a vhodnost bibliometrie pak klesají s hodnocením kateder a výzkumných týmů až mizí na úrovni jednotlivých vědců.

K závazkům ARRA

Pro debaty ohledně (ne)vhodnosti bibliometrické informační opory pro hodnocení vědy jsou klíčové ARRA závazky číslo 2 a 3.

ARRA závazek č. 2 říká: Hodnocení výzkumu má být založeno především na kvalitativním hodnocení, pro které je klíčové vzájemné hodnocení, podpořené odpovědným používáním kvantitativních ukazatelů. Jinými slovy se zde říká, že hodnocení má být primárně založeno na přístupu peer-review. Ale také tam stojí, že je v něm klíčová možnost srovnávání (s jinými organizacemi) a také kvalitní informační bibliometrická opora. Když to vezmeme z druhé strany, říká se tam, že dobré hodnocení vědy se bez dobré bibliometrické opory neobejde.

ARRA závazek č. 3 říká: Upustit od nevhodného používání metrik založených na časopisech a publikacích při hodnocení výzkumu, zejména od nevhodného používání Journal Impact Factor (JIF), Article Influcence Score (AIS) a h-indexu jako ukazatelů kvality a dopadu. Toto doporučení, potažmo závazek, používání bibliometrických ukazatelů nezakazuje, ale pouze odrazuje od jejich nevhodného používání. Závazek je bohužel formulován nejasně. Lze totiž interpretovat i tak, že vylučuje používání zmíněných ukazatelů absolutně. To je ale špatná interpretace, protože na samotné podstatě ukazatelů IF, AIS a h-indexu (1 / 2) nic nevhodného není. Nevhodné může být pouze jejich použití či jejich interpretace.

Pokud je hodnotitelé chápou špatně, je to jakoby používali kuchařku k řešení matematických rovnic. Takže třeba platí, že je krajně nevhodné těchto ukazatelů používat jako klíčových k hodnocení jednotlivých vědců a menších týmů, výsledků aplikovaného výzkumu, výzkumu v humanitních oborech atp. Tyto ukazatele jsou ale v zásadě dost spolehlivě použitelné pro hodnocení základního výzkumu pracovišť, institucí a zemí v mnoha oborech. Kdo čte mé blogy jistě ví, že uvedené indikátory sice mají mnohé nedostatky, ale ty má i hodnocení peer-review. Když se bibliometrické ukazatele používají na vhodné úrovni hodnocení, obezřetně a správně se interpretují, dokážou o zemi, o výzkumné organizaci či větším týmu odhalit mnohé, co by mnohdy v peer-review ušlo pozornosti.

Arra 3

Co si o tom myslím já

Hodnocení vědy je z podstaty věci extrémně náročná agenda. Hodnocení čistě formou peer-review, aby dávalo solidní výsledky, je velmi časově a finančně náročné. Deklarace DORA sice peer-review sice explicitně neuváděla, ale je to jediné, co nám při absolutním odmítnutí bibliometrie zbývá.
Ve spoustě vědních oborů základního výzkumu bibliometrie nabízí jedinečné srovnání týmů, pracovišť, institucí a zemí. Jedinečnost spočívá v tom, že se takové srovnání dá realizovat nepoměrně rychleji (či častěji), levněji a že vůbec nějaké srovnání nabízí. Čísla samozřejmě musí posoudit znalé lidské oko a rozum, tedy musí projít procesem peer-review, být informačním podkladem pro peer-review. Bibliometrické srovnání může hodnoticí panel upozornit na věci, kterých si nevšiml. To je pravděpodobnější v případě, kdy je panel složen z lidí různých oborů a adekvátnost vnitro-oborového srovnání závisí na jednom dvou členech panelu daného oboru. Panel se případně může dopátrat příčin odchylek hodnot bibliometrických údajů daného pracoviště od externích benchmarků, což může odhalit dobrou či špatnou praxi daného pracoviště. A v neposlední řadě bibliometrická srovnání výrazně snižují pravděpodobnost, že lidský faktor v peer-review selže, záměrně či nezáměrně. Panel se totiž musí s bibliometrický popisem skutečnosti nějak přesvědčivě vypořádat.
Bibliometrické ukazatele a jejich interpretace samozřejmě mohou být více či méně vhodné, zkreslené, zavádějící až vyloženě špatné. Avšak s peer-review hodnocením je to úplně stejné. Nejsou žádné garance, že peer-review hodnocení bude vyvážené a objektivní. Může být stejné nebo více nevyvážené a neobjektivní jako bibliometrické ukazatele. Také je ohroženo nedokonalostmi a vždy jde jen o jejich míru. Zatracovat kvůli nedokonalostem pouze a právě bibliometrii je naivně idealisticky zkratkovité. Oba přístupy by se měly vzájemně doplňovat a mělo by se využívat jejich komparativních výhod.
Finančně a časově realizovatelné a ve výsledku solidní a užitečné hodnocení vědy na úrovni výzkumných pracovišť, institucí a zemí podle mě nutně vyžaduje kombinaci peer-review a bibliometrické opory. Zvykl se pro to používat termín informované peer-review. Bibliometrie nabízí jinak obtížně dostupné srovnání (s jinými týmy a pracovišti v oboru). Také odhaluje fenomény, na které musí panelisté zapojení do peer-review být schopni najít a dát jasné vysvětlení.
Peer-review metody hodnocení podstatně zvyšují světovou poptávku po dobrých vědcích do panelů. Jenže ti pak místo vědy musí trávit drahocenný čas časově náročným vzájemným hodnocením. Pár z nich to občas dělá pro-bono, většina za honoráře, které hodnocení výrazně prodražují. Spoléhání se na práci levnou či zdarma pak vede k tomu, že peer-review se dělá, spíš aby se neřeklo.
Dehonestace používání bibliometrie jako celek a zároveň absence kvalitního systému peer-review pak otevírá dveře k tomu, aby se hodnocení provádělo jen formálně (black box management). To je velmi nebezpečné zejména pro země s nedostatečně rozvinutou kulturou výzkumu a hodnocení, což je případ zemí střední a východní Evropy a dalších.

Česká vlna odporu vůči bibliometrii

AV ČR od využití bibliometrie pro nadcházející hodnocení pracovišť a týmů (za období 2020–2024) ustoupila zcela. Zřejmě si oba diskutované závazky ARRA interpretovala absolutisticky. Jsem proto docela zvědav, na jakém základě budou oborová srovnání pracovišť a týmů AV ČR, národní a mezinárodní, založena a nakolik budou zřejmá, pochopitelná a transparentní.

Minimální, pokud vůbec nějakou roli v hodnocení bude mít bibliometrie na největší z českých univerzit, Univerzitě Karlově, která šla v minulém hodnocení ostatním příkladem. Na druhé straně na UK budou bibliometrie a automatové principy kafemlejnku hrát velkou roli ve financování. Je vlastně absurdní, že bibliometrie by měla hrát větší roli ve financování než v hodnocení samotném. Mělo by to být přesně naopak. Jak to je s využíváním na dalších českých výzkumných univerzitách, zatím moc nevím. Budu proto rád, když mi k tomu něco napíšete (Tato e-mailová adresa je chráněna před spamboty. Pro její zobrazení musíte mít povolen Javascript.) nebo pošlete odkazy. Určitě je třeba rozlišovat mezi hodnocením a mezi financováním, protože to namnoze bývají dvě odlišné věci.

V národním hodnocení Metodiky 2017+ se bibliometrie jako informační opora stále drží. Ale tlaky na redukci jejího rozsahu a významu neslábnou. Za tlakem stojí i myšlenkově překonaná deklarace DORA a nepochopení závazků ARRA číslo 2 a 3. Nemalou roli ovšem hraje i nelibost řady podprůměrných vědců a pracovišť z toho, že bibliometrie jejich podprůměrnost příliš zřetelně nasvěcuje.

Autor: Daniel Münich

Text vyšel na autorově blogu Metodikahodnoceni.blogspot.cz.

Příspěvky z rubriky Blogy a komentáře nijak nevyjadřují názory a postoje redakce.

O zodpovědném hodnocení vědy včetně DORA a ARRA jsme publikovali také tento text Michala Petra.

Kategorie: Daniel Münich