Co všechno zahrnuje Metodika 2017+

Další příspěvek do diskuse o výsledcích hodnocení výzkumných organizací podle Metodiky 2017+ přináší Jiří Chýla. Reaguje v něm také na komentáře Daniela Münicha a Michaela Šebka.

Závěrem roku se na tomto serveru objevil text Co přinesla Implementace Metodiky 2017+ informující o konferenci Implementace Metodiky 2017+, která se konala v úterý 18. 12. 2018 v Praze. V textu jsou rovněž odkazy na výsledky Metodiky 2017+ v prvním roce její implementace na výsledky uplatněné v roce 2016 s využitím Modulů 1 a 2., tj.

Bibliometrické zprávy za obory
Bibliometrické zprávy za výzkumné organizace
Zprávy z peer-review vybraných 'nebibliometrizovatelných' výsledků

Týž den se na tomto serveru objevil blog Michaela Šebka Co nám doopravdy dal první běh hodnocení podle Metodiky 17+ II a k výsledkům Metodiky 2017+ se v sérii blogů Co nám dalo Hodnocení'17 vyjádřil i Daniel Münich. Plně souhlasím se závěrem Michaela Šebka

Na to, že byl jen zahřívací a ladicí, ukázal toho první běh hodnocení podle Metodiky 17+ opravdu dost. Dost na to, aby se zvedla vlna odporu těch, kteří se chtějí vrátit do přítmí Kafemlejnku. Nesmí se jim to podařit v žádné formě, jinak by naše země i naše univerzity ve světových srovnáních stále upadaly!

Domnívám se ovšem, že k tomu, aby naše vysoké školy „stále neupadaly“ a aby se i ústavy Akademie věd pomalu přibližovaly k ústavům Společnosti Maxe Plancka, je třeba Metodice 2017+ vdechnout duši, která jí zatím chybí. V červencovém blogu Metodika 2017+ a co dál?, tedy ještě před výsledky testovacího běhu, jsem shrnul svůj názor na Metodiku 2017+ slovy:

Metodika 2017+ je obrovským pokrokem oproti předchozímu stavu hodnocení výzkumu, přesto je to jen první krok ke skutečně smysluplnému hodnocení výzkumných organizací. Z předchozího kafemlejnku Metodika 2017+ přebírá jeho výchozí cíl, jímž je hodnotit v rámci jedné metodiky a jedné procedury jednorázově všechny výzkumné organizace. Tento cíl je třeba opustit, a to ze dvou důvodů. Předně v takové šíři není používán nikde ve vyspě-lé cizině a dále proto, že nepřináší zásadní informace o skutečné úrovni výzkumu v jednotlivých institucích.

V tomto blogu bych chtěl rozvést to, co mám na mysli dvěma tučnými větami. Předně bych se chtěl Metodice 2017+ omluvit, neboť ve skutečnosti není třeba její rámec opouštět, ale je třeba ho jen dobře a plně využít. A to bude záležet především na poskytovatelích institucionální podpory, tedy ministerstvech a Akademii věd. Zvláštní postup je třeba přitom použít na vysoké školy, ale k tomu se dostanu. V Metodice 2017+ probíhá hodnocení na třech úrovních:

hodnocení pro účely řízení a financování celého systému VaVaI – centrální úroveň – za nějž je odpovědná RVVI v součinnosti s Odborem RVVI na Úřadu vlády ČR (ve schválené verzi Metodiky 2017+ to byl Odbor Sekce pro vědu, výzkum a inovace při Úřadu vlády ČR, která byla ovšem zrušena),
hodnocení na úrovni poskytovatelů a
hodnocení pro potřeby řízení VO,

a to v pěti hodnoticích modulech, které jsou pro všechny typy VO společné:
M1 – Kvalita vybraných výsledků,
M2 – Výkonnost výzkumu,
M3 – Společenská relevance,
M4 – Viabilita/Životaschopnost,
M5 – Strategie a koncepce.

S tím, že relativní významnost modulů bude různá podle postavení a mise VO v systému VaVaI. Ty jsou různé, proto se pro účely hodnocení zavádí rozdělení VO do tří segmentů: vysoké školy, ústavy Akademie věd České republiky a rezortní VO. Moduly tvoří základní rámec hodnocení, který může a měl by být upraven na úrovni poskytovatelů. Tato poslední charakteristika Metodiky 2017+ je klíčová.

Je třeba si uvědomit, že na centrální úrovni proběhne hodnocení jen v modulech 1 a 2, zatímco hodnocení v modulech 3-5 proběhne jen na úrovni poskytovatelů a případně jednotlivých výzkumných organizací. Ve schválené Metodice 2017+ je výslovně řečeno, že hodnocení v těchto modulech bude dopracováno v segmentu resortů příslušnými ministerstvy a v případě VŠ MŠMT ve spolupráci s representací vysokých škol. Skutečnost, že hodnocení v modulech 1 a 2 proběhne na centrální úrovni ovšem neznamená, že nemůže proběhnout i na úrovni poskytovatelů, či dokonce výzkumných organizací, ba naopak, z důvodů, které hned osvětlím, taková hodnocení by proběhnout měla a v případě Akademie věd také proběhne.

A nyní několik poznámek k základním charakteristikám centrálního hodnocení v Modulech 1 a 2:

1) Metodika 2017+ není Research Excellence Framework.

Metodika 2017+ na první pohled a z velké dálky připomíná britský systém hodnocení a financování vysokých škol Research Ecellence Framework (REF), nicméně podrobnější pohled odhalí zásadní rozdíl mezi těmito dvěma systémy. REF je „proces of expert review“, tj. hodnocení provádí panely expertů v 36 oborech. Při hodnocení předložených výsledků mohou, ale nemusejí využívat citační analýzu dodanou administrativou REF, ale v pravidlech hodnocení je výslovně uvedeno, že „žádný panel při hodnocení nepoužije impaktní faktory časopisů, žebříčky hodnocených jednotek ani reputaci nakladatelství“. To je pravý opak způsobu hodnocení v Modulu 2, který se opírá výhradně o impaktní faktor, resp. Article Influence Score (AIS). Britský způsob je daleko náročnější na činnost panelů, ale je bezpochyby objektivnější. Má-li mít Modul 2 do budoucna smysl, musí se závislosti na AIS časopisů zbavit.

2) Základní hodnocená jednotka

Tou je v Modulech 1 a 2 ve všech segmentech výzkumná organizace, bez ohledu jak velká je a jak široké spektrum výzkumu pokrývá. To je rozumné pro celkové hodnocení výzkumu na národní úrovni a může sloužit i jako základní informace pro poskytovatele při určení výše institucionální podpory. Rozdíly mezi výkonnostními profily jednotlivých VO jsou v řadě případů obrovské. Z větších veřejných vysokých škol dopadla v Modulu 2 daleko nejhůře Vysoká škola ekonomická v Praze a dále i Vysoké učení technické v Brně a Vysoká škola báňská v Ostravě. To nutně neznamená, že jsou na tom ve výzkumu opravdu tak špatně, protože kategorizace podle kvartilů AIS je jen jeden indikátor, ale je to jistě podnět k hledání odpovědi na otázku, proč mají ve srovnání s jinými srovnatelnými výzkumnými organizacemi, jako jsou například ČVUT a Národohospodářský ústav AV ČR, tak špatné výsledky. Pro odpověď na tuto otázku je třeba provést hodnocení na podrobnější úrovni jednotlivých pracovních týmů. Takové hodnocení je ovšem potřeba v případě všech hodnocených organizací, má-li poskytnout formativní informaci pro poskytovatele i vedení jednotlivých výzkumných organizací, tj. ředitelů ústavů a rektorů a děkanů vysokých škol. Informace o tom, jaký je výkonnostní profil celé Karlovy univerzity nebo třeba Fyzikálního ústavu AV ČR v jednotlivých oborech neříká nic o tom nejdůležitějším, tj. jaké jsou výsledky jednotlivých výzkumných týmů či skupin. Stejný výsledný celkový výkonnostní profil může, ale nemusí skrývat velké rozdíly mezi profily jednotlivých výzkumných týmů. To ukázaly zkušenosti z hodnocení ústavů Akademie věd a jejích týmů v roce 2015. Zatímco profily kvality cca čtvrtiny všech publikací jednotlivých ústavů se lišily většinou málo, profily jednotlivých týmů i těch nejlepších ústavů se často lišily dramaticky, a i v nejlepších ústavech byly vysloveně slabé týmy.

3) Hodnocení podle oborů

Hodnocení v Modulu 2 proběhlo v šesti oborech vycházející z klasifikace OECD Fields of Research and Development:

Natural sciences
Engineering and Technology
Medical and health sciences
Agricultural and veterinary sciences
Social sciences
Humanities and the Arts,

které jsou dále členěny na celkem 41 podoborů. Toto členění má ovšem jen velmi hrubý orientační smysl. Jednotlivé obory i podobory jsou nesrovnatelné z hlediska počtu hodnocených výsledků v Modulu 2, polovina je z oboru Natural Sciences a například do jeho podoboru Biological science bylo předloženo 10krát více článků než do podoboru Nanotechnology oboru Engineering and Technology. Navíc velká část špičkového výzkumu má multidisciplinární charakter a neexistuje smysluplná hranice například mezi fyzikou a materiálovým výzkumem. Jeden z ústavů AV ČR se jmenuje příznačně Ústav fyziky materiálů. Je běžné, že jeden výzkumný tým publikuje články v různých podoborech či dokonce oborech. Smysluplné hodnocení daného týmu zahrnuje všechny výsledky, bez ohledu na to, v jakém oboru byly publikovány. Zvolené členění na obory a podobory má za následek, že za každý ze třech největších podoborů, tj. biologii, chemii a fyziku jsou v panelu Natural Sciences jen dva odborníci. Ti mohou napsat inteligentní komentář k bibliometickému hodnocení, ale nemohou se pouštět do hlubší a kritické analýzy příslušných podoborů v jednotlivých výzkumných organizacích. Pro srovnání v britském REF mají panely Physics, Chemistry a Biology 26, resp. 23 a 36 členů, převážně profesorů britských univerzit.

4) Členění na decily a kvartily pomocí AIS

V Metodice 2017+ je o hodnocení výkonnosti výzkumu v Modulu 2 uvedeno toto:

Výsledky publikované v časopisech, které jsou indexovány v mezinárodně uznávaných citačních databázích, mají být hodnoceny mezinárodně uznávanými bibliometrickými přístupy, např. pořadí dle AIS (Article Influence Score, WOS) nebo SJR (Scimago Journal Rank, Scopus). Výstupem bude strukturovaný soubor bibliometrických ukazatelů s informacemi o kaž-dém hodnoceném výstupu – včetně bibliometrických údajů získaných srovnáním v mezinárodním měřítku – umožňující další agregaci údajů, například na úroveň VO, jejich organizačních jednotek, oborově, podle věcného zaměření výzkumu apod. Podklad bude připraven RVVI. Panely k těmto připraveným podkladům zpracují odborné komentáře.

Tato formulace sice připouští citační analýzu, ale Metodika 2017+ s jejím využitím zjevně nepočítá. Hodnocení založené jen na AIS časopisů ovšem není skutečným hodnocením kvality článku a britský REF využití AIS či IF pro hodnocení výslovně zakazuje.

Bibliometrická analýza Metodky 2017+ je založena na AIS, který je považován za vhodnější indikátor než standardní IF, ale při výpočtu AIS se odkazy z jednoho článku v časopisu na jiný článek v témže časopisu nezapočítávají. To nemá žádné racionální opodstatnění snad kromě snahy zabránit redakcím, aby si redakční politikou AIS uměle zvyšovaly. Cena, kterou použitím AIS za to platíme, je ovšem neúměrně vysoká. Proč má být započítávána citace na článek o Higgsově bosonu publikovaný v European Physical Journal C (špičkovém evropském časopise zaměřeném na Particles and Fields) pocházející z článku publikovaného v nejlepším americkém identicky zaměřeném časopise The Physical Review D, a nikoliv od stejného autora v European Physical Journal C? A podobně obráceně a ve všech fyzikálních a dalších podoborech? To je nesmysl, jehož důsledkem je významné zkreslení citovanosti článků v (pod)oborově zaměřených časopisech, které jsou ovšem často právě ty nejkvalitnější.

Profily jednotlivých VO v kvartilech a v horním decilu jsou počítány nejen podle pořadí oborových časopisů, ale jejich členění bylo stanoveno také podle pořadí článků z daného oboru seřazených podle AIS příslušného časopisu. To už je vysloveně bibliometrická magořina. Připomínám, že (oprávněně) vychvalovaný Nature index nic takového nedělá. Ten vybere sadu 82 časopisů na základě doporučení expertů a excelenci měří počtem článků dané jednotky v těchto časopisech bez ohledu na to, jaká IF či AIS tyto časopisy mají, kus jako kus.

5) Omezení vybraných výsledků pro Modul 1 na nepublikační

Pro hodnocení kvality vybraných výsledků v Modulu 1 byly v prvním běhu Metodiky 2017+ podle instrukce vybírány jen nebibliometrizovatelné výsledky, ačkoliv v Metodice 2017+ takové omezení není a vzdálenou recenzí má být hodnocena kvalita vybraných výsledků bez ohledu na jejich charakter. O tom svědčí formulace na stranách 13 a 15:

Hodnotí se omezený počet vybraných výsledků, jež jsou posouzeny ve dvou odlišných kategoriích. V první kategorii je hlavním kritériem pro posouzení přínos k poznání v daných oborech. Ve druhé kategorii je hlavním kritériem společenská relevance, resp. význam pro společnost a případně jeho dopady (ekonomický či jinak popsatelný přínos společnosti). Společenská relevance je chápána jak ve smyslu „užitečnosti“ (typicky průmyslový výzkum přinášející ekonomické zisky), tak ve smyslu „potřebnosti“ (typicky výzkum rezortní vznikající na společenskou objednávku).
l I. kategorie: zejména (nikoli výhradně) pro výsledky základního výzkumu
l II. kategorie: zejména pro výzkum aplikovaný
Do hodnocení mohou být zařazeny pouze výsledky VO uvedené v RIV. Výběr výsledků pro hodnocení provedou jednotlivé VO. Vybrané výsledky přihlašují VO do kterékoliv ze dvou výše uvedených kategorií na základě svého uvážení.

Pro hodnocení výsledků bude využito dvou základních nástrojů: buď bibliometrické analýzy vybraných výsledků nebo recenzního posouzení vybraných výsledků externími hodnotiteli. Vhodný nástroj pro hodnocení vybraných výsledků navrhuje předkladatelská organizace. V odůvodněných případech může odborný panel její návrh revidovat (například při podezření na podvodné, např. „predátorské“ časopisy13).

Má-li mít Modul 1 smysl na celonárodní úrovni, musí mít výzkumné organizace možnost zařadit mezi vybrané výsledky pro Modul 1 i standardní časopisecké publikace a požadovat jejich hodnocení pomocí vzdálené recenze.

6) Shrnutí

Procedura výsledkům hodnocení v Modulech 1 a 2 na národní úrovni je formulována tak, aby byla proveditelná Odborem RVVI na Úřadu vlády se zapojením oborových panelů čítajících 88 pracovníků (až na jednoho) výlučně českých VO a poskytuje smysluplné výsledky, které podávají základní informace o stavu výzkumu v jednotlivých segmentech našich VO. Formativní informaci, potřebnou jak na úrovni poskytovatelů, tak jednotlivých VO, však neobsahují.

K získání této informace, o níž by měli stát především ředitelé ústavů a rektoři vysokých škol, je třeba provést hodnocení Moduly 1 a 2 na daleko jemnější a detailnější úrovni. Jde především o volbu základní jednotky hodnocení, oborové členění a vymezení výsledků pro Modul 1. Tomu Metodika 2017+ nebrání, naopak poskytuje pro to vhodný rámec a je jen na jednotlivých poskytovatelích, zda ho využijí. Akademie věd hodnocením v roce 2020 takovou jemnější realizaci Modulů 1 a 2 provede.

A co vysoké školy?

Hodnocení v Modulech 3-5 je velmi důležité a bude plně v režii jednotlivých poskytovatelů, kteří mají za úkol rámec Metodiky 2017+ v těchto modulech dopracovat. I pro tyto moduly je klíčové, aby hodnocení proběhlo na úrovni pracovních týmů. To nebude problém pro Akademii věd, jejíž metodika hodnocení je s Metodikou 2017+ konsistentní a předpokládám, že to nebude problém ani pro segment resortů.

Složitější je situace v segmentu vysokých škol, které mají poskytovatele institucionální podpory, jímž je MŠMT, ale to není jejich zřizovatelem, neboť tím je zákon. Vysoké školy se brání tomu, aby o rozdělení institucionální podpory mezi jednotlivé vysoké školy rozhodovalo MŠMT, i když Metodika 2017+ říká jasně

M17+ upravuje hodnocení VO, nikoliv stanovení objemu podpory na DKRVO. Výsledek hodnocení je pouze jedním z podkladů pro financování dané VO. Rozhodnutí o financování je výlučně v pravomoci poskytovatele.

Proto měly VŠ tak v oblibě automat-kafemlejnek a proto se snaží přetavit do sofistikovanějšího kafemlejnku i výsledky hodnocení v rámci Metodiky 2017+. V Modulech 1 a 2 to jde celkem snadno, v Modulech 3-5 je obtížnější výsledky hodnocení algoritmizovat, ale pokud vysoké školy prosadí, aby měly Moduly 3-5 celkově malou váhu, jistě se to podaří. To bych jim ani nevyčítal, ale pak bych očekával, že aspoň ty nejlepší provedou pro svou vlastní potřebu a ve vlastní režii hodnocení v rámci Metodiky 2017+ ve všech Modulech na podrobnější úrovni s tím, že si parametry jednotlivých modulů (základní jednotka hodnocení, oborové členění apod.) nastaví podle svých potřeb, podobně jako to dělá Akademie věd. Pokud to neudělají, jak chtějí rozdělovat institucionální prostředky mezi své fakulty a ty dále mezi katedry atd.? Kafemlejnek jim poskytoval jednoduchý nástroj a současně alibi, že vlastní hodnocení provádět nemusely, ale Metodika 2017+ jim takový komfort nenabízí. Jsem zvědav, jak se zachovají.

Autor: Jiří Chýla