Leidenský manifest Česku (5.díl)

15. 6. 2018

Deset principů Leidenského manifestu vysvětluje, jak by se měla a neměla používat bibliometrie k hodnocení vědy. Principy nastavují kritické zrcadlo dosavadní české praxi. Přináším další v řadě [1|2|3|4] zamyšlení nad pátým principem. Ten hovoří o potřebě kvality a ověřitelnosti dat pro bibliometrické ukazatele. V tomto ohledu vychází česká praxe poměrně dobře. Ve sběru dat jsme přeborníci. V jejich zpracovávání a využívání je to přesně naopak.

5. Leidenský princip: Ti, kteří jsou hodnoceni, by měli mít možnost ověřit data a analýzy. V zájmu zajištění kvality dat by měli mít všichni výzkumníci zahrnutí v bibliometrických studiích možnost ověřit, že jejich výstupy byly správně zpracovány. Ti, kteří jsou zodpovědní za nastavování a řízení procesů hodnocení, by měli zajistit přesnost dat – kontrolu mohou provádět sami hodnocení či třetí strana. Univerzity by mohly tento princip zahrnout do svých informačních systémů a zohlednit ho při výběru poskytovatelů těchto systémů. Třídění a zpracování přesných, kvalitních dat vyžaduje čas a peníze a mělo by se s nimi počítat v rozpočtu.

Všeználek RIV

Už minule jsem psal, že hlavním zdrojem dat pro bibliometrické analýzy je u nás proslavený RIV - tedy Registr Informací ve Výzkumu. Na mezinárodní poměry skvělý počin, ale muziky by se s tím dalo hrát určitě mnohem více:
Odezva on-line vyhledávače RIV je mnohem delší než velmi dlouhá.
Údaje v RIVu nejsou se zárukou. Například vážně pochybuji, že by někdo v publikovaných článcích kontroloval uvedení afiliace autorů k vykazujícím pracovištím. Vrtá mi hlavou, nakolik se ověřuje samotná existence vykázaného výsledku. Unikátní identifikátor výsledků, který by umožnil propojení a kontroly s databázemi výsledků WoS a Scopus, totiž stále není povinně vykazovaným údajem. Může také být, že některé výsledky jsou jiného typu, než je v RIVu vykázáno nebo že výsledek dané instituci vůbec nepřísluší.
Z dat RIVu člověk bohužel nevyčte, ke kterým institucím autoři výsledku patří.
Není jasné, jakou paseku nadělal přechod z oborového členění RIV na dělení FORD. V současné podobě RIVu, už podle členění RIV, již hledat výsledky nelze, pouze podle oborů FORD. Ale když už si nějaký najdete a zobrazíte, je u něj uveden obor RIV a nikoliv FORD. Pokud se po dostatečně dlouhé přechodné období nebudou výsledky zařazovat jak do RIV, tak FORD, bude hodně obtížně sledovat časové trendy.
S vyhledanými výsledky nelze už nijak dále operovat či je analyzovat, pouze si je můžete stáhnout jako XLS soubor.

Finanční body na draka

Údaje z RIVu, které dosud vstupovaly do každoročních Hodnocení v tzv. prvním pilíři, byly zřejmě kontrolovány o něco lépe než zdrojová data v RIVu. Data dokonalá a bezchybná určitě nejsou, ale podíl chyb v nich asi nebude zásadní, pokud nás nezajímají bibliometrické ukazatele jednotlivců, ale pouze pracovišť, výzkumných organizací nebo ČR jako celku. Mnoho nesrovnalostí v datech Hodnocení bylo a zůstává pokud jde o výpočet finančních bodů. Ale podle kafemlejnkových bodů se u nás pouze rozdělují peníze, nejsou to bibliometrické ukazatele, takže vlastně o nic zásadního nejde, že :=).

Informační systémy

Kapitolou samou pro sebe jsou data v informačních systémech výzkumných organizací. Ty má každá organizace nastaveny jinak a je těžké to zde souhrnně komentovat. Proto jen pár poznámek:

Informační systémy výzkumných organizací daty o vědeckých výsledcích poctivě plní stovky knihovníků a dalších pracovníků. Většina vložených dat však v lepším případě slouží pouze administrativním účelům. Většina institucí nad daty bohužel nemá vystaveny analytické nadstavby a analytické nástroje. Příkladem dobré praxe může být informační systém Akademie věd ASEP, který se dále vyvíjí.
Chcete si třeba ověřit, zda počet a vědecký význam článků vašeho pracoviště odpovídá jeho velikosti, počtu vědců, případně rozpočtu. O vlastní instituci toho díky vlastnímu informačního systému víte dost a dost, ale o jiných pracovištích působících ve stejném oboru zpravidla nevíte skoro nic.
Chcete posoudit citovanost článků vědců vlastního pracoviště. Celkové počty citací vám moc nepomohou dokud nevíte, jaká citovanost je v příslušném oboru u publikací z daného roku na jiných pracovištích. Abyste to zjistili, musíte si z WoS stáhnout data o všech článcích z ČR, které v daném oboru a roce vyšly. To je ovšem docela fuška. Lepší je si jako benchmark zvolit nějakou konkrétní instituci. Pak ale zase budete muset řešit velký problém s tím, jaké podoby mají její afiliace v databázi.

Proto, a nejen proto, budou celostátně konsolidovaná data v podobě dosavadních Hodnoceních pro bibliometrické analýzy nadále velmi důležitá. Umožní bibliometricky srovnávat pracoviště alespoň v rámci Česka, například jako zde. Sice stále nejsou a jistě nebudou k mání data o počtu vědeckých úvazků, ale díky celkem spolehlivému systému osobních identifikátorů vědců (VEDIDK) lze tyto počty alespoň zhruba odhadnout na základě počtu autorů. Otázka je, zda se konsolidací celonárodních dat bude někdo na úrovni státu po nástupu Metodiky 2017+ nadále zabývat. První krok k degradaci informační hodnoty dat v RIVu už začal skokovou změnou používaného oborového členění.

Každopádně by každá výzkumná instituce měla zařadit krok včasného ověření vstupních dat do procesů směřujících k vytvoření bibliometrických zpráv. Nejlepší je, když jsou do kontrol zapojena i samotná hodnocená pracoviště. I zanedbatelné chyby v datech mohou poškozené naštvat natolik, že svým kritickým křikem zdiskreditují bibliometrické analýzy jako celek.

Autor: Daniel Münich

Text vyšel 14. 6. 2018 na webu metodikahodnoceni.blogspot.com.

Zpět do rubriky Daniel Münich