facebooktwittergoogleinstagram

Věda a výzkum

Portál Vědavýzkum.cz - Nezávislé informace o vědě a výzkumu

IOCB Tech, s.r.o. - hlavní partner portálu Vědavýzkum.cz

Hlavní partner portálu
facebooktwittergoogleinstagram

Jak lépe využívat otevřená data v sektoru vysokých škol?

28. 12. 2021
Jak lépe využívat otevřená data v sektoru vysokých škol?

S ideou otevírání dat se v současné době setkáváme na různých úrovních stále častěji. V kontextu výzkumu, vývoje a inovací narážíme na pojem open science data, v kontextu veřejné správy jde především o pojem otevřených dat, který je definován přímo v zákoně č. 106/1999 Sb., o svobodném přístupu k informacím.

V obou případech se jedná v zásadě o naplňování principů FAIR (F – findable, A – accessible, I – interoperable, R – reusable) a principu as open as possible but as closed as necessary, přičemž v případě otevřených dat veřejné správy jsou zmíněné principy FAIR zajištěny splněním podmínek, které stanovuje výše zmíněný zákon.

Pro úplnost v krátkosti dodejme, že otevřená data jsou dle zák. č. 106/1999 Sb. taková data, která jsou dostupná na internetu a dále:

  • jsou strojově čitelná – tj. jsou ve formátu, který umožňuje aplikacím přistupovat k jednotlivým datovým položkám, a jsou strukturována tak, aby umožňovala automatické zpracování,
  • jsou ve formátech s otevřenou specifikací – tedy práce s nimi není závislá na konkrétní aplikaci/programu (příkladem jsou formáty jako XML, JSON, CSV, …),
  • jsou opatřena neomezující licencí – která neomezuje jejich uživatele ve způsobu použití: lze je použít jakýmkoliv způsobem, který není v rozporu se zákonem, mj. tedy umožňuje komerční užití a umožňuje další šíření, přičemž při dalším šíření musí mít všichni uživatelé stejná oprávnění s daty nakládat,
  • jsou zaregistrována v Národním katalogu otevřených dat (NKOD).

Chcete-li proniknout do tématu otevřených dat ve smyslu zákona č. 106/1999 Sb., pak vhodným zdrojem pro seznámení je série bezplatných elearningových kurzů MV ČR, zejména pak ten úvodní.

Hlavní ideou v případě open science data je především akcelerace výzkumných aktivit („jednou získaná data mohou posloužit jako podklad pro výzkum realizovaný dalšími jednotlivci či skupinami“) a zajišťování vyšší míry reprodukovatelnosti – a tím pádem i důvěryhodnosti – výzkumu. U otevřených dat veřejné správy pak jde zejména o zajišťování transparentnosti veřejné správy a usnadňování vzniku aplikací, které nad těmito daty staví. Příkladem mohou být dnes velmi populární interaktivní vizualizace – prominentními zástupci v současné době jsou nejrůznější vizualizace otevřených dat věnujících se koronavirové epidemii, přičemž data jsou poskytována Ministerstvem zdravotnictví ČR a vizualizace jsou dílem třetích stran.

Otevřená data a vysoké školy

Postavení vysokých škol ve vztahu k otevírání dat je dvojaké: na jedné straně jde o výzkumné organizace, na kterých se výzkum reálně provádí, a proto je pro ně relevantní zabývat se open science daty, na druhé straně se jedná o orgány veřejné moci (např. rozhodnutí o přijetí je správním aktem, udělení titulu taktéž) a spadají tudíž pod zák. č. 106/1999 Sb.

Z hlediska povinnosti VŠ zveřejňovat určité datové sady jako otevřená data dle uvedeného zákona (např. metadata úředních desek) je situace poněkud nepřehledná. Toto téma se pokusíme osvětlit v jednom z následujících pokračování této série.

Z našeho pohledu je ale v tuto chvíli klíčové, že vysoké školy mají možnost podmínky pro publikování dat dle zmíněného zákona splnit (protože mohou registrovat své sady v Národnímu katalogu otevřených dat). V řadě případů dává smysl určité datové sady jako otevřená data publikovat, aniž by k tomu byla nutná legislativní povinnost, zkrátka jen proto, že by to bylo „více než přínosné“. Uveďme například:

  • výběrová řízení na pracovní pozice
  • vypisovaná témata dizertačních prací
  • podpořené projekty interních grantových agentur
  • otevírané studijní obory

Pro výše uvedené oblasti obecně platí, že tato data:

  • nebývají důvěrná – naopak, typicky bývají zveřejněná na webu příslušné VŠ či fakulty,
  • bývají často uchovávána již ve strukturované podobě (např. na SQL serveru spolu s dalšími daty informačního systému dané VŠ),
  • často existuje zájem ze strany VŠ na jejich propagaci,
  • nejedná se o „science data“, ale o data, která jsou výzkumu velmi blízká, případně jde o jakási metadata o výzkumu.

Je taktéž zřejmé, že ve všech těchto případech dává hluboký smysl agregování těchto dat, nad kterými může následovat analytická práce/aplikace, anebo třeba mapové vizualizace, doporučovací systémy, webové aplikace pro filtrování, vyhledávání atp.

Naprosto klíčovým momentem a posunem v uvažování je fakt, že zde nejde o budování nějakých nových informačních systémů, které musí být spravovány, do nichž musí být data různě komplikovaným způsobem vkládána (přičemž se často naráží na problémy s aktualizací/aktuálností) atp. Jde o přístup, při kterém jednotlivé instituce („původci dat“) svá data pouze dávají k dispozici a každý má možnost získat jejich aktuální stav. Způsob jejich zpracování je pak záležitostí třetích stran.

Podívejme se na navrhované datové sady poněkud podrobněji

Pracovní pozice (zejména akademické a výzkumné)

Kvalitní personální obsazení je alfou a omegou činnosti jakékoliv organizace, v akademických a výzkumných organizacích to platí dvojnásob. V případě, že by datasety aktuálně nabízených pozic, (respektive výběrová řízení) byly poskytovány jako otevřená data (tedy mimo jiné strojově čitelná a s nevylučující licencí), bylo by přímočaře možné vytvořit portál, na němž by se nabídka těchto pozic agregovala, přičemž funkcionalita by mohla sahat od pokročilejšího filtrování přes mapové vizualizace („které akademické/výzkumné pozice jsou aktuálně nabízeny v okruhu 80 km od mého bydliště“) až po doporučovací systémy pracující s profily uchazečů. Není těžké si také třeba představit systém, který by například v rámci intranetu dané VŠ zpřístupňoval absolventům doktorského studia aktuální postdoc pozice na různých, předem vybraných pracovištích – v podstatě bez zásahu člověka/administrátora.

Pozn. Na našem webu www.researchjobs.cz se shromažďuje nabídka těchto pozic, které jsou dostupné i na webu Vědavýzkum.cz, část jich je pak exportována i na další weby např. na web Universitas.cz a zejména na evropský portál Euraxess. Zmíněné pozice jsou však typicky zadávány „ručně“ jednotlivými personalisty. V současné době ale již testujeme možnost automatického importu pozic, které by byly poskytovány právě v podobě otevřených dat (a které by právě naším prostřednictvím mohly být dále přenášeny na Euraxess a řadu dalších spolupracujících webů. V případě zájmu, prosím, kontaktujte autora.).

Přínosem tohoto řešení je především úspora času personalistů, neboť pozice by byla zadávána pouze jednou (do systému příslušné VŠ) a ostatní weby by tato data získávala právě v podobě otevřených dat.

Nabízená témata dizertačních prací

Zde je situace podobná jako v případě pracovních pozic, je však zjevné, že dat v této oblasti je řádově více – zatímco otevřených pozic na českých VŠ jsou aktuálně malé stovky, vypisovaných témat dizertačních prací jsou tisíce. Bohužel, na jednoduše položený dotaz „jaká jsou aktuálně vypisovaná témata dizertačních prací v oblasti molekulární biologie?“ nelze bez netriviálního úsilí, vyhledávání na webech relevantních pracovišť a návazné komunikace získat alespoň přibližnou odpověď. Pokud by poskytovaly jednotlivé VŠ seznamy těchto témat v podobě otevřených dat, bylo by snadné agregovat je na jednom místě a poskytnout tak potenciálním uchazečům o doktorské studium rámcovou orientaci v nabídce napříč ČR. Vše se ještě umocňuje v situaci, kdy se na celou věc podíváme ze zahraniční perspektivy: chceme-li na naše pracoviště lákat uchazeče ze zahraničí, musíme být schopni jednoduše odpovědět na stručně položenou otázku: „Jaká je nabídka doktorského studia v ČR a kam se mám na ni podívat…?“ Agregace otevřených dat z datasetů aktuálně nabízených témat dizertací by byla také vhodným podkladem pro různé aktivity veřejných či státních institucí směrem k zahraničí.

Podobně jako v případě akademických pozic na ResearchJobs.cz již aktuálně testujeme možnosti importu datasetů témat dizertačních prací do naší příslušné rubriky www.researchjobs.cz/dizertace/.

Otevírané studijní obory

S každou VŠ jsou neodmyslitelně spjaty seznamy studijních oborů, na které lze/bude možné v aktuálním akademickém roce podat přihlášky. V době institucionálních akreditací je situace v jistém smyslu ještě pestřejší. Na českém internetu jsou již velmi dlouho k dispozici weby, na kterých se nabídka shromažďuje, problémem je ovšem kvalita a aktualizace dat. Aktualizování, potažmo udržování aktuálnosti těchto informací je činnost náročná (jak časově, tak kapacitně). V případě, že tato data fungovala v podobě otevřených dat, byla by situace výrazně jednodušší. Jedním z vedlejších aspektů takovéhoto přístupu by byla mimochodem jakási „demokratizace“ tvorby těchto webů – datová složka by byla zajištěna jednoduše a tvůrci takového webu by se mohli plně soustředit na funkcionalitu a algoritmy (nikoliv na to, „jak překopírovat data z webových stránek do databázových tabulek…“).

Podpořené projekty interních grantových agentur VŠ

Zatímco projekty podpořené prostřednictvím poskytovatelů podpory ve VaVaI dle zák. č. 130/2002 Sb., jsou evidovány v systému IS VaVaI (který je provozován na základě Nařízení vlády č. 397/2009 Sb.), projekty podpořené ze strany interních grantových agentur VŠ jsou zpravidla uváděny jen na stránkách příslušné VŠ, viz např. GAMU, GAUK aj.

Je samozřejmě pravdou, že se jedná o projekty rozsahem a objemem finančních prostředků výrazně menší než je průměr projektů v IS VaVaI, nicméně kolekce těchto projektů dotváří část obrazu o výzkumu v ČR. Nepochybuji o tom, že se jedná o data, která by byla zajímavá i pro analytiky např. v TA ČRu i dalších institucích, ale i pro ty, kteří zamýšlejí podat projekt k některému z poskytovatelů a v současné době hledají partnery (řada institucí takto používá právě www.isvavai.cz). Datasety s těmito projekty by mohly být snadno importovány do databáze www.starfos.cz, který provozuje a rozvíjí Technologická agentura ČR. Pokud by chtěl pracovat s těmito informacemi již nyní, znamenalo by to nejprve stahovat příslušné části webů VŠ, provádět parsování HTML kódu atp. Poskytováním těchto dat ve strukturované podobě v módu otevřených dat by se celá situace výrazně zlepšila.

Pár poznámek závěrem

Z uvedených komentářů je zřejmé, že využívání otevřených dat v sektoru VŠ by řadu činností zjednodušilo a především by se otevřel zcela nový obzor práce s těmito daty. Seznam oblastí, které jsme výše zmínili, rozhodně není vyčerpávající, měl by sloužit spíše jako inspirace pro další úvahy. Jako myšlenkové cvičení si můžeme představovat, jaké benefity by poskytovalo publikování „datových“ částí výročních zpráv jednotlivých VŠ, potažmo fakult…

V současné době univerzity otevřená data publikovat mohou, i když legislativně k tomu nejsou nijak vedeny. Je otázkou, zda by aktivita směrem k VŠ a publikování otevřených dat nemohla být iniciována jak ze strany MŠMT, tak ze strany RVVI. Profitovat by z toho mohli totiž postupně všichni.

Další téma k řešení je postavení v. v. i. ve vztahu k otevřeným datům dle zák. č. 106/1999 Sb. Po technické a věcné stránce publikování dat v otevřeném a strojově čitelném formátu s nevylučující licencí veřejným výzkumným institucím nikdo/nic nebrání, nemohou však své datové sady registrovat do Národního katalogu otevřených dat, a tudíž dle definice ze zákona se nejedná o otevřená data. V jistém smyslu jde ale skutečně o formalitu.

Je dobré též upozornit na jedno úskalí: při živelném publikování otevřených dat by mohlo dojít k tomu, že „každý bude datové sady publikovat po svém“: jeden poskytovatel bude mít ve své datové sadě položku „jméno projektu“, jiný „název projektu“, další bude odlišovat název v ČJ a název v AJ atp., čímž se agregování analogických datových sad stane komplikované, neboť bude zapotřebí data určitým způsobem sjednotit. Na to ale tvůrci koncepce otevírání dat pamatovali – aby k takovýmto problematickým situacím nedocházelo, je zde k dispozici koncept otevřených formálních normem, které jsou rovněž definovány zákonem č. 106/1999 Sb. Ty ostatně pomohou i těm, kteří „chtějí publikovat, ale nevědí jak“. V rámci projektu MV ČR některé otevřené formální normy vznikají, některé se týkají i oblasti VaVaI. Ale o tom až někdy příště.

 

Autor: Martin Víta