Vyhledat

iocb tech

hlavní partner portálu

Nezávislé informace o vědě a výzkumu

Autor: Blogger

Je potřeba, aby byla data korektní, aktuální, relevantní a přehledně zpracovaná. Elegantním řešením jsou právě otevřená data, která nemusí být pouhým vzdušným zámkem, ale realitou. Jak je tedy aplikovat v praxi?

fly d zAhAUSdRLJ8 unsplash

Krátce po publikování dvou příspěvků na portále Vědavýzkum.cz, které se týkaly tématu otevřených dat (1, 2), jsem zaznamenal řadu pozitivních ohlasů. Nicméně všechny měly vesměs charakter „to je něco typu nice to have“, aniž by z nich byl cítit tah na praktickou implementaci. Faktem je, že při načrtávání přínosů otevřených dat v oblasti VaVaI (mimo oblast open science data) scházel v článcích příklad, který by vypadal dostatečně naléhavě. Netušil jsem, že onen příklad bude k dispozici zanedlouho a bude se odvíjet od barbarského ruského vpádu na Ukrajinu.

Je pozoruhodné a úctyhodné, jak rychle se aktivizovala akademická a výzkumná sféra na různých úrovních a jak rychle začaly přibývat nabídky nejrůznějších forem pomoci. Na stovkách stránek institucí a ústavů se začaly objevovat výzvy, nabídky, kontaktní informace pro naše ukrajinské kolegy a kolegyně. Celá věc má kromě humanitárního obsahu i své informační, potažmo datové aspekty. Obecně řečeno, je potřeba zajistit, aby pro relevantní cílovou skupinu byly k dispozici informace, které jsou především:

  • korektní,
  • aktuální,
  • konzistentní a
  • relevantní.

Krom toho jde též o to, aby vznik a správa dat byly efektivní.

Živelný způsob vzniku a šíření nabídek dodržování těchto principů příliš nenahrává: konkrétní nabídka pro ukrajinské kolegy a kolegyně je publikována a následně přejata (ve smyslu překopírována) na jiný web. Mezitím se vhodný kandidát/ka objeví a nabídka aktuální být přestane. Přesto si žije svým vlastním životem, protože na dalších webech její stažení nikdo nezajistil. Informace jsou roztříštěné, jsou k dispozici na mnoha různých místech. Zcela pochopitelně proto vznikají národní i nadnárodní projekty, které si kladou za cíl vytvořit centrální místa, kde se příslušný obsah bude shromažďovat. Situace každopádně směřuje spíše k zahlcení informacemi. Problémem ovšem je už i proces od vzniku dat až do momentu, kdy se na daný centrální web dostane. Z informačních systémů institucí exportují data, aby se následně neautomatizovaně importovala do databáze konkrétního portálu (lepší případ), anebo také putují tabulky emailem, lidé přeťukávají data z tabulek do elektronických formulářů. Zajišťování konzistence takovýchto dat je obtížné, ne-li nemožné.

Z pohledu ukrajinského kolegy/kolegyně je nabídka ne zcela přehledná, což lze považovat za velmi diplomatické vyjádření. Z pohledu někoho, kdo chce připravit úzce zaměřený web (například na PhD studenty v biovědách), je pak obtížné příslušné informace získávat a agregovat a doplňovat dalšími údaji ze třetích stran. Mnohdy to znamená parsing HTML kódu atp.

Elegantní řešení se přitom nabízí: jsou jimi otevřená data, která jsou mimochodem definována i v české a evropské legislativě, v ČR konkrétně v zák. č. 106/1999 Sb. o svobodném přístupu k informacím. Jsou to data, která jsou dostupná na internetu, strojově čitelná, v otevřeném formátu, opatřená neomezující licencí a katalogizovaná v Národním katalogu otevřených dat. V dané situaci by však pomohlo i pouhé využívání strojově čitelných dat v otevřeném formátu pro publikaci informací jednotlivými institucemi, například fakultami. Pod strojově čitelnými daty v otevřeném formátu si můžeme představit dobře připravené tabulky ve formátu CSV, anebo nebo XML/JSON soubory. Ty primárně nejsou určeny „lidským“ uživatelům, ačkoliv je lze samozřejmě i prohlížet. Často jsou generovány ze stejné databáze, jako jsou generovány stránky pro web (nejrůznější výpisy aj.).

Jak by to mohlo vypadat v praxi? Instituce, například fakulta, publikuje a udržuje (!) seznam nabídek ze svých pracovišť – třeba v CSV tabulce, ta může být připravována jak ručně, nebo třeba exportována z databáze informačního systému. Soubor je umístěn na neměnné adrese na webu zmíněné fakulty. Ti, kdož chtějí tyto informace dále zpracovávat (například agregovat např. s analogickými daty z jiných fakult), tato data pravidelně automaticky stahují a zpracovávají. Změna v původních, zdrojových „fakultních“ datech se propisuje na všechny další weby. Konzistence a aktuálnost je zajištěna, proces nemusí vyžadovat zásah „lidské ruky“. Toto řešení odpovídá 20. letům 21. století, do kterého manuální přepisování dat z jedné tabulky do nějakého online formuláře opravdu nepatří.

Nejde o nic objevného, na tomto principu mj. funguje i předávání pozic z ResearchJobs.cz na portál Euraxess – ResearchJobs.cz poskytuje speciální XML feed obsahující potřebné informace pro publikování daného inzerátu na Euraxess (na feed se můžete podívat, je veřejně dostupný). Robot Euraxessu každou noc tento feed navštěvuje a provádí případné úpravy „ve své databázi“ - doplňování nových inzerátů, aktualizace těch, které byly na ResearchJobs.cz editovány atp. Vše se děje automaticky. Podobných feedů zpracovává Euraxess celou řadu.

Abychom přispěli svou troškou do mlýna, dali jsme k dispozici dva XML feedy s pozicemi ve VaVaI v ČR (k nahlédnutí zde) , které jsou pro naše ukrajinské kolegy/kolegyně relevantní, základní informace je k dispozici. Nyní každý, kdo by chtěl přidat informace o pozicích relevantních pro ukrajince z ResearchJobs.cz do svých stránek, má tuto příležitost.

Stručně řečeno: instituce by se měly starat, aby poskytovaly kvalitní data ve strojově čitelném formátu, zpracovatelé o to, aby je korektně zpracovávali. Navíc stačí, aby data byla publikována institucí právě jednou.

Podobný přístup může fungovat i v případě „netabulkových“ dat, třeba prostých textů: Představme si, že někdo chce spustit specializovaný web zaměřený na ukrajinské doktorandy/doktorandky v biovědách, říkejme mu třeba „PhDbiomedUAweb“. Jistě by bylo vhodné krom relevantních nabídek práce, stáží, atd. jim nabídnout rovněž informace o legislativních aspektech uvažovaného přesunu např. do ČR. Podmínky se mění, konzulární oddělení se tu zavírají, tu otevírají, usledovat celou situaci není jednoduché ani pro zasvěceného, natož pro neznalé ukrajinské kolegy. Publikované překopírované texty rychle zastarávají. Často se to řeší odkazováním na příslušné sekce webů dotyčných institucí, nicméně pro ukrajinské kolegy/kolegyně není příliš atraktivní putovat mezi weby českých ministerstev a jiných orgánů – potřebuje konkrétní informaci, nikoliv linky. Pokud úřady budou poskytovat příslušné informace ve strojově čitelné podobě, nebude problém tímto obsahem doplnit automaticky informace na „PhDbiomedUAwebu“, přičemž aktuálnost bude zajištěna právě tím, že data budou v podstatě realtimově získávána z autoritativního zdroje, nikoliv způsobem „tiché pošty“.

Nevadí, že budou vznikat různé weby podobných zaměření, tu podrobnější tu povšechnější. Klíčové je, že to, s čím se pracuje, jsou unikátní data, jejichž tvůrcem je skutečný původce. Shromažďuje-li se na nějakém webu sada nabídek (například na stipendia, studijní programy atp. na portálech typu studyin.cz), bylo by vhodné, aby i takovéto portály poskytovaly dále svůj obsah jako strojově čitelná data, ideálně opatřená nevylučujícími licenčními podmínkami. Umožnilo by to následně dalším, třeba zahraničním/nadnárodním portálům, tento obsah integrovat a tím zvyšovat jeho dopad.

Samozřejmě by bylo vhodné, aby jednotlivé instituce publikovaly podobná data „stejným způsobem“ (stejně nazvané atributy atp.), což je pokryto pojmem otevřené formální normy, která je též definována v zákoně č. 106/1999 Sb., nicméně pro začátek by úplně stačilo, kdyby poskytovaná data byla alespoň strojově čitelná.

Uvědomme si, že krátký čas věnovaný promyšlenému nastavení systému „toků dat“ přinese velké časové úspory v budoucnosti a systém bude snáze udržovatelný a připravený na dlouhodobé fungování.

Kéž by otevřená data nebyla kompetentním činovníkům ve VaVaI ukradená! A to zvláště, když jedna země krade jiné zemi území.

 

Autor: Martin Víta

Kategorie: Martin Víta