Vyhledat

iocb tech

hlavní partner portálu

Nezávislé informace o vědě a výzkumu

Nakládání s daty je individuální, v každém oboru to půjde jinak, ale vždycky to musí dávat smysl, shodují se data stewardi Tereza Motalová a Martin Schätz. Péče o data se teď totiž stává nejen trendem, ale hlavně nutností. 

Data se zatím pilotně ukládají a řízeně zveřejňují v Národní repozitářové platformě. Zjednodušeně proto, aby vědci zbytečně nezkoumali to, na co už přišli jiní, a naopak mohli na již udělanou práci navázat. O tom, jak dlouhá cesta vede k profesi data stewarda, a co všechno tato práce obnáší, jsme si povídali s Terezou Motalovou z Univerzity Palackého v Olomouci a Martinem Schätzem z VŠCHT v Praze.

Jaké kurzy na data stewarda aktuálně existují? Se kterými máte zkušenosti a jak jste se k nim dostali? 

Martin: Pro mě ten nejvýznamnější v Evropě je asi ten, který pořádá Vídeň. Je to dvousemestrální kurz, který stojí 3000 eur. Ten jsem ale já neabsolvoval.

Tereza: Ten jsem absolvovala já.

Martin: To jsem si myslel, že se takhle hezky doplníme! To, co jsem absolvoval já, nebyl přímo kurz zaměřený na data stewarda, ale Data Sewardship kurz vytvořený v rámci DocEnhance grantu. Ten má více za cíl vzdělávat vědce na začátku kariéry tak, aby zvládli základní úkony spojené s ukládáním dat. První kurz v roce 2021 jsem absolvoval jako vyučující pro tvorbu data management plánu a zároveň i jako student. Na VŠCHT letos bude čtvrtý nebo pátý ročník a naše data stewardy bereme právě z tohoto kurzu. První rok kurz absolvují, druhý se zúčastní jako vyučující a pak si je ještě doškolíme v praktické části. Ale není to tak, jak ve Vídni, kde člověk dostane po absolvování kurzu certifikát. Je to tak?

Tereza: Je to tak, ano.

Martin: Oficiální papír, to se mi líbí. A další je náš český Data steward kurz pod Filosofickou fakultou UK. Ten beru jako velmi přínosný pro naše prostředí. Sám jsem ještě absolvoval kurz Train the trainer (FAIRsFAIR), kde nás učili, jak školit a jak přemýšlet o vytvoření tréninku pro data stewardy. 

Tereza: Moje cesta byla trochu divočejší. V rámci projektu, který běžel na Univerzitě Palackého, najednou začala vznikat potřeba navazujících projektů. To znamená psaní projektových přihlášek a žádostí s tím, že jsme chtěli cílit na výzkumný a inovační program Horizont Evropa. Tím jsme otevřeli velkou, v uvozovkách, Pandořinu skříňku s názvem Open Science a Research Data Management. Moje cesta byla od administrátora projektu po datového manažera, nebo lépe Open Science koordinátora. Materiálů a kurzů v té době a ještě i dnes je stále velké množství. Jenže je složité vyznat se v tom, co se pro koho hodí. Chybělo mi tu něco, co by bylo zaměřené obecně na data stewarda. Pamatuju si, že jsem narazila právě na ten kurz ve Vídni, ale odradila mě cena. Později jsem ale shodou okolností byla hned ve dvou projektech od Horizont Evropa, díky kterým přišla i možnost financování kurzu. Tím, že jsem měla na starosti správu dat a stále mám, mohla jsem se kurzu zúčastnit. 

Pět základních oblastí, které musí data steward znát

Jak vídeňský kurz vypadá? 

Tereza: Kurz, který jsem já absolvovala v akademickém roce 2023/24, je založený na pěti základních modulech. První se zaměřuje na základy Open Science a Research Data Management. Druhý představuje základy IT a Data Science, kde se představují základy databází, programování, verzování nebo unix shellu. Z mého pohledu byl nejzásadnější modul třetí, který je zaměřený na FAIR data v průběhu jejich životního cyklu: od plánování, organizování dat, jejich zpracování, dokumentování, přes ukládání a dlouhodobé uchování, i to, jak se o data mám starat z hlediska bezpečnosti, osobních údajů až po jejich publikování nebo případně jejich znovupoužití včetně právních aspektů. Součástí byly zároveň podmoduly, které se zaměřily na společenské, humanitní, technické a přírodní vědy, takže takové nakouknutí, jak to může fungovat v různých oborech. Předposlední modul byl zaměřený na vzdělávání, servis a podporu, které data steward poskytuje výzkumníkům. A posledním modulem je projekt. Finišujete kurz tím, že si zvolíte vlastní téma a supervizora a výstupem má být třeba koncept nějakého kurzu. Současně o projektu píšete report. Většina modulů je postavena na takzvaných assignmentech, kdy dostanete úkol nebo zadání, které máte do určitého termínu odevzdat. V rámci evropského prostoru to bude jediný certifikovaný kurz, který je aktuálně k dispozici. 

Musíte ve Vídni fyzicky být nebo je to online? 

Tereza: Kurz je na dva semestry. První modul běží týden ve Vídni, kdy tam opravdu fyzicky jste a seznamujete se s prostředím i s ostatními účastníky. Další moduly pak běží online vždy dva dny v měsíci.

Když to, Martine, srovnáš s tím, co jsi absolvoval ty, bylo to podobné?

Martin: Doc Enhance kurz nejde tolik do hloubky, ale to, čím člověk prochází, je podobné. Je rozdělený na tři části, první část je samostudium, kdy se student seznamuje s FAIR principy, co to je Open Science nebo jak publikovat data. Z každé části absolvuje malý kvíz. Na závěr prvního modulu dělá online zkoušku a dostane oficiální potvrzení o tom, že znalostmi prošel. Druhý modul už je praktický. Účastníci dostanou za úkol třeba sestavit Data Management plán na bázi svého výzkumu a zjistit, proč publikovat nebo nepublikovat data, řeší licencování nebo archivaci. Třetí modul je zaměřený na komerční sektor. Oslovíme nějaké firmy a ty nám ukážou, jak pracují s daty, k čemu jim to může být. Je to mnohem rychlejší, za semestr se dají všechny tři moduly v pohodě stihnout. Absolvent kurzu ale není hotový data steward. Spíš je to někdo, kdo má trochu hlubší zkušenost se správou dat a Open Science a má představu o nárocích ve svém specifickém vědním oboru.

motalova terezaData stewardem minimálně za rok

Zvládli jste při absolvování kurzu oba běžně pracovat? Jaká byla časová náročnost? 

Tereza: Kurz jsem absolvovala v rámci své pozice. Čas navíc jsem pak potřebovala hlavně na zpracovávání assignmentů a projektu. Ne vždy to šlo zkombinovat s pracovními povinnostmi, takže na to nějaké večery a víkendy padly.

Martin: Data stewardship kurz je koncipovaný tak, že by jej člověk měl zvládat vedle něčeho jiného. Ale záleží i na znalostech. Mně první modul zabral tři odpoledne, ale pro někoho jiného to mohly být klidně dva týdny. Co se týče modulu dva, tak ten má šest částí a zabral mi tak tři hodiny času týdně. 

Jak dlouho tedy trvá stát se data stewardem?

Tereza: U vídeňského kurzu zhruba rok. 

Martin: Kdybych měl odhadnout, jak dlouho by mi trvalo dostat se do té pozice jako z kurzu ve Vídni, ale bez kurzu ve Vídni, tak bych to viděl na zhruba rok a půl. Ostatní kurzy jsou zaměřené trošku jinak, takže je potřeba nasbírat ještě i praktické zkušenosti. 

Pro koho je lepší absolvovat kurz ve Vídni a pro koho jiné kurzy? 

Martin: Pro data stewarda působícího pro celou instituci je nejlepší absolvovat vídeňský kurz. Potřebuje mít přehled o více oborech a o všem, co se na univerzitě dělá. Druhý kurz, kterému můžeme říkat Úvod do data stewardshipu, tím, že je zaměřený specificky na to, co dělá vědec, bude se více hodit pro fakultního a týmového data stewarda. Ale toho fakultního ještě budeme muset trochu dovzdělat. 

Tereza: Vidím to podobně. Kurz z Vídně bych doporučila někomu, kdo vyloženě chce pracovat na téhle pozici. Může sedět jak na centrále, tak i na fakultě. Já jsem na kurz šla z pozice data manažera dvou výzkumných projektů, ale i tak mi to přišlo pro mou práci vhodné. Mně osobně kurz pomohl se v oboru trochu víc usadit a nabýt jistoty, že jdu správným směrem.

Martin: Ve Vídni je strašně důležitá ta část poskytování služeb. Jenom se naučit, jak se v této pozici chovat a co nabízet, je u této práce zásadní, a to ten můj kurz nenabízí.

Kdo se na kurzy nejčastěji hlásí? 

Tereza: Většinou všichni spolužáci nějak řešili na své instituci správu výzkumných dat. Někdo byl přímo z data steward kanceláře či ze sítě data stewardů – tak to funguje právě ve Vídni. Někdo byl zase z Open Science týmů, někdo z podpory výzkumu obecně. A byli z celého světa, i z USA a Japonska. 

Data management je pořád na počátku

Kolik času zabere práce data stewarda konkrétně vám?

Martin: Je období, kdy se neděje vůbec nic. A pak je období, kdy kontrolujeme obrovské množství data management plánu, nebo je třeba udělat školení, protože vyšla nová grantová výzva. Špatně se to odhaduje. Mám výhodu, že jsem časově flexibilní a můžu říct, že se teď budu tři dny v kuse třeba věnovat jenom data management plánu, protože se blíží deadline. Přiznejme si to, vědci nejsou úplně nejorganizovanější lidi a rádi dělají všechno na poslední chvíli. A taky je potřeba vzdělávat. Čím víc, tím líp. V Open Science se pořád všechno vyvíjí, ale plno věcí, které si stanovujeme, že bychom rádi, aby fungovaly, tak možná budou fungovat za deset, dvacet let.

Až tak pesimistická prognóza?

Martin: Kdoví. Záleží i na nadšení vědců a jak jim to zvládneme podat. Teď jsme Evropskou unií tlačení, že musíme. A protože musíme, nemáme úplně prostor ukazovat motivaci, proč bych to jako vědec měl chtít. Je to víc o tom, že teď musím udělat tenhle papír, a mám papír, a to je všechno. 

Tereza: Je to tak, je tady pár nadšenců, kteří v tom frčí a je jim jedno, jestli se to jmenuje Open Science nebo Responsible Science, je to zkrátka součástí jejich téměř denní praxe. Pak je tady skupina lidí, kteří o tom nemají úplně přehled, protože v jejich oboru ta potřeba zatím není. A potom jsou lidi, kteří se s tou potřebou setkají často přes poskytovatele financí. Tam se to začalo hodně zaměřovat na Data Management plán, což je v uvozovkách jeden dokument, a ten je často vnímán jako další byrokracie a zátěž. Jako vědec už řešíte spoustu věcí a teď přijde zase tohle. Vysvětlit, že to má smysl, trvá. To není tak, že si uklidíte byt a vidíte výsledek. Někdo vám řekne: Ušetříte čas. Oukej, ale já přece musím dělat ten plán a ten mi čas naopak bere. Takže najít motivaci, aby to nebylo vnímáno jako, pardon, opruz, potrvá. Ve výsledku je to ve změně nastavení mysli.

Pokud byste měli poukázat na problémy data stewardů, je to třeba právě i spolupráce s vědci a to, že ne všichni v tom vidí tu důležitost?

Tereza: Spíš bych to nazvala výzvou. Už když se řeknou „data“, tak o nich každý může mít jinou představu. Takže najít společný jazyk, vysvětlit si pojmy. Dalším takovým příkladem je i pojem otevřená věda. Ale sama otevřenost je jen výseč celého procesu, protože než data můžeme otevřít, předchází tomu spousta věcí. Někoho otevřenost děsí. Já o ní mluvím jako o škále od úplně otevřených po úplně zavřená data s otevřeným metadatovým záznamem. Ne všechna data lze otevřít, a to je v pořádku. Možná právě i tohle trošku komplikuje komunikaci mezi různými skupinami. Navíc pochopit celý kontext, proč se to děje, na to určitě nestačí odsedět si jednu přednášku. Jak říká Dagmar Hanzlíková z UK: To není revoluce, to je evoluce, a ta prostě trvá.

Martin: V konečné fázi sám ten vědec nejlíp ví, co za data má a jak by se s nimi mělo nakládat. A pro nás je výzva, jak mu nejlíp říct, jaké jsou možnosti a co mu to může přinést. A aspoň mně se ne vždycky daří tohle vykomunikovat tak nadšeně, jak bych si přál. Takže tu výzvu vidím taky přesně v tomhle. 

Tereza: Já jsem ještě nepřišla na způsob, jak o otevřené vědě mluvit zajímavě nebo dokonce zábavně. Vždycky jen vidím, jak nálada poklesne, když se tohle téma otevře :) 

Co by pomohlo? 

Martin: Není od věci být opatrný, je naprosto v pořádku všechno hodně zvážit. Možná by pomohlo zdůraznit, že je vše hodně individuální obor od oboru. Třeba v medicíně se s tím mnohdy z etického hlediska nedá dělat nic. Jinde naopak může být člověk hodně otevřený a dokonce požádat i publikum, aby přispělo svými daty nebo podněty. Není tu plošné pravidlo, které musí všichni dodržovat stejně, ale jde o nastavení procesu pro každý projekt tak, aby to dávalo smysl a k něčemu to bylo.

Tereza: Jedna věc je o tom určitě mluvit. Představte si vědce, který získá Horizont Evropa a najednou se na něj navalí všechna ta pravidla, co má dělat. Ne že by měl všechna data ve špatném stavu, ale najednou je nad ním aparát, který mu určitým způsobem definuje jeho cestu. Takže důležité je o tom mluvit a vědět proč. Protože to není, a teď pardon za to slovo, nějaká buzerace seshora, ale jsou za tím reálné důvody, proč se to děje, proč je to například povinnou součástí. A druhá důležitá věc je podpora. Když se například podmínky poskytovatelů nebo politiky na různých úrovních změní, je potřeba vědcům pomoct. Není možné, aby vědec dělal svůj výzkum a k tomu byl ještě expertem na všechno, co se správou výzkumných dat souvisí.  

schatz martin

Důležitá je komunikace, vnímavost i empatie

Pokud se někdo rozhodne, že by chtěl působit na pozici data stewarda na jedné z univerzit, jaký by měl být? Jaké potřebuje schopnosti a dovednosti a jaké zkušenosti?

Martin: Důležitá je komunikace, ale spíše ve smyslu otevřenosti. Samozřejmě pomůže, pokud byl v minulosti součástí nějakého projektu nebo týmu. Data stewardi, které znám, přicházejí z různých pozic. Já jsem výzkumník, někdy je to knihovník, a všichni jsou úspěšní. 

Tereza: Kdybychom se bavili o osobnosti, tak musí mít i určitou formu vnímavosti a empatie. Může být extra nadšený, což je skvělé, ale tím taky může vědce spíš vyděsit. Nesmí takzvaně tlačit na pilu. Změna nebude přes noc, bavíme se v řádu let. A záleží na tom, kde ve struktuře instituce data steward působí. Čím blíže je centrále, tím rozmanitější background může mít. Ale čím blíž je výzkumnému týmu, tím větší a bližší by měl mít znalost daného týmu a oboru. Tam už totiž pomáhá prakticky a těm lidem pak rozumí mnohem víc.

Takže ideální situace: mít dostatek lidí, kteří prošli kurzy, a doplnit je do týmů, kde takto vzdělaný člověk chybí? Zase podle individuálních potřeb týmu?

Martin: Ano, někde může být už vědec normami a pravidly nucený, jak s daty nakládat, tak s nimi nakládá. Třeba přijdu na mikroskop, vygeneruju obrázek a už ho musím někam uložit a nějak ho pojmenovat. Takže někde už to vědci dělají a ani třeba neví, že to dělají. A někde je to úplně naopak a nikdo tomu vědci ještě neřekl, že pokud pojmenovává “data 1”, “data 2”, “data 3”, tak s tím za rok bude mít třeba problém.

Představme si data stewarda na plný úvazek – jak by vypadal jeho pracovní den?

Martin: Pro data stewarda na institucionální úrovni bude důležité nastavovat a konzultovat pravidla a normy pro celou instituci. Takže se bude muset sejít s vedoucím IT oddělení, s etickou komisí, a to budou nárazové úkony, které bude pravidelně aktualizovat. Velkou součástí pracovní náplně budou konzultace, dokázal bych si představit, že to může zabrat až 50 % času. Čím bude na nižší pozici, tím víc bude přibývat praktická práce s daty. U institucionálního si dokážu představit, že bude kontrolovat, jestli jsou ta data správně publikovaná, jestli je data set přiložený k článku a obráceně.

Tereza: Určitě ještě monitoring potřeb. Data steward musí vědět, co kde chybí, jaké jsou potřeby a ty postupně podle priorit řešit. Tím, že jsme ještě na začátku, tak je klíčové i sebevzdělávání. Znát trendy. Znát zdroje. Nemůžete dát vědcům padesát příruček, to vás sežerou zaživa. Musíte si to sami probrat. A samozřejmě vzdělávání ostatních. Ono jen připravit kvalitní kurz pro ostatní zabere hodně času.

Martin: Je pravda, že jsem zapomněl na svoji oblíbenou aktivitu, a to je právě zjišťování potřeb! Nám se z hlediska plánování kurzů osvědčila „snídaně s data stewardy“. Jednou za čas uděláme kafe a pozveme lidi a bavíme se o čemkoliv, na co narazili, s čím by potřebovali pomoct. Vždycky z toho vznikne nějaké téma, které příště rozebereme a nabídneme řešení. Vědět, co lidi reálně potřebují, je pro mě jedna z nejdůležitějších věcí.

Data pro všechny

Předpokládám, že časem bude potřeba spolupráce i s ostatními subjekty mimo univerzity, setkáváte se s tím už teď?

Martin: Já osobně se setkávám s ukládáním dat v soukromém sektoru. 

Tereza: Měníme se v data driven society, data jsou důležitá. Tahle problematika se rozpíná i za hranice univerzit a výzkumných institutů. Taky očekávám spolupráci v soukromém sektoru. Hezkým příkladem ale může být i projekt, který běží u nás na UPOL, a který spolupracuje s městem Olomouc a Olomouckým krajem. Řeší dobrou praxi, jak nakládat s daty a jaká data otevírat. Takže už teď se zapojuje i veřejný sektor. 

Jaká je tedy ideální představa za deset, dvacet let? Data přístupná všem – univerzitám, veřejnému i soukromému sektoru?

Tereza: To je hlavní myšlenka otevřené vědy. Jít napříč sektory, nezůstávat jen na půdě univerzit. Rozhodně spolupráce, ale s malou červenou vlaječkou – neotevírat za každou cenu všechna data. Sdílet, ale zodpovědně.

Martin: Z hlediska vědy je to velká motivace, jak se rychleji posouvat dál. Já dělám Data Science, a když chci vyvíjet nějaký algoritmus, tak to bez dat neudělám. Můžu mít sebelepší nápady, ale pokud nebudu mít přístup k datům otevřeně, musím složitě hledat, kdo by se mnou chtěl spolupracovat a data mi půjčil, abych vůbec mohl se svojí prací začít. Takhle můžu kouknout do repozitáře a když tam budou data dobře popsaná, mám k nim hned přístup. Stejně tak můžu porovnávat s ostatními, jak dobrý v té tvorbě jsem. A to samé může udělat v budoucnu komerční sektor.

Tereza: Ještě k té otevřenosti – samotná data nemusí být vždy otevřená. Ale už to, že jsou uložená v repozitáři a prostřednictvím metadat dohledatelná, a já vím, že existují a že můžu kontaktovat konkrétního člověka, požádat o ně, a například za splnění určitých podmínek k nim získat přístup, má smysl. Jsou různé cesty, jak data sdílet.

Martin: Když se teď postavím do pozice vědce, který nad tím tráví čas, energii a zažívá všechny ty útrapy, než data nasbírá, tak určitě budu chtít někde ukázat, že jsem to udělal. I když dám do repozitáře ta data zavřená, tak někde bude existovat záznam o tom, že jsem opravdu na tomto pracoval a něco jsem vytvořil.

A někdo pak může pokračovat tam, kde ty jsi skončil.

Martin: Přesně tak. 

 

Autorka: Martina Čelišová

Foto: Aleš Balda, UPOL

Zdroj: EOSC

 

  • Autor článku: ne
  • Zdroj: EOSC
Kategorie: Rozhovory