Jan Hajič: Výměna dat se zahraničními infrastrukturami je pro nás klíčová

5. 11. 2021

Výzkumná infrastruktura LINDAT/CLARIAH-CZ vyvíjí softwarové nástroje pro analýzu jazyka, které poskytuje jak vědcům, tak i veřejnosti. Pro její práci je klíčová spolupráce se zahraničím, stejně tak i s dalšími deseti partnery v Česku. V rámci našeho seriálu věnovaného výzkumným infrastrukturám zodpoví klíčové otázky o LINDAT/CLARIAH-CZ její koordinátor Jan Hajič.

res 1200px DSC 3653

Digitální výzkumná infrastruktura LINDAT/CLARIAH-CZ vznikla sloučením výzkumných infrastruktur LINDAT/CLARIN a DARIAH-CZ. Je jedinečnou velkou výzkumnou infrastrukturou, která se zabývá zejména jazykovými, ale i dalšími digitálními zdroji a nástroji pro jejich zpracování, vyvíjí je a poskytuje je v relevantních oborech vědecké komunitě, průmyslu pro vývoj aplikací a ve specifických případech, jako je jazyková kultura, i přímo veřejnosti. LINDAT/CLARIAH-CZ se zapojuje do mezinárodní spolupráce mezi obdobnými výzkumnými infrastrukturami i přímo mezi institucemi ve všech humanitních oborech a klade důraz na digitální a interdisciplinární metody zpracování, včetně moderních metod strojového učení a umělé inteligence.

Čím se vaše infrastruktura zabývá a co nabízí?

Infrastruktura LINDAT/CLARIAH-CZ se zabývá výzkumem v humanitních oborech a částečně pokrývá i oblast umění v digitální formě. Vše se historicky vyvíjelo, nejprve jsme poskytovali služby a zejména data pro jazykovědu a zároveň i pro technologie, jako automatický překlad, rozpoznávání řeči a další. Z části se tímto stále zabýváme, postupně však přibíráme v závislosti na financích i další sféry tzv. „digital humanities“.

Pro koho je především určena?

Primárně sloužíme výzkumníkům v oboru, vědcům a studentům, kteří pracují na výzkumných projektech a náš produkt používají při výuce. Tím, že jsme digitální infrastruktura, tedy jsme online, využívá nás hodně také svět. Spadá pod nás například známá Internetová jazyková příručka Ústavu pro jazyk český, kterou využívá 20 milionů lidí ročně, ale samozřejmě v drtivé většině Češi. Naopak další, vícejazyčné věci, které vyvíjíme, se více využívají ve světě. Pokud jde například o výše zmíněnou příručku, ta určitě není určena pro výzkumníky, ale pro širokou veřejnost.

Můžete přiblížit, jak vaše infrastruktura funguje?

Naše infrastruktura je tzv. distribuovaná infrastruktura. To znamená, že jsme jeden projekt, ale dohromady máme po Česku deset dalších partnerů, což jsou výzkumné organizace působící v humanitních a uměleckých oborech – v jazykovědě, historii a historické bibliografii, kultuře a vědě o kultuře, historii umění, filozofii, filmové kultuře, vizuálním umění, muzikologii a historii hudby, etnologii, folklóru, archeologii a také v několika interdisciplinárních oborech. Pokud vše dobře dopadne, od roku 2023 by se k nám měly připojit další čtyři instituce, mezi něž patří například Institut terezínské iniciativy a Památník Terezín. Měli bychom se také rozšiřovat směrem k výzkumu holokaustu.

Infrastruktura má hlavně poskytovat digitální data ve formě, která bude jednoduchá k využití. Jedenáct institucí je ve „společném balíčku“ proto, že disponují nějakými daty nebo softwarem. Chceme vše sjednotit, aby mohl být LINDAT/CLARIAH-CZ vstupním bodem pro všechny, kteří chtějí dělat v humanitních vědách a potřebují pro to digitální data.

Jak vnímáte postavení výzkumných infrastruktur v českém výzkumném prostředí?

Velmi pozitivně. Líbí se mi, jak se k tomu staví Ministerstvo školství, mládeže a tělovýchovy. Už před deseti lety, kdy se vše zakládalo, jsme byli vlastně jedni z prvních v Evropě, kteří měli něco, jako jsou dnešní výzkumné infrastruktury, ať už v medicíně, biologii nebo i IT. Zdá se mi, že se vše zvládlo velmi dobře a do dneška pěkně funguje. Když dám do kontrastu s námi Slovensko, byla doba, kdy říkali, že nic takového nechtějí, a až teď o infrastrukturách začínají uvažovat. Na druhou stranu státy jako Německo, Nizozemsko a některé severské země, začaly ve stejné době a infrastruktury tam fungují také velmi dobře. Rozhodně bych však řekl, že na tom nejsme vůbec špatně. Musím ocenit ministerstvo, které to od začátku řídilo a dělá to dobře.

Jak jsou na tom výzkumné infrastruktury z hlediska financí?

Z hlediska financí by toho člověk mohl samozřejmě vždy mít víc. U nás je problém v tom, že je nás jedenáct. Peníze máme, ale někteří naši partneři, například Filozofická fakulta UK, Masarykova univerzita nebo některé knihovny, dostávají prostřednictvím infrastruktury jen velmi málo peněz. Bylo by potřeba, aby měly o něco víc, jinak bude vývoj pomalý. Nezdá se to, ale když má někdo digitalizovanou knihu nebo starší dokumenty, s dalším zpřístupněním je mnohem víc práce. Je na to potřeba technologie, lidi, čas a hardware. Když je peněz málo, logicky jde vše pomalu. Já bych řekl, že bychom užili klidně dvojnásobek financí.

Chápu, že na humanitní vědy se část lidí z hlediska přínosu nedívá úplně pozitivně. Ale myslím si, že pokud budeme na špičce v Evropě, minimálně ve zdrojích, tak nás to nesmírně pozvedne. Víme, jaké to bylo se zdroji pro jazykové technologie, když jsme začínali. Díky tomu, že jsme jimi disponovali, nás zvali do evropských projektů. To má obrovský dopad na to, že sem jezdí lidi, a zároveň my můžeme také posílat lidi ven. Byl bych velmi rád, aby se to stalo i v ostatních humanitních vědách, kterým máme sloužit, a to se stane pouze v případě, že lidi zvenku uvidí, že máme zajímavá data pro nějaký evropský výzkum.

Jaké jsou výhody či nevýhody toho, že vaším produktem jsou nehmotné technologie?

Vše, co děláme, má nehmotnou, digitální podobu. To jsou dva typy věcí. Zaprvé digitální věci, které můžete k fyzické věci přirovnat, ale existují na počítači. Zadruhé pak licence na věci, které lze licencovat. To znamená, že je za tím copyright, autorské právo, patentové nebo jiné duševní vlastnictví. To děláme v menším rozsahu, konkurence je navíc obrovská, protože lidé často říkají, že tyto technologie má už dávno Google. Ale ten to dělá za to, že mu poskytnete vlastní data. My sloužíme vědcům, a když s nimi rozpracujeme nějakou technologii, tak ta se poté univerzitní transferovou společností Charles University Innovations Prague (CUIP) licencuje. CUIP má právo na vše, co vyrobíme. Příjmů z toho je však zatím relativně málo. O ty se navíc ještě dělíme s ostatními kolegy.

Kontrolujete nějak, kdo a jak využívá vaše volně přístupné služby?

Máme služby na webu, které může používat kdokoliv, a tudíž netušíme, kdo je používá, protože jsou to služby otevřené. Což je ale přesně cílem infrastruktur, aby byly maximálně otevřené. Přístup dokážeme zjišťovat pouze z IP adres a z toho dokážeme odvodit, jestli náš produkt použila firma, univerzita nebo někdo doma, ale jen velmi nepřesně. Do určitého objemu dat dovolujeme komukoliv, aby si nějaké programy osahal, ale pak, kdyby se mu náš produkt líbil a chtěl jej používat komerčně ve velkém, musí si přes CUIP domluvit licenci. Služby, které máme na webu, zahrnují spoustu věcí, včetně automatického překladu, který je velmi dobrý. Lidi nám píšou a pomalu s tím chtějí překládat básně. Překladač se opravdu hodně využívá.

Jak moc vám pomohlo, že na Univerzitě Karlově vznikl CUIP, který pomáhá s transferem vědeckých poznatků do praxe?

Ten nám velmi ulehčil práci. Předtím jsme naše produkty téměř neprodávali. Měli jsme pouze dvě smlouvy, které jsme psali tak trochu na koleně. Nějaký příjem z nich byl, ale někdo se o vše musel starat a byly vysoké i náklady. Nejsme profesionálové ani právníci… a právě to vše teď CUIP pokrývá. Pomáhá nám se smlouvami, dělá vyúčtování, prostě to podstatné. Dnes ale v průmyslu a byznysu rozhoduje marketing, který podle mě zatím asi moc neumíme. Na druhou stranu, nejsme tu od toho, abychom ho dělali, a já doufám, že časem budeme obecně více vidět. Když se rozhlédnu, tak start-upy i zavedené firmy mají prezentaci mnohem lépe zpracovanou, mimo jiné proto, že vědí, kdo přesně jsou jejich zákaznících. To my nemáme. Výzkumníci o nás vědí a najdou si nás, firmy občas. Tomu pomohla například reportáž o našem překladači v Událostech v České televizi. V tu chvíli jsme zpozorovali obrovský nárůst, lidi si náš produkt chtěli vyzkoušet a podívat se na něj. Univerzita není zvyklá své produkty prosazovat ve velkém a my doufáme, že se to změní.

Na čem v současné době pracujete?

Naši partneři pracují na dodání svých materiálů. Postupně například dostáváme filmy z Národního filmového archivu, například dokumenty a zpravodajství, které se zachovaly ze 30. let minulého století. Ještě letos bychom měli mít 800 šotů a ve spolupráci s archivem k nim dáváme metadata, a protože jsme součást CLARINu, objeví se v katalozích, které si lidé budou moci prohlédnout. Jde o příklad na pomezí filmu a umění, postupně nám dodávají data i další. Teď doufáme, že ve spolupráci s Masarykovým ústavem AV ČR dostaneme data o holokaustu, která dále zpracujeme a roztřídíme a přidáme k našim videorozhovorům na toto téma.

Jak intenzivně spolupracujete se zahraničím?

Už od začátku ve velkém. I další evropské země jsou členy ERICů a v nich jsou podobná centra, jako ta naše. S těmi spolupracujeme, každý rok je také společná konference, kam jezdí také naši experti. Technologicky je to v CLARINu zařízené tak, že existuje centrální katalog, kde se objevují všechny zdroje ze zemí a z jednotlivých center. Třeba v Německu to ale není jako u nás. Tam nemají jeden projekt, který by zahrnoval xy univerzit. Některé z nich jsou multiinstitucionální, některé jsou čistě jednoinstitucionální, ale dohromady všechny patří do infrastruktury CLARIN ERIC. S nimi pak spolupracujeme na projektech i jednotlivě mimo ERIC. Přes něj jsme však získali spoustu partnerů v Evropě, se kterými máme Horizon Europe a další projekty. Jde o skvělou spolupráci a výměnu dat. Bez zahraniční spolupráce by naše práce ani moc neměla smysl, i když zrovna v humanities to vypadá, že bychom se mohli odstřihnout a starat se pouze o češtinu, ale to je hloupost. My potřebujeme, abychom pro naše výzkumníky mohli zveřejnit cizí zdroje, a je pro nás důležitá celá střední Evropa, nejen Česko nebo Slovensko.

Co považujete za váš největší úspěch?

Je jich několik, ale velkým úspěchem je rozhodně náš strojový překlad, vyvinutý Ústavem formální a aplikované lingvistiky na MFF UK nad daty, která poskytujeme. Jde o nejlepší překladač z češtiny do angličtiny na světě, je výrazně lepší než Google. Vyšel o tom i článek v Nature Communications. V některých měřítkách přeloží větu i lépe než lidé. My jej hostujeme, tedy k nám lidé chodí, aby si něco přeložili, protože samozřejmě to nemůže někde provozovat sám student, k tomu je potřeba velký hardware.

Ale největší infrastrukturní úspěch určitě je, že jsme oficiální repozitář pro projekt, který se jmenuje Universal Dependencies. Do dnešního dne se na něm podílíme a těch sedm let, co existuje, posbíral lingvisticky analyzovaná data ve více než 130 jazycích. Lidi se připojují a zadarmo na něm pracují, ale my vše kontrolujeme, verifikujeme, konvertujeme a poté ukládáme do repozitáře. V projektu jsou lingvisticky analyzovaná data například z hlediska tvarosloví nebo skladby věty, která jsou velmi důležitá pro to, aby se mohla použít pro předzpracování dat pro různé aplikace. V tomto projektu jsme nejvíce citovaní, zaznamenali jsme už téměř 20 tisíc stažení, což je obrovské číslo na takový obor.

Co váš obor v budoucnu čeká?

V dnešní době se používají v různé formě například technologie umělé inteligence. Ty se budou používat stále, možná trochu jinak v budoucnu, ale pořád budou potřeba data. Musíme trochu předvídat, jaká konkrétní data budou lidé potřebovat, aby v momentě, až technologie dospějí a tato data budou zapotřebí, jsme jim je mohli nabídnout. Zároveň pracujeme i na nástrojích, máme například analyzátory pro 120 jazyků, které provozujeme jako službu. Doufám, že se i nadále budeme rozvíjet zdroje pro jazykovědu i pro další oblasti, abychom byli vhodnou infrastrukturou pro všechny vědce v humanitních oborech a oborech umění, kteří potřebují digitální data.

Děkujeme za rozhovor!

Za redakci Vědavýzkum.cz se ptala Barbara Kytková.

Nepřehlédněte také naše první dva úvodní díly seriálu věnovaného výzkumným infrastrukturám. První díl je věnován infrastrukturám v Evropě, druhý pak těm domácím.

Jan Hajič

Jan Hajič je absolventem informatiky MFF UK, kde se také habilitoval v r. 2003 v oboru matematické lingvistiky. Později byl ve stejném oboru jmenován profesorem UK. Od studií se zabýval řešením problémů v tomto interdisciplinárním oboru na pomezí lingvistiky, matematiky, statistiky a informatiky. K jeho zájmům patří zejména tvarosloví flektivních jazyků, syntaktická analýza, strojový překlad přirozených jazyků a příprava jazykových databází pro statistické modelování přirozeného jazyka. V současné době Jan Hajič působí na Ústavu formální a aplikované lingvistiky (ÚFAL) na Matematicko-fyzikální fakultě UK, kde je hlavním koordinátorem digitální výzkumné infrastruktury LINDAT/CLARIAH-CZ.

Příspěvek vznikl ve spolupráci s projektem Nástroje strategického řízení výzkumných infrastruktur (INFRAM), který společně řeší Technologické centrum AV ČR a TERTIARY EDUCATION & RESEARCH INSTITUTE. Projekt je podpořen Technologickou agenturou ČR.

Zpět do rubriky Rozhovory a profily

Jan Hajič: Výměna dat se zahraničními infrastrukturami je pro nás klíčová

Jan Hajič

Vědavýzkum.cz

Související články