facebooktwittergoogleinstagram

Věda a výzkum

Portál Vědavýzkum.cz - Nezávislé informace o vědě a výzkumu

IOCB Tech, s.r.o. - hlavní partner portálu Vědavýzkum.cz

Hlavní partner portálu
facebooktwittergoogleinstagram

Jan Hajič: Jazykový software z Matfyzu využívá i Google

16. 8. 2021
Jan Hajič: Jazykový software z Matfyzu využívá i Google

„Když se snažíte prodat něco, co se dá za pár vteřin zkopírovat, je to jiné, než když vyrábíte auta nebo léčiva,“ říká o transferu znalostí Jan Hajič z Matematicko-fyzikální fakulty UK. Přesto se to matematickým lingvistům daří a softwarové nástroje či data využívá i Google.

VS1 1140s

Nedávno jste podepsali licence na komerční využívání vašich softwarových nástrojů pro analýzu jazyka. Jaká to má specifika oproti transferu „hmotných“ technologií?

Pro nás to byl první prodej licencí ve spolupráci s Charles University Innovations Prague (CUIP); v minulosti jsme již několik licencí prodali sami jako ústav. Od té doby, co existuje CUIP, je ale vše mnohem jednodušší – řeší za nás smluvní a právní věci, faktury… My jako vědci se můžeme soustředit jen na obsah licence. Prodej softwaru je flexibilní a vždy záleží na konkrétní domluvě s firmou – některá chce používat celý software, jiná jen vstupní data. Když se snažíte prodat něco, co se dá za deset vteřin zkopírovat, je to samozřejmě jiné, než když vyrábíte auta nebo léčiva. Transfer znalostí je v Česku stále poměrně nový. Neprodáváme technologie, ale práva ke komerčnímu užívání. I za softwarem je dlouhý vývoj a experimentální část, která je svou náročností podobná vývoji léčiv. A v určitém smyslu je to o vzájemné důvěře, neboť naše nástroje jsou dostupné na webu lindat.mff.cuni.cz pro osobní využití a testování.

Kontrolujete nějak to využívání?

My samozřejmě hlídáme, kdyby to někdo nějak „nadměrně“ využíval, ale nepoznáme, zda někdo přeloží text naším překladačem a prodá to jako službu. Naší motivací je, aby se naše technologie využívaly; neděláme to pro výdělek. Navíc konkurence je v oblasti softwaru obrovská a nelze byznysově konkurovat kolosům jako Google či Microsoft, ač jsou některá naše řešení i lepší.

Co vše máte v „nabídce“?

Těch nástrojů je mnoho a stále přibývají. Oblíbený je překladač, jehož výsledky jsou v soutěžích nerozpoznatelné od práce překladatelů. Korektor zase hledá překlepy, pravopisné chyby, ale umí doplnit i háčky a čárky, a oproti korektuře v MS Wordu pracuje v kontextu celého textu, čímž dokáže odlišit, zda se jedná o předložku ze, nebo spojku že. Další položkou, počtem jazyků nejbohatší, je větný rozbor, který nabízíme pro sto jazyků.

Větný rozbor – noční můra spousty žáků – a jejich častý dotaz: „K čemu je to dobré?“

Pro žáky je to skvělý základ pro učení dalších jazyků, podporuje též logické myšlení. V automatickém rozpoznávání jazyka je to důležité pro některé další aplikace. Třeba fulltextové vyhledání: když budete chtít vyhledat „daň z příjmu“, tak díky určení základního tvaru slova a zaindexování vám vyhledávač najde i místa, kde se vyskytují slova daně, daních, daním, daněmi a tak dále. Stejně je to důležité kupříkladu při obsahové analýze – dnes už poznáme, zda je text pozitivní, nebo negativní, ale je těžké určit, vůči čemu je negativní… Například v recenzích – je zákazník nespokojen s výrobkem, s celou firmou, nebo jen se zákaznickým servisem?

Na jakých dalších projektech pracujete?

Zaměřujeme se na takzvané pojmenované entity, vyhledávání jmen a názvů. Třeba když chcete vyhledat Ústí nad Labem, což je pro software složité: „ústí“ může být i obyčejné slovo – ústí řeky, nad je spojka a Labe je název řeky, ale třeba i součást názvu Brandýs nad Labem. Ale vy chcete vyhledat pouze a jen Ústí nad Labem, konkrétní město. Pracujeme na nástroji, který by takové názvy v textech vyhledával jako celek a uměl rozlišit, zda se pak jedná o jméno člověka, města či firmy a rovnou by nabízel i další informace – například z Wikipedie.

Zabýváte se automatickým porozuměním textů. Musí počítač obsahu vskutku „porozumět“, jako by pochopit smysl, nebo je to spíše jen naučená statistika?

Od skutečného porozumění jsme daleko a není jisté, zda se to někdy povede. Dnešní „umělá inteligence“ vůbec není inteligence – je to jen prostá reprodukce dat již dříve vyprodukovaných lidmi. Ta aplikace je ovšem v naučené oblasti takřka dokonalá, takže ačkoliv tomu počítač nerozumí, vypadá to inteligentně. Navíc člověk se učí po celý život a působí na něj mnoho nejrůznějších vlivů, jež nemáme nijak zaznamenané. Nevím, zda bychom našli sto milionů lidí, kterým bychom dali kamery a mikrofony a nepřetržitě je monitorovali, abychom získali dostatek vstupních dat pro vytvoření skutečné umělé inteligence (usměje se). Pokud bychom ale uměli naučit AI pouze z pár příkladů, umím si představit, že sto takových extrovertů bychom našli.

VS1 1059

Co můžeme v oboru čekat za pár let?

Myslím, že bude pokračovat pokrok podobně jako doteď: postupný vývoj a čas od času skokové zlepšení. Jako v posledních pěti letech, kdy jsme udělali obrovský posun v technologiích a ve strojovém učení a najednou umíme velmi dobře simulovat lidské chování. Pravděpodobně najdeme nové způsoby, jak sbírat data a jak je dále využívat, což otevře nové možnosti. Hodně se mluví o kvantových počítačích, což by nám umožnilo výrazně posunout výpočetní kapacity.

Jak moc by se vaše práce lišila, pokud byste nepracoval s češtinou, ale s angličtinou?

Vlastně ani o moc ne. Na samotném jazyku nezáleží. Pokud bych ale pracoval s angličtinou, asi bych se více zabýval softwarovým nástroji a novými aplikacemi. V angličtině jsou již lingvistická data dostupná a nemuseli bychom si je sami tvořit jako u češtiny. Tvorba jazykových korpusů je stále časově nejnáročnější část, ač se řada věcí s rozvojem technologií zrychluje.

Stále platí, že české jazykové korpusy jsou druhé nejlepší na světě?

To záleží na tom, co budeme porovnávat. Kvantitativně jsme v lingvistickém zpracování dat asi třetí, za angličtinou a němčinou, ta nás v posledních letech předběhla. V některých kvalitativních oblastech jsme patrně i nejlepší a zcela určitě patříme ke světové špičce.

VS1 1177

Počítačová lingvistika spojuje exaktní matematiku a tvůrčí lingvistiku. Co je vám bližší?

To je velmi těžká otázka. Já studoval informatiku, takže spíše ta matematika. Lingvistiku jsem si přibral až cestou – respektive jsem ji téměř doslova zdědil po matce (profesorka Eva Hajičová je významná lingvistka, jež se zásadně zasloužila o rozvoj celého oboru – pozn. redakce).

Ale i vy jste tuto rodinnou tradici předal dál…

Ovšem jen částečně, syn sice také působil na Ústavu formální a aplikované lingvistiky (ÚFAL), ale je hudebníkem a věnuje se zpracování a strojovému rozpoznávání hudebních not – ale i to je, co se týká používaných metod, lingvistice vlastně velmi podobné.

 

 forum

Autorka: Pavla Hubálková

Foto: Vladimír Šigut

Článek vyšel v online magazínu Univerzity Karlovy Forum.

 


Jan Hajič

Působí v Ústavu formální a aplikované lingvistiky (ÚFAL) na Matematicko-fyzikální fakultě UK, je hlavním koordinátorem digitální výzkumné infrastruktury LINDAT/CLARIAH-CZ.