O umělé inteligenci a rozpoznávání řeči s Janem Šedivým

4. 2. 2019

Jan Šedivý působí na Českém institutu informatiky, robotiky a kybernetiky (CIIRC) při Českém vysokém učení technickém v Praze. Pracovní zkušenosti má ale i z mezinárodních korporací jako IBM nebo Google. Podílel se například na prvních zařízeních rozpoznávajících řeč. Ve speciálním rozhovoru s Alešem Vlkem z portálu Vědavýzkum.cz hovořil o své práci v korporacích i úspěších v rámci CIIRC.

V 90. letech jste pracoval v IBM. Na čem konkrétně jste se podílel?

Dostal jsem se do skupiny, která pracovala na prvních systémech rozpoznávání řeči. Tehdy nebyly zdaleka tak dokonalé jako dnes. Hovořilo se do toho takzvanou izolovanou řečí. Jednotlivá slova se musela oddělovat mezerami. Už tehdy to ale začínalo fungovat. Ta skupina byla první na světě. Byly v ní ti největší odborníci, se kterými jsem měl tu čest pracovat. Když jsem tam byl, tak jsem si vůbec neuvědomoval, s jakými kapacitami pracuji. Byl jsem tam jako jeden z nich a bylo to vynikající. Nikdo mě nepodceňoval. Takovou atmosféru jsem už málokdy zažil. V roce 1995 jsme pak dali na trh první systém rozpoznávání řeči IBM. Prodaly se toho miliony.

Působil jste ale i v Googlu, jak jste se ocitl tam?

Stalo se to, že IBM se rozhodlo, že byznys s rozpoznáváním řeči skončí. Rozumím tomu, protože IBM více pracuje na korporátní úrovni než se spotřebiteli. Prodali většinu patentů firmě Nuance, která systémy rozpoznávací řeči prodává dodnes. V tu dobu mi pak přišla příležitost jít pracovat do Googlu v Polsku a Švýcarsku. Firmy, která je svou organizační strukturou úplně jiná než IBM. Řekl jsem si, že to zkusím. Pracoval jsem tam dva roky. Byl jsem tam už na poměrně vysoké úrovni a dělal jsem prezentace, což mě po určité době omrzelo. Jsem tak rád, že jsem se mohl vrátit mezi studenty na Fakultu elektrotechnickou ČVUT a později na CIIRC.

Co je tedy aktuálně náplní vaší práce?

Mimo to, že občas učím, tak mám skupinu studentů a pracovníků na CIIRC a zabýváme se zpracováním řeči. V podstatě navazuji na to, co jsem dělal před tím. Tehdy to byl převod mluveného slova do textu na počítači. To je ale jen první krok k tomu, abychom mohli dělat věci, které jsou složitější. Například, abychom mohli počítači říct: „Rozsviť světlo!“ nebo „Přečti mi tuhle knihu!“. Text je první krok a druhý krok je, zjistit, co nese za informaci. Odborně se tomu říká sémantika. Je nás kolem 10 až 15 a zabýváme se výzkumem nových způsobů porozumění tomu, co je v jazyce. Jazyk je komplikovaná množina slov. Variabilita s jakou mluvíme, je nekonečná.

Je to ale naprosto nutné do budoucna. Dnes se ve všech médiích skloňuje umělá inteligence od shora dolů, ale my jsme teprve na jejím začátku. Umělá inteligence obecného charakteru je ještě před námi. První krok k ní je schopnost komunikovat s počítači. Pro člověka je jazyk nepřirozenější způsob komunikace. To je tedy ten první krok, který musíme zvládnout.

Hovoříte o komunikaci s počítači. To v sobě skýtá i mnoho etických a sociálně vědních rozměrů. Jak se díváte na to, že se lidé snaží komunikovat více s počítači než sami se sebou?

To jsou sociální aspekty techniky. Společnost se samozřejmě vyvíjí a není to nic, co by v dějinách lidstva bylo nového. Například na přelomu 19. a 20. století luddité rozbíjeli stroje, protože jim brali práci. Dnes máme obavy, že něco podobného nastane s roboty, kteří budou brát práci lidem. Nevím, jestli budou dělníci rozbíjet roboty, ale tak, jak technologický vývoj pokračuje, tak se mění i chování lidí. Dnes máme lepší schopnosti komunikace. Můžeme telefonovat, psát sms nebo používat Facebook. Lidé se tomu postupně přizpůsobují. Mladé generace jsou pružnější a nachází nové možnosti využití. Já bych se toho neobával. Samozřejmě ale nemůžeme vyloučit negativní důsledky.

Text obsahuje pouze část rozhovoru. Celý rozhovor Aleše Vlka s Janem Šedivým si poslechněte zde.

Zdroj: Youradio News

Zpět do rubriky Youradio Talk

O umělé inteligenci a rozpoznávání řeči s Janem Šedivým

Youradio Talk

Nejnovější od Youradio Talk

Aktuality

Nabídky pracovních pozic

Podcasty