Josef Šivic je čerstvý držitel ERC Advanced Grantu 2022. Na CIIRC ČVUT vede výzkumný tým inteligentního strojového vnímání v oblasti umělé inteligence. Evropská výzkumná rada se rozhodla podpořit jeho projekt FRONTIER, který navazuje na jeho dosavadní výzkum a posouvá hranice stávajícího poznání v oblasti inteligentních počítačových systémů schopných učit se v dynamicky se měnícím světě.
Jaký byl Váš první pocit, když jste se o úspěchu FRONTIER dozvěděl? Překvapilo Vás to nebo jste úspěch očekával?
Vědecká konkurence je v ERC grantech opravdu vysoká. Konkrétně o ERC Advanced granty se uchází skutečně vynikající výzkumníci z celé Evropy se skvělými výsledky. Proto to bylo velké překvapení a radost!
Co si myslíte, že bylo rozhodující? Čím jste podle Vás hodnotitele ERC přesvědčil a co projekt odlišilo od ostatní velmi silné konkurence?
V programu ERC je klíčová originalita a potenciál dosažení průlomu v dané oblasti, i když je projekt vlastně riskantní. Snažil jsem se tedy zaměřit na inovativní téma, které je v mé oblasti zásadní otevřenou výzvou. Přípravě projektu jsem dal hodně energie a času. Myslím, že je také důležitá znalost daného problému a schopnost jej definovat. Pak samozřejmě originalita a inovativnost nápadu, který problém řeší. Problém a jeho řešení ale samo o sobě nestačí, projekt by měl mít i jasný pozitivní dopad na společnost nebo daný obor. Je potřeba zformulovat problém tak, aby to pochopil i vědec z oblasti počítačových věd, ale nemusí být hluboce ponořen do daného oboru. Bez podpory nejbližších spolupracovníků, zvláště pak při přípravě na pohovor, ale i rodiny, která měla se mnou po dobu psaní projektu neuvěřitelnou trpělivost, bych to ale jen stěží dokázal.
Na co hlavně se chcete zaměřit a jaké konkrétní výsledky v projektu FRONTIER očekáváte?
Hned na začátek musím říct, že současné výsledky umělé inteligence díky velkým neuronovým modelům, jako je například GPT-4, Chat-GPT nebo Stable Diffusion, jsou opravdu fenomenální. Dokáží generovat odborně znějící texty, počítačový kód, kreativní obrázky nebo složit advokátní zkoušky lépe než 90 % uchazečů. Téměř každý den médii rezonují další efektní výsledky. Přesto, a možná o to víc překvapivě, stále nemáme systémy a stroje, které by byly schopné spolehlivě vnímat svůj okolní svět, porozumět mu a interagovat s ním. Třeba řídit auto ve všech podmínkách a situacích, vyložit nádobí z myčky nebo něco uvařit.
Čím to je?
Už v 80. letech se tím v Americe zabýval Hans Peter Moravec, rakousko-kanadský vědec v oboru umělé inteligence a robotiky. Pojmenoval jednu překvapivou skutečnost – a od té doby se tomu říká „Moravcův paradox”. Některé úlohy, o kterých si myslíme, že jsou pro většinu lidí velmi obtížné, jako třeba složit advokátní zkoušky, jsou ve skutečnosti pro počítačové systémy jednoduché. Prostě lehce zvládnutelné automatizovanými technikami.
Naopak jiné úlohy, které nám přijdou jako triviální a děláme je každý den, jsou pro stroj velmi obtížné. Jsou to hlavně senzomotorické úlohy, jako již zmíněné řízení auta nebo vyložení myčky. Moravec doslova napsal, že „je poměrně snadné přimět počítače, aby na úrovni dospělého člověka zvládly inteligenční testy nebo hraní dámy, ale pokud jde o vnímání a mobilitu, je obtížné nebo nemožné jim dát dovednosti ročního dítěte“. Umělá inteligence se od té doby výrazně posunula, nicméně úlohy vnímání okolního světa a interakce s ním na úrovni lidských schopností jsou stále daleko.
Vždyť už nyní ale třeba automobil řadu věcí umí.
Už někdy v roce 2015 se říkalo, že během několika let tu budou plně autonomně řízená auta, ale ani o 8 let později tu plně autonomní systémy, které by fungovaly ve všech situacích, pořád nemáme. Ten problém se ukázal jako mnohem těžší, než jsme čekali. To se ale nevylučuje s tím, že nám současné systémy nemohou výborně pomoci. Mám nyní na mysli systémy asistivního řízení, které mohou ušetřit obrovské množství času. V určitých dobře definovaných scénářích, jako je řízení na dálnici, popojíždění v koloně nebo robotaxi operující v dobře definované oblasti. Během jízdy v zácpě cestou do práce si budete moci místo řízení třeba přečíst noviny. Zatím ale stále nemáme opravdu obecný samořídící automobil, který by měl schopnosti na stejné úrovni jako člověk ve všech prostředích a podmínkách.
A tím se tedy budete ve FRONTIER zabývat?
Ještě bych to uvedl na dalším příkladu – většina robotů, které se běžně využívají v továrnách, jsou předprogramované na jednu konkrétní úlohu. Když takového robota dáte do jiného prostředí, tak nebude dělat vůbec nic. Proto chceme vyvinout novou generaci velkých neuronových modelů, v angličtině je nazýváme „foundational”, česky jim můžeme říkat například „primární modely”, pro systémy s fyzickým tělem, které fungují v dynamickém 3D světě a interagují s okolním prostředím.
Příkladem může být robot jako domácí asistent, robot v továrně, samořiditelné auto, ale i robot chirurg. Všechny tyto systémy mají nějaké „fyzické tělo”, proto potřebují vnímat okolní svět, uvažovat o něm a interagovat s ním. Současné velké neuronové modely toho ale schopné nejsou nebo mají jen velmi omezené schopnosti.
Jak konkrétně toho chcete dosáhnout?
Budeme vyvíjet nové neurální architektury, které budou věrohodně reprezentovat fyzikální a geometrickou strukturu okolního světa. Výsledkem budou také nové algoritmy, které umožní učení složitých vícekrokových úkolů jen z několika málo příkladů. Tedy podobně, jako se umí učit člověk. Třetím nejambicioznějším cílem je vyvinout algoritmy, které by umožňovaly strojům navzájem sdílet nabyté zkušenosti, a tím se lépe a rychleji naučí reagovat s okolním světem. To je ale velmi těžké, protože jednotlivé stroje budou řešit různé úkoly v rozdílných prostředích.
Zde bych se vrátil k úspěchu současných velkých modelů. Mohou se trénovat na textech a obrázcích z celého Internetu. Takové množství dat ale třeba s jedním robotem ve své továrně jen těžko získáte. Prostě ani během deseti let to takzvaně nenakouká. Proto se zaměříme na metody, které nedostatek učících dat nahradí, protože budou umět agregovat zkušenosti z interakcí s prostředím z různých systémů a zobecňovat je. Hlavním výstupem budou samozřejmě vědecké publikace, ale typicky i vědecký software, který umožní dosažené výsledky jednoduše zreprodukovat, a v neposlední řadě natrénované modely. Cílem je všechny výsledky zpřístupnit ostatním vědcům v rámci otevřené vědy.
S kým budete spolupracovat?
Cesta k aplikacím je v oblasti umělé inteligence často překvapivě krátká. V oblasti průmyslové robotiky využijeme inovační infrastrukturu, kterou má náš institut CIIRC ČVUT přímo v budově – Testbed pro Průmysl 4.0. Už nyní pracujeme společně na projektu v oblasti agilní robotiky pro průmyslovou výrobu, kdy je robotická linka složená z multifunkčních mobilních robotů, které bude jednoduché přeprogramovat na novou úlohu. Spolupracujeme také s mezinárodními partnery, třeba v rámci evropských sítí excelence, jako je euROBIN v robotice nebo ELISE ve strojovém učení. K náročným výpočtům budeme využívat špičkovou infrastrukturu, kterou má Česká republika v podobě superpočítače Karolina v Ostravě. Případně využijeme ještě větší superpočítač LUMI ve Finsku.
Autorka: Kateřina Veselá
Foto: J. Ryszawy
Zdroj: České vysoké učení technické v Praze
Josef Šivic je vedoucím výzkumné skupiny zaměřené na inteligentní strojové vnímání na Českém institutu informatiky, robotiky a kybernetiky na ČVUT v Praze a ředitelem ELLIS Unit Prague. Od roku 2022 je také předsedou iniciativy AICzechia, která sdružuje prostřednictvím klíčových odborníků v oblastech umělé inteligence čtyři desítky předních akademických týmů a pracovišť, působících zejména na univerzitách a výzkumných institucích v České republice.
Po absolvování magisterského studia na ČVUT v roce 2002 strávil více než 15 let v zahraničí, včetně doktorského studia na University of Oxford ve Velké Británii, postdoktorského pobytu na Massachusetts Institute of Technology v USA a více než desetiletého působení na francouzském národním výzkumném institutu informatiky (Inria) v Paříži ve Francii, kde získal ERC Starting grant. Od roku 2017 působí na CIIRC ČVUT, kde vede projekt OP VVV IMPACT financovaný ve výši 111 milionů korun, který mu návrat do Česka umožnil. Je spoluautorem více než 100 odborných publikací. Jeho vědecké práce získaly Helmholtzovu cenu a cenu Longueta-Higginse za zásadní příspěvky k počítačovému vidění.
- Autor článku: ne
- Zdroj: ČVUT v Praze