Dokáže umělá inteligence napsat vědecký článek?

8. 8. 2023

S fenoménem umělé inteligence, zejména pak s Large Language Models, se aktuálně stále vynořují tvrzení, která slibují zásadní transformaci. Jsou úvahy, v nichž AI figuruje coby autonomní tvůrce s přesahem ve výzkumu a inovacích, možné a pravdivé? Nebo se umělá inteligence ve vědě i nadále omezuje pouze na roli pomocníka, jehož práce nevyžaduje kreativitu a úsudek, zato je však podmíněna lidskou supervizí?

stock robotpise

Dominantní pohled akademické obce na praktické využití umělé inteligence ve výzkumu byl představen v článku Má generativní AI a ChatGPT ve vědě své místo? Na základě tehdy dostupných informací vyplývajících z pozitivních názorů vědecké obce bylo možné zaznamenat převažující stanovisko vědeckých pracovníků k této problematice: generativní umělá inteligence je ideální pouze jako asistent – zejména pak při mechanické činnosti, jako je například kódování dat. Myšlenky, jež AI staví do role autonomního tvůrce bez lidské supervize, tak byly převážně považovány za scestné.

Údajná svědectví o zázračné AI

Zejména během června 2023 však bylo možné zaznamenat práce a názory, u nichž se na první pohled může zdát, že tento převažující názor rozporují. Například studie, kterou od prvního slova vygeneroval Large Language Model (LLM) ChatGPT s pomocí autonomního systému vytvářejícího zpětnou vazbu, jenž LLM kontroloval.

Mnohem větší kontroverzi však způsobila práce, v níž hlavní autor Iddo Drori, výzkumník z katedry informatiky Boston University a Columbia University, předložil údajnou schopnost LLM GPT-4 plnit úkoly, jež se vyskytují ve zkouškách na Massachusetts Institute of Technology (MIT). Vzniklo tak tvrzení, že AI může dosáhnout na vysokoškolský titul z této prestižní univerzity. Článek se však záhy po zveřejnění stal terčem kritiky, a to hned z několika důvodů.

Problém představoval mimo jiné obsáhlý soubor dat čítající 4 550 úloh získaných z různých kurzů elitní univerzity. Získaná data však byla excerpována neetickým způsobem bez souhlasu vyučujících. Nic však nezabránilo tomu, aby se článek stal virálním hitem na sociálních sítích – během jediného dne nasbíral přes 500 přesdílení na Twitteru. Oba případy přitom při bližším pohledu ukazují problémy a možnosti autorství a intelektuálního výkonu umělé inteligence.

Místo psaní článku se šlo na oběd

Podívejme se na nejprve na první případ vygenerované vědecké studie. Roy Kishony, biolog a datový vědec z Technion – Israel Institute of Technology, se podle vlastních slov spolu se svým kolegou Talem Ifgarganem rozhodl otestovat limity a přesahy LLM, a vyvolat tak diskuzi o možnostech nastupujících inovací v oblasti AI.

Výzkumníci navrhli software, který automaticky zadával podněty do ChatGPT a na základě jeho odpovědí postupně dokument zdokonaloval. Tento autonomní systém pro převod dat na článek vedl chatbota kontinuálně celou strukturou vědeckého výzkumu. Tedy od počátečního registrování dat přes psaní kódu pro analýzu dat a interpretaci výsledků až po finální napsání textu s odpovídajícími náležitostmi.

Ještě předtím, než oba vědci vyrazili na oběd, stáhli veřejně dostupný soubor dat ze systému sledování rizikových faktorů chování amerického Centers for Disease Control and Prevention (Střediska pro kontrolu a prevenci nemocí). Tento soubor dat obsahuje informace získané od více než 250 000 lidí o jejich stavu cukrovky, konzumaci ovoce a zeleniny a fyzické aktivitě.

Zatímco si Kishony se svým kolegou vychutnávali oběd, systém nejdříve požádal ChatGPT o napsání kódu pro průzkum dat. Napoprvé chatbot pro tento proces vygeneroval chybný kód. Systém navržený vědci však tyto chyby odhalil a automaticky odeslal výzvy zpět LLM, který kód opravil.

Za dalších 30 minut vytvořila AI studii s výsledky

Vědci se vrátili, když systém dokončil průzkum dat a požádal Kishonyho a Ifargana o vytvoření cíle studie. Sám ChatGPT navrhl prozkoumat, jakým způsobem strava a fyzická aktivita ovlivňuje riziko vzniku diabetu, což bylo schváleno. Následně vytvořil jak plán analýzy dat, tak její kód. Podle výstupu tohoto kódu ChatGPT přišel se závěrem: konzumace většího množství ovoce a zeleniny a cvičení je spojena s nižším rizikem cukrovky.

Na základě výsledků pak systém naváděl LLM k napsání článku. Proces vyžadoval dvě konverzace s ChatGPT. V jedné z nich software vystupoval coby vědec a přikázal chatbotovi, aby napsal jednotlivé části článku. Ve druhé konverzaci hrál systém roli recenzenta, který poskytoval konstruktivní zpětnou vazbu k textu vygenerovaného „vědeckou“ verzí chatbota.

Vyplňování mezer a halucinace

Přestože ChatGPT za přispění systému napsal studii, jež splňovala veškeré náležitosti vědeckého textu s důkladnou analýzou dat, práci nejen podle autorů nelze považovat za dokonalou. Podle slov Toma Hopea, vědce z Hebrew University of Jerusalem's School of Computer Science and Engineering, „zjištění nejsou něčím, co by překvapilo lékařské odborníky“. Vygenerovaná studie navíc nejen v abstraktu tvrdí, že „řeší mezeru v literatuře“, podle Hopea je však tato skutečnost dostatečně známá a v literatuře ji nalézt lze.

Všeobecným nešvarem generativní umělé inteligence pak i nadále zůstává vyplňování mezer smyšlenými informacemi, které jsou označovány jako halucinace. Za tímto účelem dvojice vědců umožnila softwaru a LLM přístup k vyhledávačům literatury, aby AI mohla napsat studii se správnými citacemi.

Obavy zatím převažují výhody

„Generativní nástroje umělé inteligence mají potenciál urychlit výzkumný proces tím, že budou provádět jednoduché, ale časově náročné úkoly, jako je psaní souhrnů a vytváření kódu. Dále by mohly být použity k vytváření článků ze souborů dat nebo k vytváření hypotéz,“ okomentoval studii Shantanu Singh, vývojář a vedoucí skupiny Inaging Platform z Broad Institute. Jedním dechem však upozorňuje právě na zmíněné halucinace, jež je obtížné detekovat. Z tohoto důvodu se Singh domnívá, že psaní celých článku umělou inteligencí je v dohledné době i nadále vyloučené.

Roy Kishony vyvozuje ze svého projektu potenciálně negativní důsledky. Jednou z nich je usnadnění nekalých praktik ve vědeckém výzkumu, jako je P-hacking. Tedy případ, ve kterém vědci testují v rámci souboru dat několik hypotéz, ale zmiňují pouze ty s příznivým výsledkem.

Dalším potenciálně nepříznivým důsledkem pak podle autora studie může být zaplavení časopisů nekvalitními články, které umělá inteligence vygeneruje.

Dokáže AI získat titul z prestižní MIT?

Druhým nedávným případem použití umělé intelegence, který vyvolal velkou odezvu i mezi akademickou obcí, byla studie zaměřená na testování možností a limitů současných LLM. Tým patnácti vědců – součástí kterého bylo i několik profesorů z MIT – zveřejnilo 15. června 2023 preprintový článek, který tvrdil, že LLM GPT-4 má schopnost plnit úkoly, jež se vyskytují ve zkouškách na Massachusetts Institute of Technology (MIT). Podle textu tak ChatGPT, konkrétně GPT-4, dokáže se stoprocentní přesností „absolvovat“ bakalářský studijní program MIT v oblasti jak matematiky, informatiky, tak i elektrotechniky. Výsledky práce nastiňovaly nebývalý úspěch. Na Twitteru, kde se text masivně rozšířil, se nešetřilo superlativy jako „průlomový“ či „zásadní“.

Dne 24. června však vydali Armando Solar-Lezama, profesor z programu Electrical Engineering and Computer Science (EECS), Tonio Buonassisi, profesor strojního inženýrství, MIT, a Yoon Kim, odborný asistent EECS a CSAIL na MIT veřejné prohlášení k tomuto článku. V něm tvrzení o schopnosti umělé inteligence splnit zkoušky vedoucí k obdržení titulu na MIT vyvrátili a upozornili na neetický přístup sběru dat hlavního vedoucího studie Iddo Droriho.

Tvrzení článku následně prověřil student MIT Raunak Chowdhuri se svými kolegy ve své analýze. V rozporu s tvrzeními článku našel Chowdhuri zjevné problémy zejména v oblasti metodologie. Tým studentů posledního ročníku odhalil, že soubor dat obsahoval 10 neřešitelných otázek. To znamenalo, že buď LLM ChatGPT-4 byla v rámci podnětů podávána řešení, nebo otázky nebyly správně hodnoceny.

Při hlubším zkoumání Chowdhuri skutečně zjistil, že ChatGPT skutečně dostával řešení v rámci výzev prostřednictvím „shot examples“, což jsou problémy a jejich řešení, které jsou modelu poskytovány jako dodatečný kontext. V neposlední řadě je v článku uvedeno, že odpovědi ChatGPT byly dvakrát ručně ověřeny. Tým však zjistil, že program používal zaznamenanou správnou odpověď k tomu, aby se řídil správnými kroky.

Kromě výše uvedených chyb, jež dokládají buď pochybení, nebo cílenou manipulaci, ve vyjádření z 24. 6. zaznívá příslib, že Droriho neetický přístup bude mít jistou dohru, protože se řadí k „závažným proviněním“. Prohlášení je navíc zakončeno nekompromisní větou, která vyvrací výše zmíněné domněnky o přesazích umělé generativní inteligence: „A ne, GPT-4 nedokáže získat titul z MIT.“

Autor: Vědavýzkum.cz (JM)

Zdroje: The Chronicle of Higher Education, Nature, The Register