Martin Víta: Peer review v éře AI – pomocník, nebo další problém?

Ilustrační obrázek vytvořený pomocí AI nástroje Nano Banana

Rozvoj velkých jazykových modelů mění způsob, jakým vznikají vědecké texty – a pravděpodobně změní i způsob, jakým jsou posuzovány. Může umělá inteligence pomoci řešit krizi peer review, nebo naopak přispěje k dalšímu zahlcení vědeckého publikačního systému? Nad otázkami, které otevřel nedávný text Ondřeje Machka, se zamýšlí Martin Víta.

Na příspěvek Pochmurné vyhlídky systému peer review Ondřeje Machka jsem narazil krátce poté, kdy jsem „odklikl” ochotu recenzovat sadu konferenčních příspěvků jedné větší informatické konference. Přesněji řečeno, na článek jsem nenarazil náhodou, doporučil mi jej systém, jehož jádro je nepochybně založené na metodách AI/ML. Ondřej Machek ve svém příspěvku nadhodil několik východisek současného problematického stavu i možné scénáře dalšího vývoje. Dovolím si pokračovat v úvahách – navázat dalšími postřehy, přidat další scénáře a dále rozšiřovat kontext.

Přečtěte si také

Ondřej Machek: Pochmurné vyhlídky systému peer review

Naše poznání už desetiletí stojí na systému peer review, který má zajistit, aby světlo světa spatřily pouze metodicky a fakticky kvalitní vědecké studie. Ve vědecké sféře začínají právem zaznívat obavy z nejistoty, co s tímto systémem provede nástup umělé inteligence. Pojďme se podívat na hlavní problémy.

Review (nikoliv nutně „peer”!) má nezastupitelnou roli v zajišťování kvality vědeckých výstupů, podobně jako např. testování kvality software – mimochodem, paralel mezi těmito dvěma oblastmi bychom našli patrně výrazně více, než se na první pohled může zdát. Kvalita recenzního řízení se propisuje do kvality časopisů, což postupně „probublává” do hodnocení vědy se všemi důsledky, které jsou na hodnocení navázané.

Nedávno jsem se pustil do podrobného prostudovávání článku v jednom nejmenovaném impaktovaném časopisu. Článek obsahoval v příloze jak data, tak i příslušné skripty v Pythonu, které (údajně) z těchto dat generovaly výsledky tvořící hlavní sdělení zmíněného v článku. Nedalo mi to, abych nenasměroval svůj oblíbený chatovací LLM nástroj na skripty a data a požádal jej, aby – mimo jiné – ony skripty nad daty spustil a získané výsledky konfrontoval s výsledky v článku. Jaké bylo moje překvapení, když „chatbotové” výsledky byly zcela odlišné od těch z článku… Následně jsem celé věci věnoval poněkud více času a výsledky se pokusil zreplikovat tradičně „ručně”. Bohužel, potvrdily se výsledky získané chatbotem, nikoliv ty z článku… Jednalo se vlastně o AI alternativu komunitního post-review, které ve svém příspěvku zmiňuje Ondřej Machek. V tomto případě nejspíše AI nerecenzovalo AI, nýbrž AI recenzovalo „lidský” výstup.

Z této partikulární záležitosti vyplývá několik dílčích závěrů: „lidské" peer-review má přinejmenším v některých případech k dokonalosti daleko, rozptyl kvality je nejspíše značný.

Jednou z příčin je nejspíše i přetížení – stále ještě ochotných – recenzentů, tlak na výkon aj. Stále ovšem přetrvává jakýsi latentní pocit, že lidský produkt je vždy etalonem kvality: zjevně tomu však být nemusí. Dále je zřejmé, že aplikovat tento snadno škálovatelný proces nikoliv jen na jednotlivé články, ale pro celé kolekce článků, je jen záležitostí „trochy úsilí a tokenů”, experimenty na toto téma již probíhají.

Osobně jsem přesvědčen, že přes váhání ohledně využití či nevyužití AI nástrojů v procesu review z pohledu etiky se využití AI nástrojů stane nakonec povinnou součástí procesu review. Recenzent má (morální) povinnost poskytnout co nejkvalitnější review a pokud je cestou použít AI nástroje, je (přinejmenším na základě utilitaristické etiky) správné se touto cestou vydat – je zde samozřejmě řada problematických aspektů, např. otázka zajištění „netrénování” modelů nad těmito recenzovanými materiály atp., nicméně řešení těchto problémů je záležitostí spíše technického než ideového charakteru. Co je ovšem klíčové, je otázka odpovědnosti: tu ponese stále „podepsaný” autor recenze – půjde zde o odpovědnost mj. za korektní užití vhodně vybraného nástroje a správnou interpretaci výsledků získaných jeho pomocí, detekci halucinací či jiných chyb LLM atp.

Ať už budou osudy review procesu jakékoliv, lidský faktor (potažmo čas lidského faktoru) zůstane (nejspíše!) neopomenutelný, přinejmenším proto, že architektura „lidské neuronové sítě" je prostě jiná než té umělé, která stojí za moderními LLM.

Tradiční peer review proces obstojně fungoval v dobách, kdy neexistoval tak výrazný tlak na vědecký výkon reprezentovaný spojením publish or perish a zárove, kdy produkce kvalitního textu byla relativně drahá. V současné době neplatí ani jedna z částí této konjunkce. Zároveň se tyto trendy setkávají s rozvojem open access přístupů spolu s intenzivním využíváním modelu APC.

Přečtěte si také

Publish or perish: Problémy současného vědeckého publikování

Rekordní množství stažených (ve smyslu odstraněných, v angličtině retracted) článků, nadužívání autocitací i práce napsaná pomocí AI. To jsou jen některé nešvary, jimž v současnosti čelí vědecká komunita, a které ve svém důsledku znevěrohodňují vědeckou práci jako celek.

Na rozdíl od jiných částí výzkumného workflow je zajišťování peer-review založeno na neformálních vazbách a kolegialitě. Jsem přesvědčen, že tyto aspekty vezmou – zejména z ekonomických důvodů, viz výše – za své. Recenzování se stane regulérně honorovanou prací: finanční motivace je efektivní a zvýšení zájmu o peer review je v současné situaci už nutností. Ostatně oponování návrhů projektů je standardně honorováno již v současnosti a není zde objektivní důvod, proč jedna z těchto činností by měla být honorována a druhá nikoliv. Určité krůčky tímto směrem se už objevují (byť řídce), ať už přímé finanční odměny, kredity či tokeny, ale na masivnější krok tímto směrem se přeci jen stále čeká.

Situaci by též pomohlo, kdyby výsledek recenze byl častěji uznávaný jako standardní výstup vědecké činnosti, podobně jako máme články, konferenční příspěvky, metodiky, užitné vzory aj. – zvláště, když jsou recenze otevřené.

Ondřej Machek zmiňuje též otázku změny struktury vědeckých článků a nastiňuje možný směr: „méně úvodů a závěrů”, highlights v bodech, těžiště se výrazněji přesune k datům, metodám a výsledkům. Dovolím si navázat myšlenku, že AI nástroje založené na LLM umožní něco, co zde zatím neexistovalo – a totiž jakousi personalizaci výsledků, resp. pohledu na ně. Často se stává, že zejména úvod a state-of-the-art se mírou podrobnosti „netrefí” do čtenářovy úrovně, aneb pro experta triviální, pro ne-experta, který se potřebuje seznámit s klíčovými výstupy, naopak nedostatečné. LLM může hrát roli nástroje, který nám poskytne „brýle", jimiž můžeme na highlights v úvodu hledět a který bude vycházet z informací o našem znalostním zázemí.

Lze rovněž předpokládat, že některé žánry získají zcela novou podobu: se stále se vylepšujícími schopnostmi LLM nástrojů přestanou existovat přehledové články/survey papery v dnešní podobě: výzkumník/výzkumnice si tento obsah nechá „instantně” vygenerovat pro své potřeby pro aktuální stav.

Schopnosti LLM nástrojů nepochybně vedou k jakési demokratizaci tvorby vědeckých článků – ti, kteří dosahovali reálně zajímavých výsledků, avšak nebyli optimálními „psavci”, mají najednou k dispozici ideální nástroj. Ti, kdož měli problémy s tvorbou skriptů na zpracování dat ze svého výzkumu, získali v LLM nástrojích skvělého partnera namísto nedostatkových programátorů… LLM již umí provádět (přinejmenším některý typ) „řemeslného výzkumu”. Spolu s tlakem na publikování, který nezmizí ze dne na den, bude rychlost růstu množství článků k recenzování stoupat, podobně jako množství publikovaných výsledků. Ondřej Machek zmiňuje scénář, kdy „se publikační svět fakticky rozdělí na dvě vrstvy, kdy v jedné budou top časopisy s extrémně dlouhou čekací dobou, zatímco v druhé bude pokračovat masivní produkce textů, které budou částí vědecké komunity více nebo méně přehlíženy” a následně jako nejhorší scénář uvádí stav „eroze důvěry ve vědecké publikování.”

Osobně jsem mírným technooptimistou (s jednou výraznou pochybností): nadprodukce vědeckých výsledků díky LLM nástrojům není reálně takovým problémem, jako se může na první pohled zdát. Skutečným problémem, který reálně hrozí, je neschopnost, resp. nemožnost odlišit kvalitní výstup od nekvalitního, ať už jsou obě větve vytvářeny/generovány jakkoliv. Nástroje a přístupy se nakonec najdou (třeba v kombinaci AI a lidského řešení, aneb human-in-the-loop) – největším problémem ovšem bude přechodné období mezi dneškem a tímto načrtnutým stavem…

Autor: Martin Víta

Příspěvky z rubriky Názory nijak nevyjadřují názory a postoje redakce.

Kategorie: Martin Víta