Rekordní množství stažených (ve smyslu odstraněných, v angličtině retracted) článků, nadužívání autocitací i práce napsaná pomocí AI. To jsou jen některé nešvary, jimž v současnosti čelí vědecká komunita, a které ve svém důsledku znevěrohodňují vědeckou práci jako celek.
Ilustrativní obrázek vygenerovaný pomocí AI.
Podle prosincové analýzy Nature bylo v roce 2023 staženo 10 000 již publikovaných článků. To je nejvíce v historii. Přestože počet vědeckých článků obecně stále roste, množství stažených prací převyšuje tento nárůst a je rekordní i v poměru k těm publikovaným. V poslední dekádě se dokonce ztrojnásobil, v roce 2022 se jednalo o 0,2% nárůst stažených prací v poměru ke všem publikovaným. Nejvíce stažených článků bylo ze zemí, jež zároveň hodně publikují, jako je Saudská Arábie (30 stažených článků na 10 000 publikovaných), Čína (přes 30 stažených příspěvků na 10 000, pokud se započítají také příspěvky na konferencích), Pákistán a Rusko. Tyto země mají za posledních dvacet let na svědomí nejvíce stažených článků.
Ze všech loňských stažených studií jich za více než 8 000 z nich stojí londýnské vydavatelství Hindawi, které spadá pod nakladatelství Wiley. Důvodem podle něj byla pochybení při recenzním řízení. Šetření bylo prováděno interními editory, kterým se na později stažených článcích zdály podezřelé například irelevantní citace nebo nekoherentní části textu daných publikací. Za problematické byla označena hlavně speciální vydání časopisů, která obsahují příspěvky na jedno konkrétní téma. Tato vydání jsou často kontrolována externími zvanými editory, kteří jsou experty na danou problematiku. A mezi nimi jsou potom někdy podvodníci, jež v daném čísle sami publikují vymyšlené články nebo takové, které vykazují nějakou míru plagiátorství. Tyto práce tak uniknou detailnější kontrole nezávislého editora.
Pochybné citace
Jeden ze způsobů, jak odhalit pochybný článek, je podívat se na citace. Ty, jak již bylo zmíněno, jsou v takových pracích často irelevantní – neodpovídají danému tématu článku, není v nich to, co autor cituje atp. Například u predátorských časopisů jsou často vědci nuceni citovat články publikované v daném časopise, a tím mu uměle navyšovat impact factor. Někteří výzkumníci si také navyšují svůj H-index pomocí autocitací.
Na poslední jmenovaný problém upozornil v roce 2019 časopis Nature, kdy se v pravidelně sestavovaném žebříčku nejcitovanějších vědců vedle nobelistů objevilo také naprosto neznámé jméno indického vědce Sundarapandiana Vaidyanathana, zabývajícího se počítačovými vědami. Následnou analýzou, kterou zpracoval časopis PLoS Biology, se ukázalo, že 94 % jeho citací jsou autocitace – tedy že v pracích, ve kterých je autorem, se většinově citují další jeho práce, na kterých se podílel.
Následná širší analýza 100 000 vědců dále ukázala, že minimálně u 250 z nich pochází více než 50 % citací z autocitací, přičemž medián byl 12,7 %. Nejčastěji se autocitace objevují u vědců z Ukrajiny, Ruska a Indonésie – mezi 30–40 %. V souvislosti s velkým množstvím autocitací se hovoří také o tzv. citačních farmách – institucích, kde vědci masivně citují jeden druhého. Důvodem pro autocitace je často fakt, že počet citací a tedy H-index daného vědce je měřítkem úspěšnosti, podle kterého instituce vědce přijímají a hodnotí nebo jim udílejí granty. Autoři analýzy dodávají, že pokud množství autocitací přesáhne 25 %, je dobré článek, případně články daného autora, prozkoumat podrobněji.
Nejnovější studie z prosince 2023, která sledovala vývoj autocitací v jednotlivých zemích v čase, ukazuje, že celosvětově se ve většině zemí počet autocitací za posledních dvacet let snížil, což by mohlo ukazovat na narovnávání pokřiveného prostředí. Nicméně v několika z nich – například v Kolumbii, Egyptě, Itálii, Rumunsku, Rusku, Thajsku nebo na Ukrajině – se naopak zvýšil. Když autoři data korelovali s vědeckou politikou dané země, ukázalo se, že velký počet autocitací opravdu vykazují ti vědci, jejichž stát toto chování přímo či nepřímo podporuje. Například v Itálii byla v roce 2010 zavedena kontroverzní legislativa, podle které může na povýšení v akademickém světě pomýšlet jen ten, kdo má dostatek publikací a citací. Po zavedení této politiky se opravdu skokově zvýšil počet autocitací italských vědců.
Ani vysoký podíl autocitací ale nemusí nutně v každém jednotlivém případě znamenat nekalé praktiky. Je pochopitelné, že vědci citují své předchozí práce, jelikož na ně ve svém výzkumu často navazují nebo se věnují nějakému tématu dlouhodobě a jedná se tak o jeden z legitimních způsobů, jak zviditelnit svou práci. Vždy záleží na kontextu oboru, fázi kariéry atp. Odpovědnost by tak měla ležet na editorech časopisů, kteří budou kontrolovat, zda jsou použité autocitace relevantní k danému tématu článku. Čím dál víc je tak v západních zemích prosazováno, aby kritériem pro odměňování a posuzování vědců byla kvalita jejich vědeckých publikací, nikoliv kvantita – a to ať už na úrovni Ph.D. studentů, postdoců nebo vedoucích skupin.
Psaní článků pomocí AI
Ke stažení článků vedle podivného nakládání s citacemi může také vést výskyt tzv. „tortured phrases“ (v češtině „šroubované fráze“) – slovní spojení, která jsou zbytečně šroubovaným vyjádřením něčeho, co má v daném oboru svoje ustálené označení. Příkladem může být zjištění skupiny vědců z prostředí počítačových věd, kterým v roce 2021 přišla podezřelá některá slovní spojení ve článcích z jejich oboru. Například místo „big data“ bylo použito „colossal information“, namísto „deep neural network“ bylo „profound neural organization“, místo „artificial intelligence“ bylo „counterfeit consciousness“ atp. (zde se omlouváme čtenářům, ale překlad těchto slovních spojení by působil poněkud krkolomně a pravděpodobně by nepostihl podstatu problému). Postupně se zjistilo, že použití takových podivných slovních spojení není v článcích z počítačových věd ojedinělé a je pravděpodobně výsledkem buďto automatického překladače nebo spíše programu, který chce nahrazením slov obejít programy odhalující plagiáty.
Skupina nakonec nalezla 860 prací, které obsahovaly alespoň jednu „tortured phrase“. V těchto článcích byly dále objeveny například pasáže s nesmyslným textem nebo známky plagiátorství – jak textového, tak obrazového. Mnoho z nich v jednom konkrétním časopise – Microprocessors and Microsystems (nakladatelství Elsevier). Podívali se tak důkladněji na články v tomto periodiku a ukázalo se, že spousta pochybných publikací byla ve výše zmíněných speciálních tematických vydáních. Následně vedení časopisu zahájilo vlastní šetření, protože se obávalo o svou reputaci. Vedení došlo k závěru, že k výskytu „tortured phrases“ vedlo tzv. zpětné překládání textu (například z angličtiny do češtiny a zpět do angličtiny), které mělo obelstít kontrolu plagiátů.
Nalezená pochybení byla ale také v jiných časopisech. Autoři analýzy se domnívají, že tyto články mohly být mimo jiné psané pomocí ChatGTP, jelikož jejich počet se od roku 2019, kdy byla na světě jeho novější verze, dramaticky zvýšil. To mimo jiné ukazuje na fakt, že přestože se veřejnost více začala zajímat o umělou inteligenci až v loňském roce s novou verzí ChatGTP, její předchůdkyně pravděpodobně vědcům, zejména v IT oborech, „pomáhají“ už mnohem déle. Jedná se tak o nový druh podvodného chování ve vědě, které dosud nebylo příliš známé.
Za pochybnými články je často business nazývaný paper mills (vymyšlené články psané na objednávku, aby zvýšily citační skóre daného „vědce“) – o tématu jsme psali například zde nebo zde. Pod vlajkou s heslem publish or perish tak vzniká velké množství publikací, jejichž závěry nejsou věrohodné. To v současné době, která bývá někdy označována za post-faktickou, jen přiživuje pocit, že nelze věřit vědě jako celku. Útěchou tak může paradoxně být právě rekordní počet stažených prací, které ukazují na to, že vědecké komunitě nejsou tyhle etické prohřešky jedno a snaží se je odhalovat.
Autor: Vendula Lužná (Vědavýzkum.cz)
Zdroje: Nature (1, 2, 3, 4), PLOS (1, 2)
- Autor článku: ne
- Zdroj: Vědavýzkum.cz