ChatGPT, jazykový model, prokázal svou schopnost generovat koherentní a dobře strukturovaný text, což podnítilo jeho použití při psaní úvodů a abstraktních částí vědeckých článků.1 Ve skutečnosti několik dokumentů uvedlo ChatGPT jako spoluautora.2 Zatímco jeho potenciál ve výzkumu a akademické sféře je zřejmý, vyvstaly obavy ohledně jeho důsledků na vzdělávání a integritu. Chris Stokel-Walker, píšící pro Nature, zdůraznil problém, s nímž se učitelé potýkají, když se studenti mohou uchýlit k používání GPT pro outsourcing svých úkolů.3 V reakci na obavy zablokovalo ministerstvo školství v New Yorku přístup k GPT. Navzdory etickým obavám prokázal však ChatGPT pozoruhodný výkon v testech na University of Minnesota a na Wharton School na University of Pennsylvania.4
Vědecké časopisy zaujaly k GPT různé postoje. Některé, jako Nature a JAMA, nařizují zveřejnění používání nástrojů pro generování textu a zakazují uvedení GPT jako spoluautora, zatímco Science zakázal použití textu generovaného velkým jazykovým modelem úplně.5, 6 GPT vyšel v listopadu, je to tedy stále relativně nová oblast vědeckého výzkumu (ačkoli již bylo publikováno více než 1 000 článků).7
Stále se ale ví málo o aplikaci GPT v konkrétních disciplínách, jako je environmentální věda nebo scientometrie. Ve studii publikované na Arxivu, která nyní prochází recenzním řízením, jsme se proto zaměřili na citační analýzu v environmentální vědě s ohledem na odpovědi GPT a Matoušův efekt.
Matoušův efekt ve vědě
Matoušův efekt je koncept založený na Matoušově evangeliu, kde Ježíš říká: „Neboť každému, kdo má, bude dáno a přidáno; kdo nemá, tomu bude odňato i to, co má“ a v sociálních vědách se používá jako popis prohlubování nerovností. Ve vědě je fenomén poprvé představený Robertem K. Mertonem (1968) a přitahuje v posledních letech značnou pozornost díky svým dopadům na systémy odměňování a komunikace vědeckého výzkumu.8 Tento efekt odkazuje na nepřiměřené přidělování odměn a uznání dobře zavedeným výzkumníkům, přičemž může bránit vědeckému pokroku tím, že znevýhodňuje začínající akademiky.
Studie prokázaly, že Matoušův efekt může vést k rozdílům ve financování, kariérních příležitostech a počtu citací. Kromě znevýhodnění vědců na počátku kariéry může také vést ke zkreslené distribuci výzkumné pozornosti a zdrojů směrem k určitým oblastem nebo tématům.
Tento efekt je patrný například v případě Wikipedie, protože platforma často slouží uživatelům jako rešeršní platforma. Ta dále zesiluje Matoušův efekt, protože vědecké publikace zmíněné na tomto portále mají tendenci získávat více citací právě díky jejich zařazení na web (Thompson, N., & Hanley, D., 2018).9
Podobně je Matoušův efekt ve službě Google Scholar příkladem toho, jak může digitální platforma zvýšit viditelnost a uznání nejcitovanějších publikací, a tím posílit existující hierarchie ve vědeckém výzkumu. Google Scholar jako vlivný vyhledávač odborné literatury totiž využívá algoritmy, které ve výsledcích vyhledávání upřednostňují vysoce citované články. Tento proces může vytvořit neustále se opakující cyklus, kdy články, které jsou již dobře etablované ve svých oborech, získávají ještě více citací, zatímco méně známé publikace zůstávají relativně neznámé. V důsledku toho může Matoušův efekt přispět k pokřivené distribuci pozornosti a zdrojů, což může bránit diseminaci inovativních nápadů a výsledků výzkumu.
Naše hypotéza byla, že Matoušův efekt hraje zásadní roli i v případě GPT. Vzhledem k tomu, že neexistují žádné studie zaměřené na používání citací Chatem GPT a jeho rozhodovací proces při výběru článků, které cituje, položili jsme GPT následující otázku: Jak vybíráš, které akademické studie cituješ?
Odpověděl takto: „Jako jazykový model AI se při generování odpovědí spoléhám na informace a data dostupná během mého školení, které zahrnuje širokou škálu akademických studií, článků a dalších zdrojů až do data mého dokončení (září 2021). Při výběru akademických studií, které budu citovat, zvažuji několik faktorů, včetně relevance studie k dané otázce nebo tématu, kvality a spolehlivosti výzkumu a dopadu a vlivu publikace v rámci svého oboru. Navíc mohu dát větší váhu studiím, které byly často citovány nebo publikovány v uznávaných časopisech, protože to jsou často ukazatele důležitosti a přínosu výzkumu. Je však důležité poznamenat, že mé citace jsou generovány algoritmicky, a nemám osobní předsudky nebo preference při výběru, které akademické studie citovat.“ Jak vidíme, odpověď poskytnutá GPT je poněkud vágní a postrádá konkrétnost, proto jsme se pokusili získat další informace.
Výsledky
Požádali jsme GPT, aby jmenoval deset nejdůležitějších disciplín v „environmental science“. Následně jsme jej požádali, aby o každé subdisciplíně napsal vědecký přehledový článek a uvedl 25 odkazů. Poté jsme analyzovali odkazy na základě počtu citací, data vydání a žurnálu.
Výsledky ukázaly, že GPT cituje nejcitovanější publikace v environmentální vědě (medián citací je 1184,5) s preferencí starších publikací (medián je rok 2010) a nejrespektovanější časopisy v oboru (Nature je nejcitovanější časopis podle GPT). Překvapivě má GPT údaje o počtu citací těchto publikací pouze v Google Scholaru, nikoli ve Web of Science nebo Scopusu.
Citace na Google Scholaru jsou tedy jedním z nejdůležitějších prediktorů pro citaci. GPT tak dále posiluje monopol Google Scholaru mezi vědeckými databázemi a umocňuje Matoušův efekt ve vědě. Vzhledem k tomu, že mnoho vědců již používá GPT k rešerším, můžeme očekávat prohloubení nerovností a zvětšující se propast mezi méně a vysoce citovanými publikacemi.
Ilustrace textové části s citacemi poskytnutými GPT
Závěr
GPT již mění svět znalostí a možná i svět samotný. Stal se předmětem vědeckého výzkumu, který v této oblasti také dokazuje, že tradiční akademické publikační metody zastarávají (podobně jako v případě pandemie covidu). Preprinty, Twitter a Reddit se v těchto ohledech stále častěji ukazují jako efektivní způsoby distribuce znalostí. Chceme-li se například dovědět nejnovější informace o GPT, můžeme využít následující kanály:
- Twitter vyhledávání GPT (mnoho tweetů je relevantních pro vědecké publikum jako nový nástroj pro vědce – Perplexity);
- Reddit vyhledávání GPT a fórum ChatGPT, kde najdeme týdenní aktualizace;
- Zprávy Google (např. vydání pro USA) pro ChatGPT ;
- Google Scholar (allintitle:ChatGPT)
- Dimensions.ai (lze filtrovat podle Altmetrických a vědeckých oblastí a identifikovat nejdiskutovanější výzkumné články v oboru)
Můžeme konstatovat, že GPT vychází ze současného hodnocení vědecké kvality (hlavně citací) v environmentální vědě, ačkoli podle GPT nejsou citace jedinými prediktory pro zmínku o studii. Předpokládáme, že tento vzor citací je běžný napříč obory.
Článek je založen na základě studie publikované na arXivu, jež právě prochází recenzním řízením.
Autor: Eduard Petiška
Autor působí ve společnosti Sciencecom Agency, která se zabývá komunikační a analytickou činností pro české a zahraniční univerzity a výzkumné organizace.
1 Bushard, Brian (January 10, 2023). "Fake Scientific Abstracts Written By ChatGPT Fooled Scientists, Study Finds". Forbes. Archived from the original on February 3, 2023.
2 Stokel-Walker, Chris (January 18, 2023). "ChatGPT listed as author on research papers: many scientists disapprove". Nature. 613 (7945): 620–621.
3 Stokel-Walker, Chris (December 9, 2022). "AI bot ChatGPT writes smart essays — should professors worry?". Nature. doi:10.1038/d41586-022-04397-7
4 Kelly, Samantha Murphy (26. ledna 2023). „ChatGPT složí zkoušky z právnických a obchodních škol | CNN Business". CNN.
5 Brainard, Jeffrey (February 22, 2023). "As scientists explore AI-written text, journals hammer out policies". Science. doi:10.1126/science.adh2937
6 https://cs.wikipedia.org/wiki/ChatGPT
7 https://scholar.google.com/scholar?hl=cs&as_sdt=0%2C5&q=allintitle%3AChatGPT&btnG=&oq=al
8 Merton, R. K. (1968). The Matthew effect in science: The reward and communication systems of science are considered. Science, 159(3810), 56-63..
9 Thompson, N., & Hanley, D. (2018). Science is shaped by Wikipedia: evidence from a randomized control trial.