facebooktwittergoogleinstagram

Věda a výzkum

Portál Vědavýzkum.cz - Nezávislé informace o vědě a výzkumu

IOCB Tech, s.r.o. - hlavní partner portálu Vědavýzkum.cz

Hlavní partner portálu
facebooktwittergoogleinstagram

Replikační krize aneb proč nejsme schopni zopakovat výsledky a přiznat to?

17. 9. 2024
Replikační krize aneb proč nejsme schopni zopakovat výsledky a přiznat to?

V posledních deseti (v některých oborech patnácti) letech otřásá světovou vědeckou komunitou, zejména v sociálně-vědním a biomedicínském výzkumu, neschopnost zopakovat výsledky dříve provedených vědeckých studií. Pro tento fenomén se vžil název replikační krize. 

faust  a dabelCo je to replikační krize nebo také krize reprodukovatelnosti 

Replikace je jedním z klíčových pilířů vědeckého bádání. Pokud se objeví nový výzkumný výsledek, očekává se, že bude možné jej ověřit opakováním stejného experimentu za stejných podmínek. Když nelze takový výsledek zopakovat, je to důvod k pochybnostem o jeho platnosti. Vědecký výzkum je založen na procesu falzifikace – hypotéza musí být testovatelná a případně vyvratitelná, jak napsal známý filozof Karl Popper. Pokud se efekt nalezený v původní studii při replikaci neprojeví, vědecká komunita by měla tento výsledek považovat za neplatný, případně se dívat na výsledky primární studie velmi obezřetně.

Problém ale nastává v okamžiku, kdy vědecké časopisy nereplikované výsledky stále publikují, a dokonce ignorují následné studie, které původní zjištění vyvracejí. To může mít dalekosáhlé důsledky, zejména pokud jsou výsledky těchto nereplikovatelných studií využívány k tvorbě politik, lékařských doporučení nebo jsou prezentovány veřejnosti jako objektivní fakta.

Mediálně známé případy a jejich vliv

Replikační krize získala značnou pozornost díky několika mediálně známým studiím. Jednou z nejvíce diskutovaných byla studie psychologa Daryla Bema z roku 2011, která naznačovala, že lidé jsou schopni předvídat budoucí události, konkrétně předpovědět, jaký obrázek jim počítač zobrazí, pokud se jednalo o erotiku. Tato studie byla přijata prestižním vědeckým časopisem Journal of Personality and Social Psychology, následně provedené replikace s negativními výsledky však prostor v tom samém časopise nedostaly s odůvodněním, že o replikace redakční rada nestojí. Bemův výzkum se tak stal příkladem toho, jak se do popředí mohou dostat výsledky podporující překvapující a neobvyklé výsledky, aniž by byly náležitě ověřeny.

Dalším případem, který otřásl vědeckou komunitou, byla kauza nizozemského psychologa Diederika Stapela, který v roce 2011 přiznal, že si zcela vymyslel data pro desítky svých publikovaných studií. Jeho podvody byly odhaleny poté, co jeho studenti začali upozorňovat na nesrovnalosti v jeho výzkumech. Výsledkem byla nejen ztráta jeho akademické kariéry, ale také otřesení důvěry v psychologický výzkum jako celek.

Podobně kontroverzní byla i studie psycholožky Carol Dweck, která popularizovala koncept „mindsetu“ – tedy přesvědčení, že náš úspěch v učení závisí na tom, zda věříme ve svou schopnost se zlepšovat. I když její výzkum způsobil obrovský zájem o úpravu vzdělávacích metodik a školní praxe v USA a Británii, pozdější studie zjistily, že efekty „mindsetu“ jsou mnohem slabší, než původně uváděla.

Ke známosti fenoménu replikační krize přispěla také práce psycholožky Amy Cuddy, která se stala známou díky svému konceptu „power posing“ – póz (postavení těla), které měly údajně zvyšovat sebevědomí a úspěch v životě. Cuddy představila svou teorii ve slavné prezentaci TED, kterou zhlédly miliony diváků na celém světě. Bohužel pozdější studie tento efekt nedokázaly potvrdit, případně byly výrazně nižší a její výzkum se stal dalším příkladem toho, jak mediální popularita může přebít vědeckou přesnost.

Proč k replikační krizi dochází

Replikační krize má pravděpodobně několik příčin, které vycházejí z nastavení incentiv v akademickém prostředí a publikačního tlaku, pro který se vžil termín „publish or perish“. Jedním z hlavních faktorů přispívajících k replikační krizi je tzv. publikační zkreslení („publication bias“). Výsledky studií, které ukazují statisticky významné a pozitivní účinky, mají mnohem vyšší šanci na zveřejnění ve vědeckých časopisech než studie, které žádné významné efekty nenalezly. To vede k tomu, že jsou vědecké poznatky zkreslené ve prospěch pozitivních výsledků, zatímco studie s nulovými výsledky jsou často ignorovány.

Další příčinou je tzv. p-hacking – což jsou strategie, kdy se hledají jen statisticky významné výsledky a ty se pak publikují. P-hacking má mnoho podob, např. mnohočetné testování hypotéz, neboli – na datovém souboru se otestuje mnoho hypotéz, ale prezentují se pak jen některé. Výzkumníci mnohdy analyzují data tak dlouho, dokud nenajdou nějaký statisticky významný výsledek, který by mohli publikovat. Samotné hledání souvislostí a efektů v datech není bráno jako špatný postup, neetickým se stává v případě nedostatku transparentního reportování zvolených postupů a metod.

Příkladem další špatné praktiky při práci s daty (někdy je považován za specifickou variantu p-hackingu) je tzv. HARKing („Hypothesizing After the Results are Known“) – tedy formulace hypotéz až po zhlédnutí výsledků dat. Výzkumníci nejprve analyzují data a až poté stanoví hypotézy, což vede k tomu, že výzkum nevychází z teorie, ale z výsledků samotných, což výrazně snižuje jeho vědeckou hodnotu. Obdobně jako u p-hackingu  je HARKing natolik rozšířený, že tento způsob práce výzkumníci často považují za dobrou praxi. Je nutné dodat, že takzvaná explorační fáze výzkumu, kdy v datech hledáme souvislosti a vytváříme hypotézy, je zcela legitimní část analytických postupů, je ale nezbytné ji odlišovat od fáze konfirmační, kdy nalezené hypotézy testujeme na novém datovém souboru.

Vědci jsou pak často tlačeni k publikaci co největšího počtu studií, což je důsledek kompetitivního prostředí akademického světa, kde financování a kariérní postup závisí na množství publikovaných prací. Tento „publikační tlak“ vede k tomu, že výzkumníci jsou motivováni spíše k tomu, aby publikovali pozitivní výsledky, než aby věnovali čas replikaci nebo ověřování dřívějších studií, případně aby spíše preferovali publikační kvantitu před kvalitou.

Všechny výše zmíněné faktory pak přispívají k masivní produkci a publikaci takzvaně falešně pozitivních výsledků, tedy výsledků, které v reálu neexistují nebo jsou zanedbatelné. Na nadprodukci takových výsledku upozornil už v roce 2005 John Ioannidis ve svém dnes legendárním článku Why most published research findings are false.

Jak je tento problém závažný?

Podle průzkumu publikovaném v prestižním časopisu Nature v roce 2016 souhlasilo 90 % vědců (celkem bylo 1576 respondentů) s tím, že existuje replikační krize. Pouze 3 % respondentů uvedla, že krize neexistuje. Přestože se tento problém často zmiňuje v souvislosti se sociálními vědami, postihuje také biomedicínský výzkum a další obory.

Například farmaceutické společnosti Amgen a Bayer provedly vlastní analýzy a zjistily, že pouze malý zlomek přelomových studií, na jejichž základě byly vyvíjeny nové léky, byl úspěšně replikován. Společnost Amgen byla schopna replikovat pouze 6 z 53 studovaných preklinických výzkumů, což představuje 11% úspěšnost. Bayer pak uvedl úspěšnost v rozmezí 20–25 %. Tyto nízké hodnoty působí minimálně alarmujícím dojmem, protože tyto studie často ovlivňují rozhodnutí o dalším vývoji léků a léčebných metod.

deprim vedecJaká jsou možná řešení?

Replikační krize upozorňuje na potřebu změnit způsob, jakým je vědecký výzkum prováděn, publikován, financován a hodnocen. Jedním z možných řešení je preregistrace studií, tedy zveřejnění výzkumných metod a hypotéz před samotným sběrem dat. Tento krok pomáhá předcházet tomu, aby výzkumníci upravovali své hypotézy na základě výsledků, což zvyšuje transparentnost a věrohodnost výzkumu.

Dalším řešením je tzv. otevřená věda (Open Science), která vyzývá k větší transparentnosti ve sdílení dat a metodologii. Když jsou data a výzkumné postupy veřejně dostupné, mohou další vědci snáze ověřit původní výsledky a identifikovat případné chyby.

Rovněž je důležité věnovat větší pozornost statistické síle aplikovaných testů. Mnoho studií je založeno na malých výzkumných vzorcích, což vede k tomu, že výsledky mohou být náhodné nebo nereprezentativní. Výzkumy s většími vzorky poskytují spolehlivější výsledky a zvyšují šance na nalezení reálných výsledků a úspěšných replikací.

Jak věda postupuje dál

Navzdory závažnosti replikační krize nelze přehlédnout, že věda jako celek reaguje. Iniciativy, jako jsou projekty Many Labs a The Reproducibility Project: Psychology, přinesly několik úspěšných, ale více neúspěšných replikací. Tyto projekty znovu testují oborově důležité vědecké studie a pomáhají identifikovat problémy s nereplikovatelnými výsledky.

Například v roce 2015 projektová skupina s názvem Open Science Collaboration vybrala 100 studií z oblasti sociální a kognitivní psychologie, z nichž 97 % původně vykazovalo statisticky významné výsledky. Ve výsledku následných replikací mělo statisticky signifikantní výsledek jen 36 % studií a velikost účinku se snížila o cca 50 % oproti originálním studiím.

Na základě překvapivě nízké míry replikovatelnosti i v biomedicínském výzkumu vznikly další iniciativy, jako ta s názvem „The Reproducibility Project: Cancer Biology”. Cílem bylo provést přímou replikaci celkem 193 experimentů z 53 článků z oblasti preklinického výzkumu onkologických onemocnění. Záměrně byly vybrány články s největším dopadem z prestižních vědeckých časopisů. Přes obrovskou časovou a finanční náročnost se nakonec podařilo znovu provést jen 50 experimentů z 23 článků. Sami autoři poté přiznali složitost zjišťování míry replikovatelnosti, tedy kdy se replikace zdařila a kdy už ne. U experimentů s pozitivním účinkem byla u replikací mediánová hodnota velikosti účinku o 85 % nižší než mediánová hodnota velikosti účinku v původních experimentech, navíc byly velikosti účinků u replikací nižší než v originále v 92 % případů. Neméně zajímavým zjištěním byla pak nemožnost získat data z originálních studií, i po kontaktování samotných autorů, což se povedlo jen v 38 % případů.

Proč by nás replikační krize měla zajímat

Replikační krize je aktuálním problémem, který poukazuje na slabiny současného vědeckého systému. Výzkum, který nelze zopakovat, ztrácí svou hodnotu a důvěryhodnost, což může mít dalekosáhlé důsledky pro akademický svět, veřejnost a politiku. Pokud se nereplikovatelné studie stávají základem pro důležitá rozhodnutí, jako je vývoj léků nebo vzdělávací reformy, může to mít negativní dopad na společnost.

Je nezbytné, aby vědci, vydavatelé a grantové agentury zaujali k této otázce proaktivní postoj. Replikace by měla být nedílnou součástí vědeckého procesu a výsledky replikací by měly mít stejnou hodnotu jako nové objevy. Zároveň je potřeba reformovat akademický systém tak, aby vědci nebyli motivováni k publikaci co největšího množství studií, ale ke kvalitní a pečlivé práci, která obstojí v čase.

Na závěr je potřeba dodat, že samotná neschopnost replikovat vědecké výsledky nemusí mít vždy negativní konotace (manipulace, nekompetentnost či podvod), ale může být součástí procesu, který povede k poznatkům nezbytným pro pokrok vědy. Jak poznamenal Redish v roce 2018, „úspěch vyžaduje selhání“, a věda potřebuje čas, aby „doladila“ své výsledky. Selhání při procesu zopakování výsledků je pak kritickou součástí této cesty. Replikace nám v hledání správné cesty napomáhají. Je to efektivní způsob, jak ověřovat výsledky bádání, proto je zapotřebí, aby samotní vědci nebrali neúspěšné replikace svého výzkumu za nezdar a profesní selhání, ale jako přirozenou a podstatnou část vědecké praxe.

 

Autor: Ladislav Baloun (Univerzita Palackého v Olomouci)

Ilustrace: ChatGPT


Článek vychází ze dvou příspěvků v časopise Tělesné kultura o replikační krizi, část 1část 2. Text byl poté transformován umělou inteligencí se zadáním: Přepiš text do podoby mediálního článku. Poté byl text upraven a doplněn autorem článku. 


Pokud čtenáře prezentované téma zaujalo, doporučujeme publikace:

Harris, R. F. (2017). Rigor mortis: How sloppy science creates worthless cures, crushes hope, and wastes billions. Basic Books.

Chambers, C. (2019). The seven deadly sins of psychology: a manifesto for reforming the culture of scientific practice. Princeton University Press

Ritchie, S. (2021). Science fictions: Exposing fraud, bias, neg ligence and hype in science. Vintage.

National Academies of Sciences, Engineering, and Medicine (2019). Reproducibility and Replicability in Science. The National Academies Press. National Academies.