Martin Kubala: Hodnota poctivé vědecké práce

5. 4. 2020

Současná koronavirová epidemie převrátila naše životy naruby. Míra nejistoty je obrovská, ekonomické dopady astronomické, veřejnost netrpělivě očekává, kdy přijde někdo s řešením. Mohou pomoci vědci? Pro racionální rozhodování nám stále chybí to základní. Vraťme se ke kořenům vědy a dodejme poctivá data, na která bude spolehnutí.

V současnosti je ekonomika u nás i v řadě dalších zemí drcena opatřeními v souvislosti s epidemií koronaviru. Hlubší analýzy přenechám ekonomům, ale pokud vezmeme hrubým odhadem, že schválené zvýšení schodku státního rozpočtu o 160 mld. má být účtem za dva měsíce nejtvrdších omezení a třeba další dva měsíce měkčího režimu, jedná se při konzervativním odhadu o náklady v řádech miliard korun denně, a to se bavíme pouze o státním sektoru.

Když k tomu přidáme otázky osobního diskomfortu v každodenním fungování, pak otázka, kdy ta omezení skončí, pálí každého z nás. A dostáváme se k otázce, na základě čeho rozhodnout, kdy má nějaké opatření skončit? Jak poznat, že už nemá smysl vynakládat na boj proti šíření epidemie tak enormní prostředky?

Vývoj a testování léků a vakcín je běh na dlouhou trať. Spíše než o měsíce půjde o roky. Vzhledem k rychlosti šíření viru pravděpodobně dříve dojde k přirozené ochraně populace tím, že většina lidí nemoc prodělá a bude imunní. Osobně se domnívám, že se s virem dříve či později setká prakticky každý. Odhady typu, že nákaza zasáhne 70 % populace, ve mně nevzbuzují ani tak hrůzu jako spíše otázku, jak se asi dá ochránit těch 30 % populace (aneb analogicky, ukažte mi, jak se dá zajistit, že se 30 % populace nepotká s virem chřipky). Samozřejmě, rychlost šíření a s tím spojená zátěž zdravotního systému je mnohem větší na začátku epidemie, kdy se může nakazit prakticky každý, než později, kdy už je většina populace po prodělání nemoci díky vytvořeným protilátkám imunní. Jak ale poznáme, zda jsme opravdu ještě na začátku, nebo jestli už nejsme ve fázi, kdy se „bráníme proti vlkovi, který už je dávno zabydlený v našem chlívku“? Pro druhou možnost by svědčilo třeba i svědectví závodníků Rallye Dakar.

Nástroje vědy

To nejcennější, co může věda nabídnout, je její metodologie. Tedy způsob kladení jasně zodpověditelných otázek (ano/ne, kolik), na ně navazující způsob metodicky správného sběru dat a jejich korektní zpracování a vyhodnocení aparáty matematiky a logiky. Význam testování na úrovních jednotlivce, hygieniků či celé populace už jsme diskutovali jinde, zde vybírám a dále rozvádím úvahy týkající se stavu celé populace.

Populační studie je souborem výsledků vyšetření jednotlivých pacientů a možné výsledky na úrovni jednotlivce jsou tyto: (1) s virem se nepotkal a je zdravý, (2) s virem se potkal, nákazu překonal, je zdravý a předpokládejme, že imunní, (3) s virem se potkal a je nakažen, tedy je přenašeč a dále 3a) je průběh nemoci lehký a dotyčný nepotřebuje specializovanou péči, nebo je 3b) průběh nemoci těžký a dotyčný představuje zátěž pro zdravotní systém, nebo 3c) dotyčný zemřel.

Na úrovni populace pak jde o zjištění poměrného zastoupení výše uvedených stavů v prostoru a čase. Jaké má věda k dispozici nástroje?

(1) Sledování klinických příznaků. To je rychlé, levné, chřipku takto zvládáme s miliony nakažených, ale je těžké určit procenta falešně pozitivních a falešně negativních diagnóz.

(2) PCR (polymerázová řetězová reakce). Ta detekuje přítomnost virové RNA (čili nevidí zdravé a již vyléčené).

(3) ELISA (enzyme-linked immunosorbent assay). Ta detekuje přítomnost protilátek, čili reakci na virus. Nevidí nemocné v počátečním stádiu, ale její výhodou je detekce různých typů protilátek. Kombinací PCR a ELISA už můžeme poměrně slušně zjistit informace o tom, ve kterém časovém okamžiku od nakažení se dotyčný nachází.

(4) Statistické vyhodnocení dat. To by mohla být poměrně rigorózní část výzkumu, ale taky se to dá udělat špatně, třeba když budeme dávat dohromady data získaná pomocí různých metod (např. PCR a ELISA). Je třeba zdůraznit, že důležitým výstupem statistického vyhodnocení jsou nejenom průměrné hodnoty měřených popř. vypočítaných veličin, ale i odhady jejich spolehlivosti (konfidenční intervaly). Například pokud zjistíme, že máme 50 % populace s protilátkami, tak by to mohlo ukazovat na poměrně velkou promořenost populace. Pokud ale ten výsledek bude 50 ± 40 %, tak můžeme maximálně říct, že někdo byl nemocný a někdo ne, ale rozumně kvantifikovat to neumíme. Obdobně pokud bude zastoupení nějaké frakce 20 ± 20%, tak si ani nebudeme jisti, jestli tato frakce je ve vzorku vůbec zastoupena.

(5) Modelování. Asi nejnebezpečnější nástroj, protože se tváří jako rigorózní matematická metoda, ale vždy je to nějaké zjednodušení skutečnosti tak, aby se s tím dalo matematicky pracovat. Všechny faktory nezapočítá nikdo, jen se tváří, že vybral ty nejpodstatnější, což se ale zjistí až při porovnání s reálnými daty. Matematický model je v podstatě mlýnek, do kterého nasypeme nějaká čísla, on je nějak zpracuje a vyplivne čísla jiná. V případě šíření epidemie jde především o vývoj v čase: dobrý model dokáže vysvětlit data předchozí a prubířským kamenem je pro něj shoda s daty budoucími. Kritické ovšem je, že modely pracují s velkým množstvím parametrů, které – pokud nejsou vloženy na základě experimentů – mohou výsledky dost posunout od reality a – jak konstatuji níže –, s kvalitou vstupních dat to není žádná sláva.

Jaká data máme?

Pojďme se podívat, jaká data máme k dispozici. Na webu Ministerstva zdravotnictví nalezneme několik datových řad.

Jednak je to počet provedených testů, není však uvedeno jakých (PCR, ELISA, rychlotesty z Číny, ...). Zaujme i upozornění, že údaj zahrnuje i opakovaná vyšetření provedená u stejných osob (primární a jeden či více posttestů). Pak je tam počet nakažených, který je zjevně už několik dní přímo úměrný počtu provedených testů a nic víc. Dále je tam poměr těchto dvou čísel, což jak jsem uváděl už dříve, by mohlo být z hlediska populace smysluplné číslo. Ovšem jen v případě, že by se jednalo o náhodně vybrané osoby – jenže tito lidé už jsou předvybraní. V současné době tedy tento poměr neukazuje promořenost populace, ale to, jak dobře dokáže hygienik či lékař odhadnout, zda je dotyčný opravdu nakažen. Pokud do toho započítáme i faktor vyšší chybovosti testů, tak promořenost populace, která nás zajímá, je ve výsledku překryta mnohem významnějšími faktory. Pak je tam počet vyléčených, což odráží to, kolika lidem, kteří byli identifikováni jako nakažení, byl udělán opakovaný test s negativním výsledkem. To evidentně souvisí s tím, nakolik někdo uznal za vhodné udělat posttest u uzdraveného člověka, s jakým zpožděním se test udělal, či zda mezitím příslušné nemocnici nedošly testovací sady. A pak je tam počet mrtvých, u kterých někdo prohlásil, že zemřeli na COVID-19. To je číslo do značné míry závislé na tom, co napíše lékař do úmrtního listu. U většiny lidí si asi mohl vybrat z několika různých příčin, naopak u mnoha dalších osob se vyšetření na virus ani nedělalo. Suma sumárum, každé z čísel je zatíženo tolika faktory, které nesouvisí se zdravotním stavem populace, že žádná z datových řad pro epidemiologické účely bez výhrad použitelná není. Data ze zahraničí jsou pravděpodobně zatížena obdobnými chybami. Nedá se bohužel ani vyloučit cílená manipulace s hodnotami z politických důvodů. A to je ohromná škoda, poctivě sesbíraná a rozumně setříděná data by měla dnes i v budoucnu velkou hodnotu.

Jak tedy zjistit reálný zdravotní stav populace?

Jedině nezávislým vyšetřením náhodného vzorku populace – a je dobře, že o tom už vláda začala uvažovat. Koordinátorem celého experimentu by měl být statistik, který by měl mít zmapované všechny kroky a jejich možnou chybovost a možnosti případného selhání s nástroji identifikace takového dílčího selhání. Spolehlivé určení chybovosti všech procedur je klíčové, neboť chyby se kumulují a jedna nespolehlivá procedura může mít za následek takovou neurčitost finálního výsledku, že to může znehodnotit celé testování. Od určení chybovosti se odvíjí i to, jak velký statistický soubor potřebujeme pro získání výsledku s rozumnou chybou nebo to, zda má vůbec smysl dávat dohromady data z testování ve dvou laboratořích. Obecně spíše než rychlé zavádění nových neověřených metod má smysl důkladná validace (tedy jakási kalibrace) těch stávajících.

0) Pokud čtenář očekával, že začneme od jedničky, tak oprávněně. Zde chci jen upozornit, že pokud bude nějaké „za nulté“ toho typu, že vybereme testované lidi podle toho, zda mají nějaké příznaky, tak hned na začátku znehodnotíme celý experiment. Výběr musí být naprosto náhodný. Sledování doprovodných parametrů (jako pohlaví, věk, popř. další) by nemělo nijak souviset se zdravotním stavem testovaných a mělo by sloužit spíše ke kontrole, zda vybraný vzorek je opravdu reprezentativním vzorkem celé populace. Vzhledem k rozsahu omezení pohybu osob má asi současná česká populace poměrně daleko k důkladně promíchané homogenní směsi v chemické reakci a má tedy smysl dělat spíše sérii paralelních lokálních šetření. Dá se očekávat, že např. data z Prahy nebo Litovelska budou mít omezenou vypovídací hodnotu pro jiná místa v republice.

1) Prvním krokem je odběr vzorků a již zde může docházet k chybám. Úskalí stěrů z nosohltanu je popsáno např. zde. Z tohoto důvodu je vhodnější, aby odběry prováděla skupina proškolených zdravotníků. Pokud se např. ukáže, že stěry odebrané jedním zdravotníkem vykazují statisticky signifikantní nižší podíl vzorků s pozitivním výsledkem, je možné pracovat s hypotézou, že dotyčný špatně pochopil instrukce a odběr neprovádí správně. K tomu ale potřebujeme větší statistický soubor. Pokud se budeme spoléhat na samoodběry pacientů, tak případné jednotlivé chybně provedené odběry nemáme šanci odhalit. Pro stanovení protilátek jsou nutné odběry krve, což je výrazně rutinnější postup.

2) Dalším krokem je izolace virové RNA pro metodu PCR nebo izolace séra pro stanovení protilátek. Zde je třeba dbát nejen na přesnou práci operátora, ale i na to, že izolační sady od různých výrobců mohou mít různou účinnost, což může vnášet do vyhodnocení experimentu poměrně velkou variabilitu. V případě separace séra výrazné komplikace nepředpokládáme, neboť by se používaly standardní odběrové soupravy.

3) Co se týče analytického stanovení přítomnosti a kvantifikace virové RNA a protilátek pomocí PCR a ELISA, tak i zde platí, že testovací sady od různých výrobců mohou poskytovat odlišné výsledky. V případě ELISA testů jde o zcela nové soupravy, které zatím mají své limity, zejména vyšší riziko falešné pozitivity, a jsou proto nyní méně spolehlivé. To by se mělo jejich testováním postupně zlepšit, zatím byla specificita spočítána z malého vzorku pacientů.

4) Následuje statistické vyhodnocení a interpretace dat. Obojí bude tím snazší a přesnější, čím spolehlivější budeme mít informace o předchozích úkonech.

Hodnota poctivé vědecké práce

Věda tvoří jeden z pilířů a motorů západní civilizace. Většina poznatků a technologií stojí na úsilí mnoha vědců a to napříč generacemi. Vše stojí a padá se spolehlivostí prezentovaných výsledků. Z jednodušších příkladů můžeme uvést, že mosty stojí proto, že někdo správně změřil Youngův model pružnosti oceli a brýle správně zaostřují proto, že známe s velkou přesností index lomu skla. Z náročnějších projektů pak můžeme uvést třeba jaderné elektrárny nebo raketoplány. Nyní jsme v situaci, kdy by nelehkému politickému rozhodování mohla napomoci solidní data z rozsáhlého multidisciplinárního experimentu. Ačkoli za normálních okolností patří biochemické a molekulárně-biologické experimenty k těm nákladnějším, tak za současné situace jde ve srovnání s celospolečenskými náklady o pakatel. Pro srovnání, výdaje státního rozpočtu na veškerý výzkum a vývoj v ČR podle dat ČSÚ za rok 2018 činily 33,6 mld. Kč.

Takže: pokud by se podařilo díky studii zkrátit restriktivní opatření byť o jediný den, tak se to společnosti vyplatí. Podmínkou ovšem je, že na získaná data bude spolehnutí. Každá „fušeřina“ vyjde naopak velmi draho a případné falšování dat je třeba považovat za zločin. A ve vědě neplatí presumpce neviny „dokud mě nechytnete při falšování, má se za to, že jsou moje data správná“. Data by měla být veřejně k dispozici a důkazní břemeno a zodpovědnost má nést ten, kdo s daty přichází.

Autor: Martin Kubala

Martin Kubala

po studiu biofyziky na Matematicko-fyzikální fakultě UK zamířil na Univerzitu Palackého v Olomouci, kde působí jako docent a od roku 2018 také jako děkan Přírodovědecké fakulty UP. Hlavním těžištěm jeho odborné činnosti jsou optické spektroskopie a jejich užití při studiu biologicky aktivních molekul a jejich molekulárních interakcí.

Zpět do rubriky Názory a komentáře