facebooktwittergoogleinstagram

Věda a výzkum

Portál Vědavýzkum.cz - Nezávislé informace o vědě a výzkumu

IOCB Tech, s.r.o. - hlavní partner portálu Vědavýzkum.cz

Hlavní partner portálu
facebooktwittergoogleinstagram

Omezení přístupu k datům ze sociálních médií ztěžuje výzkum

14. 12. 2023
Omezení přístupu k datům ze sociálních médií ztěžuje výzkum

Údaje ze sociálních médií nacházejí široké uplatnění pro výzkum nejen ve společenskovědních oborech. Jejich prostřednictvím lze například zodpovědět, jak dezinformace a názorová online polarizace ovlivňují politickou situaci a volební vzorce. Výzkum těchto témat však ztěžují samotné platformy, zejména pak prostřednictvím nově nastavených omezení v API rozhraní.

socialni media

V průběhu letošního roku provedla řada sociálních platforem – včetně X (dřívějšího Twitteru), TikToku a Redditu – zásadní změny v přístupu třetích stran zejména k aplikačním programovým rozhraním (Application Programming Interfaces – API) a drasticky tak přístup buď omezila, nebo za něj výrazně zvýšila poplatky. Uvedený zásah tak podle řady výzkumníků v mnoha případech výzkum komplikuje.

„Změny mají negativní dopad na akademiky, kteří si pro svůj výzkum vybrali témata, jako je vliv sociálních médií na duševní zdraví, dezinformace, politické přesvědčení apod. Dále pak zmíněné restrikce omezují i vývojáře aplikací, kteří na tomto zdroji údajů postavili své služby. V minulosti jsme byli svědky mnoha případů, kdy nedostatečné zastoupení otevřené vědy (sdílení dat, analýz, materiálů) ovlivnilo naši schopnost ověřovat a kontrolovat důvěryhodnost vědeckých poznatků. Jsme tak svědky diskreditace vědy, následkem které vznikají obavy, zda lze odvedenou práci reprodukovat a replikovat,“ okomentovala důsledky nových omezení rozhraních API, jež jsou řízeny podmínkami jednotlivých sociálních médií, odbornice na kybernetickou bezpečnost Brittany I. Davidson z University of Bath. Ta se společně s dalšími vědci podílela na studii zveřejněné v časopise Nature Human Behaviour, která analyzuje právě důsledky změn nejen v API sociálních médií pro výzkum.

Výzkum ztěžují i alternace podmínek platforem

Uvedená studie popisuje postupy extrakce dat ze sociálních platforem – uvádí, že způsobů je více, přičemž některé jsou platformami usnadněny a jiné nespadají do metod oficiálně stanovených podmínkami používání daného sociálního média. Vzhledem ke skutečnosti, že zmíněné podmínky mezi jednotlivými platformami jsou nejednotné, a s ohledem na změny, které v nich platformy provádějí, čelí výzkumní pracovníci značným nejasnostem v otázce shromažďování, uchovávání, zpracovávání a šíření dat získaných ze sociálních médií.

Mnoho sociálních platforem navíc ve svých podmínkách omezují rozsah, v jakém mohou být údaje ze sociálních médií sdíleny s jinými výzkumnými pracovníky. Dochází tak k nemožnosti použít opakovaně stejná data a metody, jež vedou k ověření a ke stejnému výsledku, tedy k reprodukovatelnosti a dále i k replikovatelnosti. Transparentnost výzkumu je tak i tímto způsobem ohrožena.

Turbolentní změny v digitálních stopách uživatelů coby další zdroj problémů

Další překážku pak představují alternace a „erodování“ samotných dat. Údaje se da facto skládají z digitálních stop uživatelů, jež vznikají z interakcí a zapojení těchto participantů na dané platformě. Uživatelé však mohou v průběhu svého „online života“ měnit obsah svých sdělení, nastavení ochrany soukromí či mazat své profily. Za změny mohou i sociální platformy, neboť je v jejich kompetenci provádět strukturální změny. Ty se odrážejí například v interakčních funkcích, jež jsou dostupné uživatelům.

Jeffrey Pfeffer, profesor ze Stanford University a odborník na management a organizační chování, tento problém ilustruje ve své studii The Half-Life of a Tweet: „Po jednom roce bylo stále k dispozici méně než 70 % původních tweetů, což se po třech letech snížilo na ~54 %. To může mít na některý obsah větší dopad než na jiný: politické kampaně mají extrémně vysoký podíl rozpadu tweetů a uživatelů. To pak má své důsledky pro reprodukci výsledků, zejména pokud je sdílení dat omezeno.“

Samotné platformy pak v této souvislosti podle svých nedávných oznámení budou přistupovat k odstranění neaktivních účtů. Jako příklad lze uvést vyjádření Elona Muska, jenž prostřednictvím osobního účtu X ve svém tweetu oznámil, že společnost X plánuje „odstranit účty, jež řadu let nevykazují aktivitu“. V následné konverzaci pod příspěvkem pak šéf bývalého Twitteru sice uvedl, že „tweety budou archivovány“, doposud však chybí další vyjádření.

Podobně i společnost Google oznámila, že od 1. 12. 2023 začne mazat účty Google (a s nimi spojené účty YouTube), které dva roky vykazují neaktivitu. Vedlejším efektem tohoto úkonu tak je opět odstranění podstatného objemu dat sociálních platforem, což má znovu podstatný vliv na reprodukovatelnost výsledků výzkumu.

Problém při výzkumu představují i změny v rozhraní API

V návaznosti na problém neustálých změn v oblasti dat sociálních platforem pak vědce znepokojují i výše zmíněné aktualizace a změny rozhraní API. Ty de facto zajišťují přístup k datům, ale absentuje u nich přesná dokumentace.

V důsledku aktualizací v rozhraní API také dochází k odstranění stávajících polí pro sběr dat, či naopak vytvoření nových. Dojít může i ke změně funkce. Například rozhraní API sociální platformy Reddit aktuálně třetím stranám nabízí u příspěvku pouze souhrnné skóre, zatímco dříve byl u příspěvku či u komentáře dohledatelný počet „upvotů“ a „downvotů“. Přestože je poskytnuté souhrnné skóre odvozeno od zmíněných kladných a záporných hlasů, jejich jednotlivé hodnoty nejsou prostřednictvím API k dispozici. Kvůli této změně, jež – podobně jako další podobné alternace – není ze strany sociální platformy zdokumentovaná, tak nejsou dřívější výsledky výzkumu se stávajícím nastavením rozhraní API ověřitelné.

Poskytovatelé sociálních médií dále upozorňují, že odpovědností výzkumného pracovníka je seznamovat se – v souvislosti s rozhraním API – s případnými změnami v podmínkách. „(..) Zůstává vaší výhradní odpovědností, abyste tyto podmínky – spojené s rozhraním API pro výzkum – čas od času zkontrolovali a seznámili se s případnými změnami,“ stojí v podmínkách sociální platformy TikTok.

Podmínky nejsou pro danou platformu pevně stanoveny a často, jak již bylo zmíněno výše, se mezi jednotlivými platformami liší. Patrné je to i v oblasti vlastnictví dat – v případě vlastnictví uživatele vs. vlastnictví platformy. To může ovlivnit „životaschopnost“ cest sběru údajů. Tiktok například striktně zakazuje jakýkoliv sběr dat mimo své rozhraní API, které je dostupné pouze pro Spojené státy a nově od července i pro Evropu. To samozřejmě znevýhodňuje výzkumníky z ostatních regionů. Oproti tomu Reddit považuje veškerý obsah generovaný uživateli za data vlastněná uživateli.

Sociální platforma TikTok navíc klade na vědce nároky prostřednictvím podmínek tím, že je nutí data obnovovat v krátkém časovém intervalu v závislosti na interaktivitě uživatelů. V podmínkách je uvedeno: „Souhlasíte s tím, že budete pravidelně obnovovat data TikTok Research API nejméně jednou za patnáct dní a že budete odstraňovat data, která nejsou v době každé obnovy dostupná z TikTok Research API“.

Při každé obnově dat tak výsledky mohou kolísat, což může zákonitě způsobit jejich nestabilitu – nehledě na enormní množství práce, kterou jsou výzkumníci na základě těchto podmínek, zejména v případě objemných souborů dat, nuceni vykonat.

Další komplikací pak v případě TikToku je i skutečnost, že tato platforma v souladu se svými podmínkami od výzkumných pracovníků vyžaduje, aby výstupy z výzkumu zasílali samotné platformě: „Poté, co zveřejníte jakékoliv výstupy z výzkumu, souhlasíte s tím, že TikTok bude mít volný a neomezený přístup k vašim publikacím a výstupům z výzkumu a bude je využívat.“

Situaci v tomto směru vědcům neulehčuje ani X Elona Muska. V současné době je rozhraní API sociální platformy X pro výzkum podle výše uvedené studie finančně náročné a zároveň – pokud jde o sběr a sdílení dat – aktuálně značně omezující. V této souvislosti u zmíněné sociální platformy už není možné zkoumat řadu dalších proměnných. Nejen tato negativa tak brání, zejména u velkých souborů dat, pokusům o replikaci.

Nejasné vyhlídky

Joanne Hinds, odbornice na kyberbezpečnost a spoluautorka studie, rovněž z University of Bath, i přes výčet výše uvedených negativ, která představují obtíže pro výzkum, upozorňuje na skutečnost, že změny v přístupu k rozhraním API mohou být dobře míněné a zčásti nezbytné: „Skandál společnosti Cambridge Analytica v roce 2018 vedl platformy sociálních médií k zavedení přísných opatření, která mají zabránit tomu, aby uživatelé třetích stran získali přístup k osobním údajům bez souhlasu. Uživatelům pak umožnily odvolat oprávnění aplikací, což jim poskytlo větší kontrolu nad jejich údaji, aby ochránily soukromí uživatelů.“

S tímto tvrzením ale vědkyně jedním dechem upozorňuje na skutečnost, že vlna změn buď nutí vědecké výzkumníky, aby úplně přestali s výzkumem, nebo je přiměje, aby zvážili sběr dat mimo oficiální prostředky. Získávání údajů mimo oficiální kanály API však staví výzkumné pracovníky do právní šedé zóny, jež pravděpodobně porušuje neustále se měnící podmínky. Samotné důsledky tohoto jednání pro vědce jsou navíc leckdy neznámé – odvětví totiž vstupuje na doposud neprobádané území.

Brittany I. Davidson na oficiálních stránkách University of Bath nastínila možná budoucí východiska z tohoto problému: „V Evropské unii vstoupí v platnost nové předpisy, pravděpodobně v roce 2024, které mají za cíl tento problém řešit a zřejmě ukazují na nové cesty přístupu k datům, která budou udržitelnější, cenově dostupnější a budou chránit uživatele.“

 

Zdroj: Vědavýzkum.cz (JM)

Zdroj: NatureUniversity of Bath, International AAAI Conference of Web and Social media, TikTok, Techcrunch, X, Google