Vyhledat

iocb tech

hlavní partner portálu

Nezávislé informace o vědě a výzkumu

Výzkumníci z CIIRC ČVUT a ÚOCHB AV ČR prezentující MassSpecGym na konferenci NeurIPS 2024 ve Vancouveru, 13. prosince 2024 – zleva doprava: Raman Samusevich, Anton Bushuiev, Roman Bushuiev.
Výzkumníci z CIIRC ČVUT a ÚOCHB AV ČR prezentující MassSpecGym na konferenci NeurIPS 2024 ve Vancouveru, 13. prosince 2024 – zleva doprava: Raman Samusevich, Anton Bushuiev, Roman Bushuiev.

Bratři Roman a Anton Bushuievovi z týmů Tomáše Pluskala z ÚOCHB a Josefa Šivice z Českého institutu informatiky, robotiky a kybernetiky ČVUT v Praze (CIIRC ČVUT) vloni zahájili spolupráci s odborníky ze 14 výzkumných institucí po celém světě na procesu systematického srovnávání a hodnocení metod umělé inteligence využívaných pro objevování molekul z dat hmotnostní spektrometrie.

Cílem společného projektu s názvem MassSpecGym je podnítit vývoj další generace modelů strojového učení pro identifikaci nových přírodních molekul s využitím ve vývoji léčiv, ve vědách o životním prostředí nebo v kosmickém výzkumu.

První úspěch na sebe nenechal dlouho čekat. Výsledky této mezioborové iniciativy byly v prosinci 2024 prezentovány na jedné z nejvýznamnějších světových konferencí o strojovém učení – NeurIPS 2024 ve Vancouveru.

Objevování malých molekul významně ovlivňuje řadu vědeckých oblastí, jako je organická chemie, molekulární biologie, vývoj léčiv a environmentální analýza. Navzdory významnému pokroku se ale zatím podařilo odhalit jen malý zlomek molekulární rozmanitosti života.

20250224 uochb ciirc molekuly s AI 2

Základní metodou pro identifikaci molekulárních struktur z biologických a environmentálních vzorků je tandemová hmotnostní spektrometrie. Ta umožňuje využití při objevování biologicky aktivních sloučenin pro vývoj léčiv, optimalizaci dávkování léčiv v klinické praxi nebo detekci stopových množství znečišťujících látek v životním prostředí. Podstatou tandemové hmotnostní spektrometrie je fragmentace molekul a záznam hmotností těchto fragmentů.

„Z typického biologického nebo environmentálního vzorku je možné změřit tisíce tandemových hmotnostních spekter, z nichž každé zpravidla představuje samostatnou molekulu. Popis těchto spekter pomocí molekulárních struktur je však stále výzva, přičemž pomocí nejmodernějších metod strojového učení se podaří popsat méně než 10 % spekter. Velká část chemického prostoru tak zůstává neobjevená, což brzdí další vědecký a technologický pokrok,“ říká Tomáš Pluskal z ÚOCHB.

V současné době je vývoj metod umělé inteligence (AI) pro hmotnostní spektrometrii omezen tím, že chybí dobře standardizované trénovací datové sady a hodnoticí protokoly. Projekt „MassSpecGym: Benchmark pro objevování a identifikaci molekul“ toto omezení řeší.

„Standardizované benchmarky strojového učení, jako je ImageNet, způsobily revoluci v oblasti umělé inteligence tím, že určily referenční měřítka vývoje, hodnocení a posuzování pokroku. Podobně navrhujeme referenční standardy pro objevování molekul, které se zaměří na popis tandemových hmotnostních spekter, a snažíme se tím podpořit novou generaci AI modelů pro odhalování dosud neobjevených chemických látek vyskytujících se v přírodě,“ vysvětluje doktorand a hlavní autor projektu Roman Bushuiev.

20250224 uochb ciirc molekuly s AI 3

MassSpecGym zahrnuje tři základní komponenty: (i) největší veřejně dostupnou datovou sadu tandemových hmotnostních spekter označených molekulárními strukturami, (ii) tři přesně definované úlohy strojového učení, které převádějí proces objevování molekul z hmotnostních spekter do dobře definovaných výpočetních problémů, a (iii) pečlivě vybrané páry hmotnostních spekter a molekul určené k vyhodnocení schopnosti modelů umělé inteligence zobecňovat naučené znalosti na nové molekuly. Kromě toho MassSpecGym poskytuje uživatelsky přívětivou platformu pro vývoj a vyhodnocování nových AI modelů.

Vědecká práce MassSpecGym byla vybrána pro „Spotlight” prezentaci na konferencí o strojovém učení NeurIPS 2024 ve Vancouveru, která je jednou z nejprestižnějších konferencí v oblasti strojového učení a podle Google Scholar se řadí mezi deset nejvýznamnějších časopisů a konferencí na světě.

Tento výzkum je spolufinancován z projektů EU FRONTIER (č. 101097822) a ELIAS (č. 101120237).

 

Zdroj: Ústav organické chemie a biochemie AV ČR

  • Autor článku: ne
  • Zdroj: Ústav organické chemie a biochemie
Kategorie: Věda