Automatické překladače se dokážou s komerčními texty vypořádat levněji a na stejné úrovni jako profesionální překladatelé. Na literaturu jsou ale ještě krátké.
„Damage to speak, my expensive friend. - Škoda mluvit, můj drahý příteli.“ Podobné perličky způsobené automatickými překladači při překladu z češtiny nebo do ní jsou nejspíš už minulostí. Dnešní strojové překlady založené na metodách umělé inteligence jsou již téměř k nerozeznání od těch lidských. „Výstupy z našeho strojového překladače CUBBITT byly v zaslepených testech hodnoceny dokonce jako obsahově přesnější a jen o něco méně plynulé než překlady lidské,“ říká Martin Popel z matfyzu Univerzity Karlovy. Strojový překladač CUBBITT začal vznikat v roce 2017 a již o rok později s přehledem vyhrál mezinárodní soutěž strojového překladu a stále se zlepšuje, nyní již například překládá v kontextu celého textu. Od letošního března je čeština dostupná i v německém překladači DeepL. „O DeepL toho moc nevíme, přísně si střeží své know-how a soutěží strojového překladu se neúčastní. Podle kvality překladů ale lze usuzovat, že vycházejí z podobných metod strojového učení,“ shrnuje Popel.
Za úspěch českého překladače, jak to tak u významných vědeckých objevů bývá, může vlastně chyba. V minulosti se strojové překladače trénovaly na dvou zdrojích dat náhodně smíchaných dohromady - na překladech autentických (anglické věty přeložené lidmi do češtiny) a syntetických (české věty strojově přeložené do angličtiny). „Jednou jsem toto mísení omylem zapomněl zapnout, když jsem to pak zjistil a,opravil‘, všiml jsem si skokového zhoršení výsledků překladu,“ popisuje hlavní vývojář Popel, jak zjistili, že je mnohem lepší neuronové sítě trénovat zvlášť.
Překládá, ale nerozumí
Odborníci si zpočátku mysleli, že pro kvalitní překlad bude nutné porozumění. „Výsledky metod hlubokého strojového učení však ukázaly, že strojové překladače překládají na stejné úrovni jako lidé, aniž by obsahu rozuměly,“ říká odborník na umělou inteligenci a strojové překlady Ondřej Bojar z matfyzu.
Dnešní neuronové sítě při trénování „přečtou“ mnohonásobně větší objem textu, než je schopen zvládnout člověk za celý život. Z toho pak umějí chytře odhadnout, co se v dané situaci a kontextu říká nejčastěji. „A dělají to tak dobře, že to vypadá inteligentně - jako člověk. Bohužel ale jen v úzce specifické oblasti, na kterou byly natrénovány, a navíc slepě kopírují všechny stereotypy z dat, včetně genderových, což je jim právem vytýkáno,“ dodává Bojar.
Současná umělá inteligence tak pouze statisticky recykluje informace již dříve přeložené lidmi. „Vychází jen z toho, co je slovo od slova přímo obsažené v textu - nemá z čeho natrénovat kontext,mezi řádky‘ nebo třeba intonaci vyjadřující ironii,“ říká odborník na strojové učení. Pro skutečnou inteligenci by stroje musely mít všechny lidské prožitky - nejen slova, ale i odezvu lidského těla a všechny vjemy vnějšího okolí. Navíc člověk se učí po celý život a působí na něho mnoho nevědomých stimulů, které - zatím - strojově zachytit neumíme.
Mluvené slovo a překladač samouk
Trénovací data jsou přitom klíčová a k výraznému rozvoji strojových překladů přispívá i Evropská unie. Ta si dala za cíl a jako jednu z ústředních hodnot zachovat si svoji jazykovou diverzitu a nabízet rovný přístup všem svým občanům. „Tak vznikly obrovské objemy obsahově stejných textů přeložených ve 24 jazycích a na nich teď systémy pro jednotlivé jazyky trénujeme,“ popisuje Bojar. V dalším projektu ELITR, zaměřeném na rozpoznávání a překlad mluveného slova, pracují se 43 jazyky, kdy je zřetelně vidět velký rozdíl mezi kvalitou překladů v evropských jazycích a kvalitou překladů pro jiné jazyky, kde tato trénovací „EU data“ chybí. U mluveného slova je ale prý paradoxně největší problém rozpoznat interpunkci a konce vět, což je zásadní pro správný překlad. „Každá věta je zaznamenaná myšlenka, a když budete překládat věty, které mají posunutou interpunkci - půl myšlenky v jiné větě, povede to k nesmyslům,“ vysvětluje současná úskalí Bojar.
Na matfyzu zkoumají například i takzvaný neřízený strojový překlad, kdy se systém učí překládat sám jen na základě velkého objemu textů v jednom jazyce a nesouvisejících textů v jazyce druhém. Principem takového učení je takzvaná vektorová reprezentace slov, kdy je v matematických vektorech zaznamenán kontext daného slova. Při porovnání vektorů v jednotlivých jazycích pak systém dokáže určit, která slova jsou si překladem. „Je to samozřejmě velmi hrubý systém, který dělá hodně chyb, ale dostanete se překvapivě daleko,“ komentuje Bojar.
Učte se jazyky
Pro řadu situací, kdy je hlavním účelem překlad informací, je strojový překlad nejen mnohem rychlejší a levnější, ale i přesnější. A lze tedy očekávat, že poptávka po komerčních překladech výrazně opadne. Spisovatelé a jejich překladatelé ale zatím mohou být v klidu. „Kniha je literární dílo a překladatel je svým způsobem také jeho autorem. Musí vystihnout náladu, ducha, což se mu nepodaří jen tím, že správně přeloží význam slov,“ míní Popel. A dodává, že podobné je to pro humor, ironii nebo slovní hříčky a poezii. Překladač má také zásadní problémy s tykáním a vykáním či rozpoznáním pohlaví mluvčího nebo již zmíněným kopírováním stereotypů.
„I když dnes se již pomocí překladače dorozumíte, učte se jazyky - pobyt v cizím prostředí bez znalosti jazyka je bolestivý a ochuzující především o zážitky s místními lidmi, ale i o trénink pro mozek,“ apeluje Bojar. Podle něho znalost cizího jazyka přidává do života nový rozměr, protože se učíte nové vztahy mezi pojmy, které znáte v mateřštině, a tím zvyšujete kognitivní kapacitu mozku. A dnes již víme, že ve stáří dochází ke kognitivnímu úbytku a je výhodné mít odkud brát - mít rezervu.
Autorka: Pavla Hubálková
Článek vyšel v tištěném i online vydání Týdeníku Hrot
Ondřej Bojar
Zabývá se strojovým překladem v Ústavu formální a aplikované lingvistiky na Matematicko-fyzikální fakultě UK. Je jedním z iniciátorů spolku prg.ai, který chce z Prahy udělat světové centrum umělé inteligence.
Martin Popel
Je hlavním vývojářem strojového překladače CUBBITT (dostupný na webu https://lindat.cz/cubbitt), který vyhrává soutěže strojových překladů a svojí kvalitou poráží i lidské překladatele. Vyučuje a vědecky působí v Ústavu formální a aplikované lingvistiky MFF UK.
- Autor článku: ne