A Star Trek megígérte. Miért nincs még univerzális fordítógép?

-

Azonnali gépi fordítás akármilyen nyelvről akármilyen nyelvre. Az amerikai Murray Leinster írt róla először, az 1945-ös Első kapcsolat című tudományos-fantasztikus novellában. Dolgozik rajta a Facebook, a Google, az IBM, és a Microsoft is, senki nem marad ki a kutatásokból. És az Európa Tanácson is sokat segítene, pláne, amikor mindenki egyszerre beszél.


Sci-fi regényekből és a Star Trekből régóta ismert az egyetemes fordítógép, a valóságban viszont sokkal döcögősebb a beszédtechnológia fejlődése. Mivel a kétirányú (beszédről beszédre, speech-to-speech) fordítás iránti igény és a keresletet biztosító, potenciális alkalmazások száma folyamatosan nő, előbb-utóbb valósággá érnek a tudományos-fantasztikus álmok. Hasznos lenne a közösségi oldalakon lógva vagy skype-olva is, a virtuális térből kilépve, például természeti katasztrófák utáni mentési műveleteknél pedig még inkább. Gyakran pont a nyelvi korlátok, az akadozó és lassú kommunikáció hátráltatja a munkálatokat. Az Európai Unió 24 hivatalos nyelvéhez és az 552 fordítási lehetőséghez az Európa Tanács 3 ezer fős fordítói és tolmácscsoportot alkalmaz évi 1,1 milliárd euróért. A valós idejű gépi fordítás elterjedése csökkenthetne létszámon és összegen. Egyszerűbb szövegeknél, bizonyos szövegkörnyezetekben nyilvánvalóan nem okozna komoly galibákat, sőt a humán fordítók munkájába is besegítene. A legfőbb gond, hogy a jelenlegi megoldások nem érik el ezt a szintet. Más egy írott szöveg, és más a beszéd – az előbbit könnyebb korrigálni, utóbbit bajosabb, durván megszakítja a folyamatos kommunikációt.



Jaime Carbonell, a CMU Nyelvtechnológiai Intézetének igazgatója szerint a nyelv természetes két- és többértelműségei a megbízható „beszédről-beszédre” technológia legnagyobb akadályai. Például az angol „line” szónak 16 szótári jelentése van. Ha a program nem érti a szövegkörnyezetet, megmosolyogtató fordítási javaslatokkal állhat elő. De melyik a legjobb, legmodernebb megoldás? Megoszlanak a vélemények. Fontos változás, hogy sok kutatás-fejlesztést követően egyre több a kereskedelmi forgalomban lévő termék.

Beszáll a Facebook, tökéletesítik a Google Fordítót

A CMU egyik leányvállalata, a Facebook által 2013-ban felvásárolt Mobile Technologies Jibbigo alkalmazásával 25 nyelv közül választhatunk – miután felvette, amit mondtunk, a fordítást megjeleníti a képernyőn, majd szóban is közli velünk a kiválasztott nyelven. A Google sokkal több adathoz fér hozzá, mint bárki más, tehát jobb statisztikái vannak szavakról és szókapcsolatokról. Nem meglepő módon, a fordítója is egyre pontosabb – különösen, ha világnyelvről másik világnyelvre (spanyolról angolra, vagy fordítva) kell átültetnie valamit. Kisebb nyelvekkel viszont bőven akadnak gondjai. A tíz éve indult szolgáltatás ma 72 nyelvvel dolgozik, naponta egymilliárd fordítást végez. Ekkora adatmennyiséggel a tanulás és az automatikus szótárkészítés is könnyebben megy. A Google a vektoros megközelítéssel akarja megújítani, hatékonyabbá tenni a tanulási folyamatot: teljes szövegek helyett kevesebb információval, mintegy 5 ezer szavas anyaggal dolgozna a rendszer. A fordítások ismertek, így különböző nyelveken tud szópárhuzamokat találni a lefordítatlan dokumentumokban. A változás lényege, hogy párhuzamos szövegekről összehasonlítható szövegekre tér át, azokból tanulja meg a munkához szükséges információkat.


Ideghálók

Az IBM Thomas J. Watson Kutatóközpontjában három részből álló beszédről beszédre megoldáson, a beszélő mondókáját írásbeli szöveggé alakító (speech-to-text), azt a másik nyelvre átültető (text-to-text), majd a szöveget beszéddé szintetizáló (text-to-speech) rendszeregyüttesen dolgoznak. A jó eredményhez mindhárom komponensnek – külön-külön és együtt is – tökéletesen kell működnie. Két komoly kihívással állnak szemben. A könnyebben megoldható első a beszélt nyelv alaptermészetéből ered: néha kevésbé artikulálunk, hadarunk, kihagyunk szavakat és akcentusunk is lehet. A hibaráta akár 10 százalékig is felszökhet. Szerencsére a legmodernebb beszédfelismerők egyre jobban kezelik ezt a problémát, az IBM speciális ideghálón (neural network) alapuló rendszerének teljesítménye 40 százalékot javult egy év alatt. A másik nagy kihívás a szótárakban nem szereplő szleng- és nyelvjárási szavak. A kutatók teljesen a párbeszédkezelő nevű teljesen új, mesteséges intelligánciát használó megoldással igyekeznek javítani a pocsék statisztikákon. Ha nem ismer fel valamit, addig faggatja a beszélőt, amíg kielégítő választ nem kap. A program így még aktívabb szerephez jut. A legfrissebb mérések szerint a rendszer az esetek 80 százalékában érzékeli, ha hibázik. A tervek szerint néhány éven belül 90-95 százalékra tornásszák fel ezt a számot.

A Microsoftnál szintén ideghálókat (deep neural networks, DNN) használnak, amivel az elmúlt három évben rengeteget javítottak a technológián. A korábbi módszerekkel összehasonlítva, 30 százalékkal csökkentet a beszédfelismerés közben vétett hibák száma. Azelőtt négy-öt, most hét-nyolcszavanként akad egy téves fordítás, ami óriási előrelépés. A DNN-ek a hanghordozás- és kiejtésbeli mellett a felvétel típusa (mikrofon, háttérzaj stb.) miatt különbségeket is kezelik. A rendszer nyelveken keresztül is tanul: spanyol példaadatokból pontosítja a németjét, és így tovább. Ez azért különösen fontos, mert tanulás közben hatalmas mennyiségű példaadattal, többezer órányi beszéddel kell dolgoznia, amit borzalmasan macerás szöveggé, majd újfent beszéddé konvertálni. Viszont idővel lehetőséget biztosít majd a különösen nagyléptékű beszédről beszédre történő gépi fordításnak. A Microsoft már beépítette a DNN-technológiát a Windows Phone Bing hangkereső alkalmazásába. Eredményesen, hiszen az új app szófelismerési hibarátája 12 százalékkal javult az előzőhöz képest.


Hogyan tovább?

Az IBM-es Salim Roukos kutatócsoportja az ingoványos terepek felderítésére igyekszik összpontosítani. Arra, ahol a rendszer nem ismer fel bizonyos szavakat, szókapcsolatokat, nem tudja, hogyan fordítsa le őket, illetve nem biztos, hogy helyes-e a fordítás. Rá kell jönnie, mely területekről van szó, ennek megfelelően kell kommunikálnia a felhasználóval. Ha képes felismerni, hogy hibázik és azonosítja a hiba helyét, akkor közelebb kerülünk az ideális megoldáshoz. Chris Quirke, a Microsoft Természetesnyelv-feldolgozó Csoportjának kutatója szerint a nyelvhasználati mód gépi értelmezésén kell javítani.

„Nem úgy beszélünk, mint ahogy írunk. És még csak nem is úgy írunk, ahogy régebben. Elég megnézni a közösségi hálózatokat, például a gyors változást egyedien szemléltető Facebookot és Twittert. Ez a változás ösztönözte rendszerünk bővítését a ma és a holnap nyelve felé. Egyértelmű, hogy új és az eddigiektől különböző adatforrásokat kell találnunk.”

Franz Och, a Google Translate csapat vezetője nem bocsátkozik előrejelzésekbe arról, hogy mikorra várható a szinte teljesen hibátlan – és szimultán – egyetemes fordító. A mesterséges intelligencia históriáját hozza fel – hibásan – példaként: az 1956-os kezdetektől a kutatók szerint mindig öt évre voltunk az igazi MI-től. Valójában tizenöt-húsz évet prognosztizáltak, de tény, hogy folyamatosan. Az öt esztendőt ő is ugyanígy kezeli, viszont hozzáfűzi: egyre közelebb kerülünk a nagy álomhoz, vagyis ahhoz, hogy a gépi fordítás ugyanolyan gyors és természetes, mintha ember végezné a munkát. A döbbenetes fejlődést a kézenfekvő spanyol-angollal szemlélteti.