Szöveggel táplálják

Franz Josef Och
A Google azt mondja, hogy a világon létező összes információt össze akarja gyűjteni és elérhetővé akarja tenni mindenki számára. A rendkívül ambiciózus küldetés teljesítésén kétségtelenül dolgozik a vállalat, a nyelvi korlátokat például úgy próbálja lerombolni vagy legalábbis megkerülni, hogy lefordítja nekünk az általunk nem értett nyelveken írt szövegeket, hang- és videofelvételeket.
Igaz, ma még többnyire ügyetlenül, de Franz Och, a cég gépi fordítási csoportjának vezetője hisz abban, hogy az általuk fejlesztett fordítómotor idővel egyre jobb lesz, csak megfelelő mennyiségű szöveggel kell táplálni. A szakembert az ingyenes fordító működéséről, fejlesztéséről és jövőjéről kérdeztük e-mailes interjúnkban.
„To be or not to be: here’s the question” – így fordítja vissza angolra a Google Translate Hamlet híres szavainak Arany János-i magyarítását. Majdnem pontosan stimmel. De hasonló példákba ritkán futunk bele ma még, az önök által fejlesztett motor magyarról vagy magyarra az esetek nagy többségében messze nem fordít ilyen költőien, gyakoriak a nyelvtanilag hibás vagy éppen teljesen értelmetlen mondatok. Gyanítom, hogy a magyar a gépi fordítás szempontjából a problémásabb nyelvek közé tartozik.
Az, hogy egy adott nyelven milyen fordítási minőséget tudunk elérni, inkább attól függ, hogy mennyi adat áll rendelkezésünkre az adott nyelven. Statisztikai modelljeink ezekből az adatbázisokból „tanulnak” és ezáltal javul a program minősége.
Folyamatosan dolgozunk a fordításaink minőségének javításán, minden általunk támogatott nyelv esetében. De be kell látni, hogy még a mai legokosabb szoftverek sem képesek akár csak a közelébe érni annak, ahogy az anyanyelvi beszélők vagy a profi fordítók használják a nyelvet. Az automatikus fordítás rendkívül nehéz, hiszen a szavak jelentése függ a szövegkörnyezettől. Dolgozunk a probléma megoldásán, de valószínűleg sok idő eltelik még addig, amíg az emberi fordítások minőségét elérjük. Addig is azt reméljük, hogy a szolgáltatásunkat az emberek számos okból hasznosnak találják majd.
Ahhoz, hogy a minőséget javíthassunk, rengeteg kétnyelvű szövegre van szükségünk. Két- vagy több nyelven elérhető szövegeket egyébként mindig szívesen veszünk, ha valaki ezek felajánlásával segíteni szeretne, ezen az oldalon megteheti.
Szemben a piacon elérhető fordítószoftverek többségével a Google Translate egy statisztikai fordító. Mit jelent ez? És miért döntöttek e módszer mellett például a szabályalapú megközelítés helyett?
Ma a legtöbb fejlett, kereskedelmi forgalomban elérhető gépi fordító szabályalapú megközelítésre épül, amelyben a szótárak és a grammatikai szabályok definiálása rendkívül munkaigényes.
Mi más módszert alkalmazunk. Mi kész szövegeket dolgozunk fel a számítógéppel, szavak milliárdjait, úgy, hogy a célnyelven meglévő szöveg mellé betápláljuk annak emberek által készített, párhuzamos fordításait, aztán pedig statisztikai tanulóalgoritmusokkal építünk fel egy fordítási modellt.
Ennek számos előnye van. Például úgy tudunk egy új nyelvhez gépi fordítórendszert építeni, hogy egyszerűen új adatokat táplálunk be. Ennek köszönhető, hogy ilyen sok nyelvet – jelenleg 51-et – támogatunk. Emiatt nincs szükségünk minden nyelvpár esetében a szóban forgó két nyelvet jól ismerő szakemberekre sem. E statisztikai módszer gyakran ad jó minőségű fordításokat, ha nagy mennyiségű párhuzamos adatot bocsátunk a rendelkezésére.
Ez elméletben azt jelenti, hogy a gépi fordítójuk akkor működik majd tökéletesen, ha a támogatott nyelveken leírható összes szöveget feldolgozzák – csakhogy ez lehetetlen. Támaszkodnak a grammatikára is? Például szintaktikai szabályokkal, szótárral támogatják a statisztikai motort?
A tanulási algoritmusaink egyik fontos feladata a jó általánosítás: azt szeretnénk, hogy a rendszer olyan szövegeket is képes legyen jól lefordítani, amelyekre nem tanítottuk meg, vagyis nincs benne az adatbázisban. Erre az általánosításra azért képesek a tanulási algoritmusaink, mert kihasználják a nyelv szabályokkal leírható – például morfológiai és szintaktikai – struktúráit.
Marad ingyenes
A múlt héten új funkciókkal bővült a Google Translate. Milyen újdonságokat várhatunk a jövőben?
Három dolgot.
A fordítás minőségének javulását. E téren sokat fejlődtünk az elmúlt években, de maradt még tennivalónk bőven.
A kutató 1998-ban számítástudományi szakon diplomázott az Erlangen-Nürnbergi Egyetemen, majd az aacheni Észak-Rajna-Vesztfáliai Műszaki Egyetemen (RWTH) szerzett PhD-fokozatot 2002-ben.
2002 és 2004 között a Dél-kaliforniai Egyetem számítástudományi intézetének kutatója volt, statisztikai gépi fordítással, természetes nyelvek feldolgozásával és gépi tanulással foglalkozott. Önállóan vagy társszerzőként több mint ötven publikációt jegyez a témában, és több, a természetes nyelvek számítógépes feldolgozásához használható nyílt forráskódú programot írt.
Új nyelvek támogatását. A meglévő 51 nyelv mellett szeretnénk folyamatosan továbbiakkal bővíteni az elérhető nyelvpárok repertoárját. Hosszú távon az a cél, hogy mindenki számára elérhető és megérthető legyen az információ, bármilyen nyelven is beszéljen.
A gépi fordítás integrálását minél több szolgáltatásba. Több helyre reméljük elvinni a gépi fordítást. Dolgozunk azon, hogy a fordítói eszközöket beépítsük többek között a Gmailbe, a Google Talkba és a Google Toolbarba. A Google Toolbarral például azonnal lefordíthatók a weboldalak. Azt gondoljuk, hogy ez egy igazán erős érv az eszköz mellett, hiszen az embereknek sokkal több tartalom elérését biztosítja, megnyitja előttük a világhálót.
Ami pedig a beszédfelismerés és a gépi fordítás integrációját illeti: nemrég jelentettük be, hogy a YouTube képes automatikusan feliratozni a videókat, és a feliratokat a támogatott 51 nyelv bármelyikére le is fordítja.
A Google Translate egyelőre ingyenes. De vajon az is marad majd, ahogy egyre javul a minősége?
Nem tervezzük a szolgáltatás fizetőssé tételét. Jelenleg ingyenesen biztosítjuk nemcsak a saját weboldalunkon, hanem API-ként is, mellyel bármely weboldal tulajdonosa beépítheti az automatikus fordítást az oldalába.
A Google Translate célja az, hogy az interneten megtalálható tartalmakat minél szélesebb körben hozzáférhetővé tegye. Hasznos az emberek számára, és persze hasznos a Google számára is, ha több ember jut hozzá minőségi tartalomhoz online, bármilyen nyelven.
Képesek lesznek valaha a gépi fordítók helyettesíteni az embert? A profi fordítók már most kezdhetnek gondolkodni új pénzkereseti lehetőségeken?
A gépi fordítás alapvetően arról szól, hogy gyors hozzáférést biztosít a weben található különféle tartalmakhoz. Nem fogunk regényt olvasni a Google Translate-tel, más nyelven írt híreket viszont igen, mert a lényeget így is megérthetjük. Szóval azt gondoljuk, hogy a gépi fordítások és az emberi fordítók eltérő szükségletet elégítenek ki, és jól megférhetnek egymás mellett.