Bevezetés

A számítógépek felfedezésével a statisztikai számítások nagyobb mennyiségű adattal, gyorsabban elvégezhetővé váltak. Már ekkor, az 50-es években megpróbálkoztak a számítógépes statisztikai nyelvfeldolgozással, többek között a gépi fordítás területén is. A kutatásokra hatással volt az akkkor kialakulóban lévő információelmélet, melyet megpróbáltak alkalmazni a természetes nyelvek területén is. Az ezirányú erőfeszítéseket azonban hamar feladták, mind elméleti, mind gyakorlati okok miatt. A számítógépek rohamos fejlődése azonban új esélyt adott a gépi nyelvfeldolgozásra, hiszen mára már bárki, akár egy otthoni PC-n is gyorsan kísérletezhet. Ennek két elengedhetetlen feltétele is adott, éspedig a gépek számára is feldolgozható hatalmas mennyiségű digitális szövegek (korpuszok), és a manipulálásukhoz szükséges szabad forráskódú programok megléte.

Napjainkban nem csak az erőforrások, hanem azzal párhuzamosan az igények is egyre nőnek. Egyre nagyobb, égetőbb és pénzben is egyre jobban mérhető szükség van a természetes nyelvek közötti gépi fordításra, gondoljunk csak a kétnyelvű Kanada parlamenti, az Európai Parlament minden tagállam nyelvére lefordítandó jogi anyagaira, vagy az interneten fellelhető számos idegen nyelvű szövegre. A lehetőségek pedig határtalanok, egészen a művészi szintű versfordítások szintjéig, amire egyelőre igen kevés remény van.

Amiben viszont igenis képes hozzáadni és ahol gyümölcsözően képes közreműködni a számítógépes fordítás, az a szakszövegek világa, hiszen itt sokkal valószínűtlenebb a kétértelműség. Ugyanis a többértelműség az igazi probléma, mert egy mondatot többféleképpen is le lehet fordítani, és utólag már nem lehet látni, hogy a fordító milyen módszerrel fordította a mondatot, hogy például melyik szót, vagy szavakat melyik szóból, vagy szavakból fordította. A fordítás egy véletlen jellegű folyamat, hiszen hol egyik szót vagy kifejezést használja a fordító, hol egy másikat, akár nem is konzekvensen. Ezért egy véletlen jelenséget kell megismernünk, ami a valószínűségszámítás és a statisztika feladata. Ahhoz, hogy utánozni tudjunk egy fordítót, ki kell találnunk, hogy egy mondatot egy másikra milyen valószínűséggel fordít, illetve ami célszerűbb, kitalálni, hogy a mondatok bizonyos alkotórészeit milyen valószínűséggel fordítja le egymásra. Ekkor ugyanis jó eséllyel meg lehet ismételni, illetve hasonlóan jó fordítást lehet készíteni, mint amilyet a fordító készítene. Ha egy fordító nagyszámú fordítást készített már, vagy korábbról állnak rendelkezésünkre lefordított anyagok, akkor ezt a nagyszámú tapasztalatot értékes információvá lehet alakítani statisztikai módszerekkel. Amekkora mennyiségű adat egy számítógép rendelkezésére áll manapság, annyi adatból egy ember biztosan megtanulná az adott idegen nyelvet, tehát a fordítási információ benne kell legyen a korpuszban. Csak megfelelő eszközökkel ki kell nyerni belőle, és meg kell próbálni kihasználni a számítógépnek az emberénél jobb képességeit.

Általában a természetes nyelvek közötti fordítással kapcsolatos kutatómunka abból áll, hogy felállítanak egy modellt, a modell paramétereit hozzáigazítják a rendelkezésre álló fordítási párokhoz azokat a paramétereket választva, melyek mellett a legvalószínűbb, hogy azokat a fordításokat kaptuk, amelyek a korpuszban vannak, majd alkalmazzák a beállított paraméterekkel a fordítási modellt, és az eredményt például összehasonlítják egy emberek által készített teszt fordítással, arany sztenderddel. Ez adja a visszacsatolást, a modell jobbításához.

A statisztikai gépi fordítás területén a diploma dolgozat készítése közben alapvetően két célom volt: először is megismerni, megérteni, és matematikailag pontosan kidolgozni, áttekinthetővé tenni az alkalmazott módszereket, és azok leírását, valamint másodszor a megtanult módszereket a gyakorlatban is kipróbálni, ezáltal is minél hasznosabban hozzájárulni a kutatómunkához.

A szakirodalomban sokféle eljárás és azok használatának jogosságára sokféle érvelés létezik, ezek között vannak igen mély meglátások, és vannak kevésbbé kidolgozottak, átgondoltak. Ahhoz, hogy ki tudjunk igazodni ebben a sokféleségben, le kell ásnunk a megértés legmélyebb szintjére, hogy biztos talajon járva gondolkozhassunk. Ezen a területen szükséges a precízitás, de ugyanakkor rengeteg intuícióra is szükség van, ezért jól meg kell érteni a fogalmakat, tételeket, és rutinszerűen ki is kell tudni számolni a részleteket.

Temesi Róbert 2010-08-16