Ebben a dolgozatban azzal foglalkoztam, hogy hogyan lehet alkalmazni a természetes nyelvek közti fordítás problémájára a maximum likelihood módszert. A fordítás ugyanis véletlen folyamat, és meg szeretnénk tudni, hogy milyen valószínűségi paraméterek alapján működik, ami egy nagyszámú fordítási minta alapján maximum likelihood módszerrel végezhető. Esetünkben nem működik a direkt maximalizálás, hanem egy iteratív eljárásra, numerikus módszerre van szükség. Egy bevett eljárás az úgynevezett EM algoritmus alkalmazása. A fordításkor nem minden adat jelenik meg, nem látjuk, hogy melyik szónak melyik felelt meg a fordítás során. Feltételes várható érték vételével kvázi kipótolhatjuk ezt az információt, majd ezzel számolhatjuk a maximum likelihood függvény maximumát, persze ez még csak egy közelítő megoldás, de ezt iterálva végül jó eredményre jutunk. A szakirodalom egy konkrét példáját követve kidolgoztam részletesen, hogy hogyan alkalmazható az EM algoritmus a problémára. Úgy tudom, hogy ezt először én tettem meg, még nem találkoztam vele az irodalomban. Több lényegi kérdésre rávilágítok a tárgyalás során. Végül ezzel kapcsolatban megnéztem, hogy a gyakorlatban mindez hogyan működik. Már rendelkezésre állnak fejlesztői könyvtárak, és kész programok is. Bár ezek elég heterogének, így a feladatom volt ezeknek a programoknak az összeillesztése, összehangolása. Ezt meg is tettem, és a programot futtatva szóillesztési információt nyertem ki egy meglévő párhuzamos angol-magyar szövegkorpuszból. Ez majd be lesz építve a BME GTK Média Oktató és Kutató Központjának (MOKK) a honlapjába, ahol lehet keresni a korpuszban mondatokat. Meg lehet majd jeleníteni a szóillesztést is a keresés során, azaz, hogy a két nyelv mondataiban melyik szavak felelnek meg egymásnak.
Temesi Róbert 2010-08-16