Az IBM modellek

Az IBM munkatársai 1993-ban egy cikkben [1] $ 5$ modellt állítottak fel, melyek egyre bonyolultabbak. Azóta ez a cikk lett az egyik alapmű, és a benne leírt modellekre a következő címben leírt módon szoktak hivatkozni. A cikk alapvetően nem matematikai beállítottságú emberek számára született, ezért a szerzők fontos célkitűzésnek vették, hogy azok is megérthessék, akik csak a felsőbb matematika alapjait tudják, ezért nem tudományos igényességű a leírását tekintve, de nem is akar az lenni. Ezért szükség volt a cikk átgondolására, megértésére, és matematikai igényességgel való interpretálására. Amit leírnak, az elsőre is szemmel láthatóan jó irányba mutat, de nem ellenőrizhető ebben a formájában. Például említést tesznek benne arról, hogy a modellekben az EM algoritmust használják, de a levezetésnél nem támaszkodnak az ismert tételre. Az általuk kiszámolt formulák jók, érthetőek, csak éppen nincs rájuk megfelelő bizonyítás. Az 1. IBM modellt kidolgoztam részletesen, és most itt közlöm is. Azt hiszem, hogy ez ilyen formában, ilyen részletességgel és precizitással először itt szerepel, és talán segíthet jobban megérteni az EM algoritmus egyéb alkalmazásait. Amint majd látni fogjuk, több fontos részletre is oda kell figyelni a számoláskor.

Az első teoretikus fontosságú tény, hogy a mintát úgy vesszük, hogy veszünk egy angol mondatot, egy alignmentet és egy francia mondatot, ebben a sorrendben természetesen, vagy méginkább egyszerre, és ezt egymástól függetlenül többször megismételjük, vagy ezt úgy is mondhatuk, hogy egyszerre vettük az egész mintát, de olyan eloszlásból, aminek a sűrűségfüggvénye szorzatra bomlik. Ha az angol mondatot nem tekintenénk a minta részének, hanem eleve adottnak tételeznénk fel, akkor nem beszélhetnénk a függetlenségről. Ekkor a mintaelemszámnyi angol mondat eleve adva lenne, és hozzá lenne fixálva a statisztikai mezőhőz, ami által csak ezeket a mondatokat fordíthatnánk le újból és újból. Nem vehetnénk másik mondatot lefordítás céljára, mert ahhoz a mondatoknak szabadon választhatónak kell lennie a statisztikai mezőben. A számítások szempontjából teljesen fölösleges az angol mondat valószínűségét a teljes minta valószínűségébe felvenni, mivel ezt nem tekintjük paraméternek, és ezért a maximalizálás során nem kell vele foglalkozni. Ennek ellenére oda kell írni, mert csak a számolások végeztével derül ki, hogy kár volt oda írni, ezt előre nem tudhatjuk.

A másik fontos kérdés, hogy a látens, rejtett változókra indikátor változókat kell bevezetnünk, ha az adott formában szeretnénk számolni a feltételes valószínűségekkel. Ezek az indikátor változók megjelennek majd a likelihood függvényben, mint a paraméterek kitevői. Az indikátor változók egyeseit most egy mátrixban helyezzük el. Amikor vesszük a log likelihood függvény feltételes várható értékét, akkor ezek a változók egy összeg tagjainak szorzótényezői lesznek. Csak akkor tudjuk tagonként venni a várható értéket, ha az összes változó definiálva van az összes lehetséges mondatpárra. Gyakorlati szempontból most is el lehetne hagyni egyik másik változó definícióját olyan helyeken, ahol nulla az értéke, mert ott úgysem számolunk vele, de ez elméleti szempontból nem volna korrekt, mert nem így szól a definíciónk. Lehetne persze máshogy is definiálni a feltételes várható értéket, de nem tettük meg. Ezért az indikátor mátrixok mind egyforma méretűek igazodva a leghosszabb mondatok hosszához. A nem elég hosszú mondatok $ \emptyset$ -kal való kiegészítése viszont csak formaság, és az egységes írásmódot könnyíti csak meg.



Subsections
Temesi Róbert 2010-08-16