Az IBM munkatársai 1993-ban egy cikkben [1]
modellt állítottak fel, melyek egyre
bonyolultabbak. Azóta ez a cikk lett az egyik alapmű, és a benne leírt modellekre a következő
címben leírt módon szoktak hivatkozni.
A cikk alapvetően nem matematikai beállítottságú emberek számára született, ezért a szerzők
fontos célkitűzésnek vették, hogy azok is megérthessék, akik csak a felsőbb matematika alapjait
tudják, ezért nem tudományos igényességű a leírását tekintve, de nem is akar az lenni. Ezért
szükség volt a cikk átgondolására, megértésére, és matematikai igényességgel való interpretálására.
Amit leírnak, az elsőre is szemmel láthatóan jó irányba mutat, de nem ellenőrizhető ebben a formájában.
Például említést tesznek benne arról, hogy a modellekben az EM algoritmust használják, de a
levezetésnél nem támaszkodnak az ismert tételre. Az általuk kiszámolt formulák jók, érthetőek, csak
éppen nincs rájuk megfelelő bizonyítás.
Az 1. IBM modellt kidolgoztam részletesen, és most itt közlöm is. Azt hiszem, hogy ez ilyen formában,
ilyen részletességgel és precizitással először itt szerepel, és talán segíthet jobban megérteni az
EM algoritmus egyéb alkalmazásait. Amint majd látni fogjuk, több fontos részletre is oda kell figyelni
a számoláskor.
Az első teoretikus fontosságú tény, hogy a mintát úgy vesszük, hogy veszünk egy angol mondatot, egy alignmentet és egy francia mondatot, ebben a sorrendben természetesen, vagy méginkább egyszerre, és ezt egymástól függetlenül többször megismételjük, vagy ezt úgy is mondhatuk, hogy egyszerre vettük az egész mintát, de olyan eloszlásból, aminek a sűrűségfüggvénye szorzatra bomlik. Ha az angol mondatot nem tekintenénk a minta részének, hanem eleve adottnak tételeznénk fel, akkor nem beszélhetnénk a függetlenségről. Ekkor a mintaelemszámnyi angol mondat eleve adva lenne, és hozzá lenne fixálva a statisztikai mezőhőz, ami által csak ezeket a mondatokat fordíthatnánk le újból és újból. Nem vehetnénk másik mondatot lefordítás céljára, mert ahhoz a mondatoknak szabadon választhatónak kell lennie a statisztikai mezőben. A számítások szempontjából teljesen fölösleges az angol mondat valószínűségét a teljes minta valószínűségébe felvenni, mivel ezt nem tekintjük paraméternek, és ezért a maximalizálás során nem kell vele foglalkozni. Ennek ellenére oda kell írni, mert csak a számolások végeztével derül ki, hogy kár volt oda írni, ezt előre nem tudhatjuk.
A másik fontos kérdés, hogy a látens, rejtett változókra indikátor változókat kell bevezetnünk, ha
az adott formában szeretnénk számolni a feltételes valószínűségekkel. Ezek az indikátor
változók megjelennek majd a likelihood függvényben, mint a paraméterek kitevői. Az indikátor változók
egyeseit most egy mátrixban helyezzük el. Amikor vesszük a log likelihood függvény feltételes
várható értékét, akkor ezek a változók egy összeg tagjainak szorzótényezői lesznek. Csak akkor tudjuk
tagonként venni a várható értéket, ha az összes változó definiálva van az összes lehetséges mondatpárra.
Gyakorlati szempontból most is el lehetne hagyni egyik másik változó definícióját olyan helyeken, ahol
nulla az értéke, mert ott úgysem számolunk vele, de ez elméleti szempontból nem volna korrekt, mert
nem így szól a definíciónk. Lehetne persze máshogy is definiálni a feltételes várható értéket, de nem
tettük meg. Ezért az indikátor mátrixok mind egyforma méretűek igazodva a leghosszabb mondatok
hosszához.
A nem elég hosszú mondatok
-kal való kiegészítése viszont csak formaság, és az egységes
írásmódot könnyíti csak meg.