Legyen a lehetséges angol szavak halmaza, pedig a lehetséges francia szavak halmaza, mindkettő véges. Legyen és a leghosszabb angol, illetve francia mondat hossza. Formálisan minden mondat illetve hosszú lesz, az egységes írásmód kedvéért, a nem elég hosszú mondatokat kiegészítjük jelekkel. Tehát és angol, illetve francia mondathalmazra teljesül, hogy és Minden angol illetve francia és mondathoz hozzárendelhetjük a tényleges hosszát, az és hosszakat. Legyen az dimenziójú mátrixok halmaza. Legyen a lehetséges fordítások halmaza, és rendelkezzen azzal a tulajdonsággal, hogy esetén valamint , ha vagy A feltételek azt jelentik, hogy az mátrix soraiban egyetlen egyes található, a többi 0 , valamint 0 van azokon a helyeken, ahol valamelyik mondatban nincs tényleges szó, azaz ahol formálisan található. Az mátrixot úgy interpretáljuk hogy akkor áll az helyen, ha az -edik francia szó, azaz a -edik angol szóból, azaz az szóból származik, vagyis annak a fordítása. Az -edik sor tehát az -edik francia szóhoz tartozik és egy indikátor vektor, mely megmutatja, hogy melyik angol szóból származik, és annak sorszámánál áll egy egyes. Tehát azt követeljük meg, hogy egy francia szó egyetlen angol szóból származhasson, és a francia mondat végén levő szavak ne származzanak angol szóból, valamint a francia szavak ne származzanak az szóból.
A teljes adatrendszerhez tartozó
mintatér, amit teljes mintatérnek is nevezünk, a
térből vett
darab független mintát reprezentál, ezért
Az
térhez tartozó statisztikai mező
,
ahol tetszőleges
teljes mintára
Az EM algoritmusban szereplő
és
mérték a számláló mérték lesz a megfelelő mérhető
tereken,
ezért az
sűrűség megegyezik a
valószínűséggel.
Ez a valószínűség szorzatra bomlik, mert angol mondat
alignment
francia mondat hármasonként
függetlenséget szeretnénk. Ezeket a szorzótényezőket a lánc szabály segítségével tovább írjuk.
Egy adott francia mondat, feltéve a hozzá tartozó alignmentet, angol mondatot és mondathosszt,
független módon áll össze a szavaiból, ezért egy francia mondat valószínűsége a szavai
valószínűségeinek szorzatára bomlik. A feltételből elhagyható a mondathosszhoz tartozó esemény, mert
ez bővebb esemény, mint az adott alignmenthez tartozó esemény. Továbbá egy francia mondatban egy
adott szó és annak valószínűsége csak az alignment hozzá tartozó sorától függ, a többitől nem.
A
-adik francia mondat
-edik szava,
csak a
-adik angol mondat
-edik szavától,
szótól függ, ha
, tehát minden francia szó csak egy angol szóból származik,
ezért a
valószínűség
alakban fejezhető ki, mert
ebből a szorzatból csak az a tényező nem egy, amelyik indexére
Ugyanis a
kifejezést definíció szerint
-nek tekintjük.
A
értékeket ismertnek tételezzük fel.
Legyen minden francia mondathossz egyenlő valószínűségű, ezért
Szintén tételezzünk fel egyformán
valószínűnek minden adott angol mondathosszhoz, és adott francia mondathosszhoz tartozó alignmentet,
ezért
A
valószínűségeket tekintsük a
jellel
jelölt paramétereknek.
A fenti egyenletekben tetszőleges
esetén
és
, valamint
és
esetén
A paraméter halmaz álljon olyan vektorokból, melynek koordinátáit az halmaz elemeivel indexeljük, az elemmel indexelt helyen áll, és , valamint szóra A paramétereket kell tehát becsülni.
A hiányos adatrendszerhez tartozó mintatér elemei legyenek a teljes adatrendszerhez tartozó mintatér elemei elhagyva belőlük az alignmenteket. Tehát és a függvényre pedig teljesül A hiányos adatrendszerhez tartozó statisztikai mező pedig legyen Az elemeknek a valószínűségét csak úgy tudjuk definiálni, hogy összegezzük azoknak az elemeknek a valószínűségét, melyek az mögött állhatnak. Így az EM algoritmus konvergenciájáról szóló tételben álló, a sűrűségekre vonatkozó, feltétel automatikusan teljesül, mert a sűrűségekhez tekintett mérték a számláló mérték a megfelelő tereken, és ezért az
integrál átmegy a
összegbe. Azaz
elemre
Az összegzés csak azokra az alignemntekre történik, melyek a megadott mondatokhoz hozzátartozhatnak, azaz csak olyan helyen áll bennük egyes, amely helyek a mondatok tényleges hossza által adott index-határokon belül vannak.
A paraméterben maximalizálandó feltételes várható érték
Az egyenlőség első három sorában a várható értékben szereplő mennyiségek függnek az elemeitől, az ősére, a halmazra leszűkítve is. A
mennyiségek viszont csak értékétől függenek, tehát konstansak az halmazon. Ezért az első egy konstans szorzótényező a feltételes várható értékben, ami a várható érték elé kihozható, a másodig feltételes várható értéke pedig önmaga. Mivel értékű, ezért a feltételes várható érték megegyezik a valószínűséggel. Ezt a valószínűséget kell kifejezni a paraméter függvényeként, hogy az új paraméter a régiek függvényeként kifejezhető legyen. Vezessük be az jelölést a -adik francia mondatban a -edik francia szó kivételével az összes francia szót meghatározó eseményre. Ezzel a jelöléssel a Bayes tétel alapján és esetén
Ahol a számok a paraméter koordinátái. A számláló első tényezőjében a feltételek közül elhagyható, mert ezektől a szavaktól nem függ És ha , akkor az szavai közül csak az szótól függ. Az esemény valószínűsége csak a mondatok tényleges hosszától függ, viszont ha , akkor eseményt tartalmazza az esemény, vagyis a francia mondat -edik szaván kívüli szavak ismeretéből kiderül a mondat tényleges hossza, valamint az angol mondat ismeretéből természetesen kiderül az angol mondat tényleges hossza. Ezért a számláló második tényezőjében a feltételbe elég a mondatok hosszát beírni. Amennyiben vagy akkor a valószínűség
Az feltételes várható értékre vezessük be az jelölést. A és halmazokon egyaránt jelölje a Kronecker delta függvényt. Azaz ha . egyébként Ezután maximalizáljuk az
feltételes várható értéket a paraméterekben. A második tag a paraméterekben konstans, ezért el is hagyhatjuk a maximalizálás során. Mivel minden lehetséges indexre egyetlen tagja egy, a többi nulla, ezért a fenti összeg helyett írható
Mivel és nem függ az és szavaktól, ezért bevihetőek az összegzésen belülre. Így a
összeget kapjuk. A kifejezés helyett írható , mert minden indexre egyetlen index párra nem nullák, és ott ugyanazt az értéket veszik fel. Az összegzést felcserélve azt kapjuk, hogy a maximalizálandó mennyiség
Az összegzésből az üres halmazok elhagyhatóak, mert több okból is nullával járulnak hozzá az összeghez. Ha az első szumma szerint bontjuk tagokra az összeget, akkor a
tagok csak egy konkrét szóhoz tartozó paraméterektől függenek. Mivel csak ezekre a paraméterekre vonatkoznak a típusú feltételek, ezért ezekre a tagokra külön-külön lehet elvégezni a bennük szereplő paraméterek szerinti maximalizálást. Ezeknek a maximalizálási problémáknak jól ismert a megoldása, mivel a maximalizálandó mennyiségnek olyan alakja van, mint a polinomiális eloszlás loglikelihood függvényének, azzal a különbséggel, hogy itt most az együtthatók nem egészek, hanem intervallumbeli számok. Ettől az eltéréstől függetlenül ezt a kifejezést is a relatív gyakoriságok maximalizálják. Az tényező a
kifejezést adja amikor a Kronecker delta függvények egyet adnak, ezért kicserélhető erre a kifejezésre. Tehát tetszőleges és szó esetén
Ez a képlet azt mondja el, hogy úgy kell kiszámolni egy adott francia, és egy adott angol szó újabb valószínűségét, hogy azokban a mondatpárokban, amelyekben előfordulnak ezek a szavak meg kell nézni a francia szó minden előfordulására, hogy a korábbi fordítási valószínűségének mennyi a relatív súlya az angol mondat összes szavának a franciára való fordítási valószínűségei között, majd ezeket a relatív súlyokat összegezni kell az egész szöveg beli összes előfordulásra, és az így kapott mennyiséget normálni kell az adott angol szó összes francia fordításának valószínűségei között.
Temesi Róbert 2010-08-16