1. IBM modell

Legyen $\EuScript W_{\cal E}$ a lehetséges angol szavak halmaza, $\EuScript W_{\cal F}$ pedig a lehetséges francia szavak halmaza, mindkettő véges. Legyen és a leghosszabb angol, illetve francia mondat hossza. Formálisan minden mondat illetve hosszú lesz, az egységes írásmód kedvéért, a nem elég hosszú mondatokat kiegészítjük $\emptyset$ jelekkel. Tehát $\cal E$ és $\cal F$ angol, illetve francia mondathalmazra teljesül, hogy ${\cal E} \subset \bigcup_{l=1}^L \EuScript W_{\cal E}^l \{\emptyset\}^{L-l}$ és ${\cal F} \subset \bigcup_{m=1}^M \EuScript W_{\cal F}^m \{\emptyset\}^{M-m}.$ Minden angol illetve francia $\bf e$ és $\bf f$ mondathoz hozzárendelhetjük a tényleges hosszát, az $l(\bf e)$ és $m(\bf f)$ hosszakat. Legyen $\cal A$ az $M\times L$ dimenziójú mátrixok halmaza. Legyen $\EuScript T \subset \cal E \times A \times F$ a lehetséges fordítások halmaza, és rendelkezzen azzal a tulajdonsággal, hogy $\forall \>\bf t = (\bf e, \bf a, \bf f)\in \EuScript T$ esetén $\vert{\bf a}_i\vert = 1$ valamint $a_{ij} = 0$ , ha $i>m(\bf f)$ vagy $j>l(\bf e).$ A feltételek azt jelentik, hogy az $\bf a$ mátrix soraiban egyetlen egyes található, a többi 0 , valamint 0 van azokon a helyeken, ahol valamelyik mondatban nincs tényleges szó, azaz ahol formálisan $\emptyset$ található. Az $\bf a$ mátrixot úgy interpretáljuk hogy akkor áll az $a_{ij}$ helyen, ha az -edik francia szó, azaz a -edik angol szóból, azaz az szóból származik, vagyis annak a fordítása. Az -edik sor tehát az -edik francia szóhoz tartozik és egy indikátor vektor, mely megmutatja, hogy melyik angol szóból származik, és annak sorszámánál áll egy egyes. Tehát azt követeljük meg, hogy egy francia szó egyetlen angol szóból származhasson, és a francia mondat végén levő $\emptyset$ szavak ne származzanak angol szóból, valamint a francia szavak ne származzanak az $\emptyset$ szóból.

A teljes adatrendszerhez tartozó $\boldsymbol{\EuScript X}$ mintatér, amit teljes mintatérnek is nevezünk, a $\EuScript T$ térből vett darab független mintát reprezentál, ezért $\boldsymbol{\EuScript X} = {\EuScript T}^{\>S}.$ Az $\boldsymbol{\EuScript X}$ térhez tartozó statisztikai mező $(\boldsymbol{\EuScript X},2^{\boldsymbol{\EuScript X}}, \{\boldsymbol P_{\bold... ...eta }^{\boldsymbol{\EuScript X}}\vert\boldsymbol\theta \in\boldsymbol\Theta \})$ , ahol tetszőleges ${\bf x} = ({\bf e}^1,{\bf a}^1,{\bf f}^1,\ldots,{\bf e}^S,{\bf a}^S,{\bf f}^S) \in \boldsymbol{\EuScript X}$ teljes mintára
$f_{\boldsymbol\theta }({\bf x}) = \boldsymbol P_{\boldsymbol\theta }^{\boldsymbol{\EuScript X}}({\bf x}) =$
$\prod_{k=1}^S \boldsymbol P_{\boldsymbol\theta }^{\boldsymbol{\EuScript X}}({\bf e}^k,{\bf a}^k,{\bf f}^k) =$
$\prod_{k=1}^S \boldsymbol P_{\boldsymbol\theta }^{\boldsymbol{\EuScript X}}({\bf a}^k,{\bf f}^k \vert {\bf e}^k)$ $\boldsymbol P_{\boldsymbol\theta }^{\boldsymbol{\EuScript X}}({\bf e}^k) =$
$\prod_{k=1}^S \boldsymbol P_{\boldsymbol\theta }^{\boldsymbol{\EuScript X}}({\bf a}^k,{\bf f}^k \vert {\bf e}^k, m({\bf f}^k))$ $\boldsymbol P_{\boldsymbol\theta }^{\boldsymbol{\EuScript X}}(m({\bf f}^k) \vert {\bf e}^k)$ $\boldsymbol P_{\boldsymbol\theta }^{\boldsymbol{\EuScript X}}({\bf e}^k) =$
$\prod_{k=1}^S \boldsymbol P_{\boldsymbol\theta }^{\boldsymbol{\EuScript X}}({\bf f}^k \vert {\bf a}^k,{\bf e}^k, m({\bf f}^k))$ $\boldsymbol P_{\boldsymbol\theta }^{\boldsymbol{\EuScript X}}({\bf a}^k \vert m({\bf f}^k), {\bf e}^k)$ $\boldsymbol P_{\boldsymbol\theta }^{\boldsymbol{\EuScript X}}(m({\bf f}^k) \vert {\bf e}^k)$ $\boldsymbol P_{\boldsymbol\theta }^{\boldsymbol{\EuScript X}}({\bf e}^k) =$
$\prod_{k=1}^S \left(\prod_{j=1}^M\boldsymbol P_{\boldsymbol\theta }^{\boldsymbol{\EuScript X}}(f_j^k \vert {\bf a}^k,{\bf e}^k, m({\bf f}^k))\right)$ $\boldsymbol P_{\boldsymbol\theta }^{\boldsymbol{\EuScript X}}({\bf a}^k \vert m({\bf f}^k), {\bf e}^k)$ $\boldsymbol P_{\boldsymbol\theta }^{\boldsymbol{\EuScript X}}(m({\bf f}^k) \vert {\bf e}^k)$ $\boldsymbol P_{\boldsymbol\theta }^{\boldsymbol{\EuScript X}}({\bf e}^k) =$
$\prod_{k=1}^S \left(\prod_{j=1}^M\boldsymbol P_{\boldsymbol\theta }^{\boldsymbol{\EuScript X}}(f_j^k \vert {\bf a}^k,{\bf e}^k)\right)$ $\boldsymbol P_{\boldsymbol\theta }^{\boldsymbol{\EuScript X}}({\bf a}^k \vert m({\bf f}^k), {\bf e}^k)$ $\boldsymbol P_{\boldsymbol\theta }^{\boldsymbol{\EuScript X}}(m({\bf f}^k) \vert {\bf e}^k)$ $\boldsymbol P_{\boldsymbol\theta }^{\boldsymbol{\EuScript X}}({\bf e}^k) =$
$\prod_{k=1}^S \left(\prod_{j=1}^M\boldsymbol P_{\boldsymbol\theta }^{\boldsymbol{\EuScript X}}(f_j^k \vert {\bf a}_j^k,{\bf e}^k)\right)$ $\boldsymbol P_{\boldsymbol\theta }^{\boldsymbol{\EuScript X}}({\bf a}^k \vert m({\bf f}^k), {\bf e}^k)$ $\boldsymbol P_{\boldsymbol\theta }^{\boldsymbol{\EuScript X}}(m({\bf f}^k) \vert {\bf e}^k)$ $\boldsymbol P_{\boldsymbol\theta }^{\boldsymbol{\EuScript X}}({\bf e}^k) =$
$\prod_{k=1}^S \left(\prod_{j=1}^M\prod_{i=1}^L{\boldsymbol P_{\boldsymbol\theta }^{\boldsymbol{\EuScript X}}(f_j^k \vert a_{ij}^k=1,e_i^k)}^{a_{ij}^k} \right)$ $\boldsymbol P_{\boldsymbol\theta }^{\boldsymbol{\EuScript X}}({\bf a}^k \vert m({\bf f}^k), {\bf e}^k)$ $\boldsymbol P_{\boldsymbol\theta }^{\boldsymbol{\EuScript X}}(m({\bf f}^k) \vert {\bf e}^k)$ $\boldsymbol P_{\boldsymbol\theta }^{\boldsymbol{\EuScript X}}({\bf e}^k) =$
$\prod_{k=1}^S \left(\prod_{j=1}^M\prod_{i=1}^L{p(f_j^k\vert e_i^k)}^{a_{ij}^k} \right)$ $1 \over {{l({\bf e}^k)}^{m({\bf f}^k)}}$ $1 \over M$ $p({\bf e}^k).$
Az EM algoritmusban szereplő $\boldsymbol\mu$ és $\boldsymbol\nu$ mérték a számláló mérték lesz a megfelelő mérhető tereken, ezért az $f_{\boldsymbol\theta }({\bf x})$ sűrűség megegyezik a $\boldsymbol P_{\boldsymbol\theta }^{\boldsymbol{\EuScript X}}({\bf x})$ valószínűséggel. Ez a valószínűség szorzatra bomlik, mert angol mondat alignment francia mondat hármasonként függetlenséget szeretnénk. Ezeket a szorzótényezőket a lánc szabály segítségével tovább írjuk. Egy adott francia mondat, feltéve a hozzá tartozó alignmentet, angol mondatot és mondathosszt, független módon áll össze a szavaiból, ezért egy francia mondat valószínűsége a szavai valószínűségeinek szorzatára bomlik. A feltételből elhagyható a mondathosszhoz tartozó esemény, mert ez bővebb esemény, mint az adott alignmenthez tartozó esemény. Továbbá egy francia mondatban egy adott szó és annak valószínűsége csak az alignment hozzá tartozó sorától függ, a többitől nem. A -adik francia mondat -edik szava, csak a -adik angol mondat -edik szavától, szótól függ, ha $a_{ij}^k = 1$ , tehát minden francia szó csak egy angol szóból származik, ezért a $\boldsymbol P_{\boldsymbol\theta }^{\boldsymbol{\EuScript X}}(f_j^k \vert {\bf a}_j^k,{\bf e}^k)$ valószínűség $\prod_{i=1}^L{\boldsymbol P_{\boldsymbol\theta }^{\boldsymbol{\EuScript X}}(f_j^k \vert e_i^k)}^{a_{ij}^k}$ alakban fejezhető ki, mert ebből a szorzatból csak az a tényező nem egy, amelyik indexére $a_{ij}^k = 1.$ Ugyanis a kifejezést definíció szerint -nek tekintjük. A $\boldsymbol P_{\boldsymbol\theta }^{\boldsymbol{\EuScript X}}({\bf e}^k) = p({\bf e}^k)$ értékeket ismertnek tételezzük fel. Legyen minden francia mondathossz egyenlő valószínűségű, ezért $\boldsymbol P_{\boldsymbol\theta }^{\boldsymbol{\EuScript X}}(m({\bf f}^k) \vert {\bf e}^k) = {1 \over M}.$ Szintén tételezzünk fel egyformán valószínűnek minden adott angol mondathosszhoz, és adott francia mondathosszhoz tartozó alignmentet, ezért $\boldsymbol P_{\boldsymbol\theta }^{\boldsymbol{\EuScript X}}({\bf a}^k \vert m({\bf f}^k), {\bf e}^k) =$ $\boldsymbol P_{\boldsymbol\theta }^{\boldsymbol{\EuScript X}}({\bf a}^k \vert m({\bf f}^k), l({\bf e}^k)) =$ ${1 \over {{l({\bf e}^k)}^{m({\bf f}^k)}}}.$ A $\boldsymbol P_{\boldsymbol\theta }^{\boldsymbol{\EuScript X}}(f_j^k \vert a_{ij}^k=1,e_i^k)$ valószínűségeket tekintsük a $p(f_j^k\vert e_i^k)$ jellel jelölt paramétereknek. A fenti egyenletekben tetszőleges ${\bf e}\in \EuScript E$ esetén $p({\bf e}) \in (0,1)$ és $\sum_{{\bf e}\in \EuScript E} p({\bf e}) = 1$ , valamint $\forall e\in \EuScript W_{\cal E}$ és $\forall f\in \EuScript W_{\cal F}$ esetén $p(\emptyset\vert e) =$ $p(f\vert\emptyset) =$ $p(\emptyset\vert\emptyset) = 1.$

A $\boldsymbol\Theta$ paraméter halmaz álljon olyan vektorokból, melynek koordinátáit az $\{(f,e)\vert e\in \EuScript W_{\cal E},f\in \EuScript W_{\cal F}\}$ halmaz elemeivel indexeljük, az elemmel indexelt helyen $p(f\vert e)$ áll, és $p(f\vert e) \in [0,1]$ , valamint $\forall e\in \EuScript W_{\cal E}$ szóra $\sum_{f\in\EuScript W_{\cal F}} p(f\vert e) = 1.$ A $p(f\vert e)$ paramétereket kell tehát becsülni.

A hiányos adatrendszerhez tartozó mintatér elemei legyenek a teljes adatrendszerhez tartozó mintatér elemei elhagyva belőlük az alignmenteket. Tehát $\boldsymbol{\EuScript Y} = (\cal E \times \cal F)^S$ és a $\gamma : \boldsymbol{\EuScript X} \rightarrow \boldsymbol{\EuScript Y}$ függvényre pedig teljesül $\gamma(\bf x) =$ $\gamma(({\bf e}^1,{\bf a}^1,{\bf f}^1,\ldots,{\bf e}^S,{\bf a}^S,{\bf f}^S))=$ $({\bf e}^1,{\bf f}^1,\ldots,{\bf e}^S,{\bf f}^S).$ A hiányos adatrendszerhez tartozó statisztikai mező pedig legyen $(\boldsymbol{\EuScript Y},2^{\boldsymbol{\EuScript Y}}, \{\boldsymbol P_{\bold... ...ta }^{\boldsymbol{\EuScript Y}}\vert\boldsymbol\theta \in\boldsymbol\Theta \}).$ Az $\bf y\in \boldsymbol{\EuScript Y}$ elemeknek a valószínűségét csak úgy tudjuk definiálni, hogy összegezzük azoknak az $\bf x$ elemeknek a valószínűségét, melyek az $\bf y$ mögött állhatnak. Így az EM algoritmus konvergenciájáról szóló tételben álló, a sűrűségekre vonatkozó, feltétel automatikusan teljesül, mert a sűrűségekhez tekintett mérték a számláló mérték a megfelelő tereken, és ezért az

$\displaystyle \int_{\gamma^{-1}({\bf y})} f_{\boldsymbol\theta }\>d\mu$

integrál átmegy a

$\displaystyle \sum_{\{{\bf x} \vert\gamma({\bf x})={\bf y}\}} f_{\boldsymbol\theta }({\bf x})$

összegbe. Azaz

$\displaystyle \forall\> {\bf y} = ({\bf e}^1,{\bf f}^1,\ldots,{\bf e}^S,{\bf f}^S)\in \boldsymbol{\EuScript Y}$

elemre

$\displaystyle g_{\boldsymbol\theta }({\bf y})=\boldsymbol P_{\boldsymbol\theta ... ...sum_{\{{\bf x} \vert\gamma({\bf x})={\bf y}\}} f_{\boldsymbol\theta }({\bf x})=$

$\displaystyle =\sum_{\{(\bf a^1,\ldots,\bf a^S) \vert ({\bf e}^1,{\bf a}^1,{\b... ...k} \right) {1 \over {{l({\bf e}^k)}^{m({\bf f}^k)}}} {1 \over M} p({\bf e}^k).$

Az összegzés csak azokra az alignemntekre történik, melyek a megadott mondatokhoz hozzátartozhatnak, azaz csak olyan helyen áll bennük egyes, amely helyek a mondatok tényleges hossza által adott index-határokon belül vannak.

A $\boldsymbol\theta$ paraméterben maximalizálandó feltételes várható érték

$\displaystyle \boldsymbol E_{\boldsymbol\theta _n}(\log f_{\boldsymbol\theta }\vert\gamma^{-1}(\bf y)) =$

$\displaystyle =\boldsymbol E_{\boldsymbol\theta _n}\hskip -.75ex\left(\,\log\hs... ...{1 \over M} p({\bf e}^k)\hskip -.3ex\right)\;\vrule\;\gamma^{-1}(\bf y)\right)=$

$\displaystyle =\boldsymbol E_{\boldsymbol\theta _n}\hskip -.75ex\left(\> \sum_{... ...r {{l({\bf e}^k)}^{m({\bf f}^k)}}M}\right) \;\vrule\;\gamma^{-1}(\bf y)\right)=$

$\displaystyle =\sum_{k=1}^S\hskip -.5ex \left(\sum_{j=1}^M\sum_{i=1}^L\> \bolds... ...\hskip -.5ex\left({p({\bf e}^k) \over {{l({\bf e}^k)}^{m({\bf f}^k)}}M}\right).$

Az egyenlőség első három sorában a várható értékben szereplő mennyiségek függnek az $\boldsymbol{\EuScript X}$ elemeitől, az $\bf y$ ősére, a $\gamma^{-1}(\bf y)$ halmazra leszűkítve is. A

$\displaystyle \;\log{p(f_j^k\vert e_i^k)} \textrm{\; és\; } \log\hskip -.5ex\left({p({\bf e}^k) \over {{l({\bf e}^k)}^{m({\bf f}^k)}}M}\right)$

mennyiségek viszont csak $\bf y$ értékétől függenek, tehát konstansak az $\gamma^{-1}(\bf y)$ halmazon. Ezért az első egy konstans szorzótényező a feltételes várható értékben, ami a várható érték elé kihozható, a másodig feltételes várható értéke pedig önmaga. Mivel $a_{ij}^k$

értékű, ezért a $\boldsymbol E_{\boldsymbol\theta _n}(\;{a_{ij}^k}\;\vert\;\gamma^{-1}({\bf y})\,)$ feltételes várható érték megegyezik a $\boldsymbol P_{\boldsymbol\theta _n}^{\boldsymbol{\EuScript X}}(\;a_{ij}^k=1\;\vert\;\gamma^{-1}({\bf y})\,)$ valószínűséggel. Ezt a valószínűséget kell kifejezni a $\boldsymbol\theta _n$ paraméter függvényeként, hogy az új $\boldsymbol\theta _{n+1}$ paraméter a régiek függvényeként kifejezhető legyen. Vezessük be az ${\bf f}_{-j}^k$ jelölést a

-adik francia mondatban a

-edik francia szó kivételével az összes francia szót meghatározó eseményre. Ezzel a jelöléssel a Bayes tétel alapján $i\leq l({\bf e}^k)$ és $j\leq m({\bf f}^k)$ esetén

$\displaystyle \boldsymbol P_{\boldsymbol\theta _n}^{\boldsymbol{\EuScript X}}(\... ...oldsymbol{\EuScript X}}(\;a_{ij}^k=1\;\vert\;f_j^k,{\bf f}_{-j}^k,{\bf e}^k\,)=$

$\displaystyle ={{\boldsymbol P_{\boldsymbol\theta _n}^{\boldsymbol{\EuScript X}... ...{\boldsymbol{\EuScript X}}(\;a_{i'j}^k=1\;\vert\;{\bf f}_{-j}^k,{\bf e}^k\,)}}=$

$\displaystyle ={{\boldsymbol P_{\boldsymbol\theta _n}^{\boldsymbol{\EuScript X}... ...\boldsymbol{\EuScript X}}(\;a_{i'j}^k=1\;\vert\;m({\bf f}^k),l({\bf e}^k)\,)}}=$

$\displaystyle ={{p_n(\;f_j^k\;\vert\;e_i^k\,)} {1\over{{l({\bf e}^k)}^{m({\bf f... ...}^L{p_n(\;f_j^k\;\vert\;e_{i'}^k\,)} {1\over{{l({\bf e}^k)}^{m({\bf f}^k)}}}}}=$

$\displaystyle ={{p_n(\;f_j^k\;\vert\;e_i^k\,)} \over {\sum_{i'=1}^L{p_n(\;f_j^k\;\vert\;e_{i'}^k\,)}}}.$

Ahol a $p_n(f\vert e)$ számok a $\boldsymbol\theta _n$ paraméter koordinátái. A számláló első tényezőjében a feltételek közül ${\bf f}_{-j}^k$ elhagyható, mert ezektől a szavaktól nem függ

És ha $a_{ij}^k = 1$ , akkor

az ${\bf e}^k$ szavai közül csak az

szótól függ. Az $a_{ij}^k = 1$ esemény valószínűsége csak a mondatok tényleges hosszától függ, viszont ha $j\leq m({\bf f}^k)$ , akkor ${\bf f}_{-j}^k$ eseményt tartalmazza az $m({\bf f}^k)$ esemény, vagyis a francia mondat

-edik szaván kívüli szavak ismeretéből kiderül a mondat tényleges hossza, valamint az angol mondat ismeretéből természetesen kiderül az angol mondat tényleges hossza. Ezért a számláló második tényezőjében a feltételbe elég a mondatok hosszát beírni. Amennyiben $i> l({\bf e}^k)$ vagy $j> m({\bf f}^k)$ akkor a $\boldsymbol P_{\boldsymbol\theta _n}^{\boldsymbol{\EuScript X}}(\;a_{ij}^k=1\;\vert\;\gamma^{-1}({\bf y})\,)$ valószínűség

Az $\boldsymbol E_{\boldsymbol\theta _n}(\;{a_{ij}^k}\;\vert\;\gamma^{-1}({\bf y})\,)$ feltételes várható értékre vezessük be az $E_{a_{ij}^k}$ jelölést. A $\EuScript W_{\cal E}\times \EuScript W_{\cal E}$ és $\EuScript W_{\cal F}\times \EuScript W_{\cal F}$ halmazokon egyaránt jelölje $\delta$ a Kronecker delta függvényt. Azaz $\delta(A,B)=1$ ha . egyébként Ezután maximalizáljuk az

$\displaystyle \boldsymbol E_{\boldsymbol\theta _n}(\log f_{\boldsymbol\theta }\vert\gamma^{-1}(\bf y)) =$

$\displaystyle =\sum_{k=1}^S\hskip -.5ex \left(\sum_{j=1}^M\sum_{i=1}^L\> E_{a_{... ...g\hskip -.5ex\left({p({\bf e}^k) \over {{l({\bf e}^k)}^{m({\bf f}^k)}}M}\right)$

feltételes várható értéket a paraméterekben. A második tag a paraméterekben konstans, ezért el is hagyhatjuk a maximalizálás során. Mivel minden lehetséges

indexre $\sum_{e\in{\EuScript W}_{\cal E}\cup\{\emptyset\}} \sum_{f\in{\EuScript W}_{\cal F}\cup\{\emptyset\}} \delta(e,e_i^k)\delta(f,f_j^k)$ egyetlen tagja egy, a többi nulla, ezért a fenti összeg helyett írható

$\displaystyle \sum_{k=1}^S\sum_{j=1}^M\sum_{i=1}^L\hskip -.5ex \left( E_{a_{ij}... ...t W}_{\cal F}\cup\{\emptyset\}} \delta(e,e_i^k)\delta(f,f_j^k) \right)\right).$

Mivel $\log{p(f_j^k\vert e_i^k)}$ és $E_{a_{ij}^k}$ nem függ az

és

szavaktól, ezért bevihetőek az összegzésen belülre. Így a

$\displaystyle \sum_{k=1}^S\sum_{j=1}^M\sum_{i=1}^L\left( \sum_{e\in{\EuScript W... ...\log{p(f_j^k\vert e_i^k)}\;\delta(e,e_i^k)\delta(f,f_j^k)\;E_{a_{ij}^k} \right)$

összeget kapjuk. A $\log{p(f_j^k\vert e_i^k)}\,\delta(e,e_i^k)\delta(f,f_j^k)\,E_{a_{ij}^k}$ kifejezés helyett írható $\log{p(f\vert e)}\,\delta(e,e_i^k)\delta(f,f_j^k)\,E_{a_{ij}^k}$ , mert minden

indexre egyetlen

index párra nem nullák, és ott ugyanazt az értéket veszik fel. Az összegzést felcserélve azt kapjuk, hogy a maximalizálandó mennyiség

$\displaystyle \sum_{e\in{\EuScript W}_{\cal E}} \sum_{f\in{\EuScript W}_{\cal F... ..._{j=1}^M\sum_{i=1}^L\left( \delta(e,e_i^k)\delta(f,f_j^k)\;E_{a_{ij}^k} \right)$

Az összegzésből az üres halmazok elhagyhatóak, mert több okból is nullával járulnak hozzá az összeghez. Ha az első szumma szerint bontjuk tagokra az összeget, akkor a

$\displaystyle \sum_{f\in{\EuScript W}_{\cal F}} \log{p(f\vert e)} \sum_{k=1}^S\sum_{j=1}^M\sum_{i=1}^L\left( \delta(e,e_i^k)\delta(f,f_j^k)\;E_{a_{ij}^k} \right)$

tagok csak egy konkrét

szóhoz tartozó $p(f\vert e)$ paraméterektől függenek. Mivel csak ezekre a paraméterekre vonatkoznak a $\sum_{f\in\EuScript W_{\cal F}} p(f\vert e) = 1$ típusú feltételek, ezért ezekre a tagokra külön-külön lehet elvégezni a bennük szereplő paraméterek szerinti maximalizálást. Ezeknek a maximalizálási problémáknak jól ismert a megoldása, mivel a maximalizálandó mennyiségnek olyan alakja van, mint a polinomiális eloszlás loglikelihood függvényének, azzal a különbséggel, hogy itt most az együtthatók nem egészek, hanem

intervallumbeli számok. Ettől az eltéréstől függetlenül ezt a kifejezést is a relatív gyakoriságok maximalizálják. Az $E_{a_{ij}^k}$ tényező a

$\displaystyle {{p_n(\;f\;\vert\;e\,)}\over{\sum_{i'=1}^L{p_n(\;f\;\vert\;e_{i'}^k\,)}}}$

kifejezést adja amikor a Kronecker delta függvények egyet adnak, ezért kicserélhető erre a kifejezésre. Tehát tetszőleges $e\in{\EuScript W}_{\cal E}$ és $f\in{\EuScript W}_{\cal F}$ szó esetén

$\displaystyle p_{n+1}(f\vert e)= {{\sum_{k=1}^S\sum_{j=1}^M\sum_{i=1}^L\left( \... ...n(\;f\;\vert\;e\,)}\over{\sum_{i'=1}^L{p_n(\;f\;\vert\;e_{i'}^k\,)}}}\right)}}.$

Ez a képlet azt mondja el, hogy úgy kell kiszámolni egy adott francia, és egy adott angol szó újabb valószínűségét, hogy azokban a mondatpárokban, amelyekben előfordulnak ezek a szavak meg kell nézni a francia szó minden előfordulására, hogy a korábbi fordítási valószínűségének mennyi a relatív súlya az angol mondat összes szavának a franciára való fordítási valószínűségei között, majd ezeket a relatív súlyokat összegezni kell az egész szöveg beli összes előfordulásra, és az így kapott mennyiséget normálni kell az adott angol szó összes francia fordításának valószínűségei között.

Temesi Róbert 2010-08-16