Az EM cikk szerzői is ezt a példát említik elsőként. A hiányos adatrendszerhez tartozó mintatér legyen olyan dimenziós nemnegatív egész értékű vektorok halmaza, amelyben a koordináták összege konstans, például álljon összes lehetséges részhalmazából, azaz Legyen a számláló mérték, azaz az egyelemű halmazok mértéke legyen , a véges halmazok mértéke legyen annyi, ahány elemet tartalmaz, a végtelen halmazok mértéke legyen Ekkor a sűrűségfüggvény egy ponton megegyezik a valószínűséggel. Legyen a paramétertér a nyílt intervallum. Egy valószínűsége legyen
Tehát az eloszlás egy multinomiális eloszlás az és paraméterekkel.
Nem szükséges EM algoritmus a paraméterbecsléshez, amennyiben maximum likelihood módszerrel akarjuk becsülni a paramétert egy konkrét mintából. A maximum likelihood egyenlet explicite megoldható ebben az esetben. Rövidítse a
kifejezést A sűrűségfüggvény log likelihood függvénye
A log likelihood függvény szerinti deriváltja a intervallumban
A log likelihood egyenlet a
egyenletre vezet. Mivel a log likelihood függvény második deriváltjának mínusz egyszerese
ezért nem negatív értékekre, tehát esetünkben, a log likelihood függvény konkáv függvénye a paraméternek. Ezért mindig egyértelműen létezik megoldása a log likelihood egyenletnek a intervallumban, mert a log likelihood deriváltja, amint tartunk a nullába, illetve az egybe tart mínusz végtelenbe, így ott a függvény nem veheti fel maximumát.
Noha létezik explicit megoldás, mégis érdemes megnézni az EM algoritmust ezen a példán, mert itt jól nyomon követhető az algoritmus működése, valamint több dimenziós hiányos adatrendszer esetén már nem lehet explicite megoldani a log likelihood egyenletet, mert az egy magasabbfokú polinom gyökeinek megkeresésére vezet.
Ezt a multinomiális mintát úgy is produkálhatjuk, hogy egymástól függetlenül alkalommal veszünk egy 4 dimenziós indikátor változóból mintát úgy, hogy az indikátor változó komponenseiben az egyesek valószínűsége a multinomiális eloszlás paramétereinek felel meg, majd összeszámoljuk, hogy az indikátor változó melyik értéke hányszor jött ki, illetve összegezhetjük is az indikátor változókat. Fogalmazhatjuk ezt úgy is, hogy van négy urnánk és ezekbe rendre a multinomiális eloszlás paramétereinek valószínűségével esik egy golyó. Tehát az elsőbe , a másodikba és a harmadikba , a negyedikbe valószínűséggel esik golyó.
Úgy is elképzelhetjük ezt a szituációt, hogy az első urnát kettévalasztjuk, és úgy gondolunk rá, mintha az egyik részbe konstans valószínűséggel esne golyó, a másikba pedig valószínűséggel esne golyó. Ha tudnánk, hogy az első urna képzeletbeli rekeszeibe a mintavételezés során hány golyó esett, akkor egyszerűen meghatározhatnánk a paraméter maximum likelihood becslését, hiszen ekkor kis átalakítással a binomiális eloszlás paraméterének ismert maximum likelihood becslésére vezethetnénk vissza a problémát. Nem ismerjük a problémát leegyszerűsítő rekesz darabszámokat, ezért mondhatjuk, hogy az eredeti minta egy hiányos adatrendszer. Mivel nem ismerjük, hogy az első urna melyik rekeszébe hány golyó esik, ezért a számolások során csak az ismert golyószámok melletti feltételes várható értékét vehetjük az első urna rekeszeibe eső golyók számának. Az EM algoritmus során fellépő számolásokban a hiányzó golyószámokat lehet helyettesíteni azok feltételes várható értékével. Ez általánosságban nem tehető meg, hanem a log likelihood függvény feltételes várható értékét kell venni.
A teljes adatrendszerhez tartozó mintatér tehát legyen az olyan 5 dimenziós nem negatív értékeket tartalmazó vektorok halmaza, melyekben a komponensek összege A mérhető halmazok összessége, legyen az összes részhalmazok halmaza, A mérték legyen a számláló mérték, mint a hiányos adatrendszer esetén. Így az sűrűségfüggvény most is megegyezik a valószínűséggel, és tetszőleges vektorra legyen
A függvény legyen olyan, hogy vektorra Ekkor az EM algoritmusban a függvényre megkövetelt egyenlőség valóban teljesül, mert tetszőleges elemre
A
kifejezést jelölje Az EM algoritmushoz kiszámolandó feltételes várható érték
Az egyenlőség utolsó elemének első tagja egy szempontjából konstans . A második tagban diszkrét valószínűségi változók feltételes várható értékét kell venni, ami a feltételes valószínűséggel vett várható érték. Ezért
Ugyanis a legutolsó összeg egy és paraméterű binomiális eloszlású valószínűségi változó várható értéke. Tehát és így is binomiális eloszlású. Ez szemléletesen is világos, mert az első urnába illetve valószínűséggel hullanak a golyók, tehát csak erre az urnára leszűkítve a kísérletet a fenti valószínűséggel és egy mínusz annyi valószínűséggel esnek a golyók az egyik, illetve a másik rekeszbe, ami binomiális eloszlást ad.
Összegezve, a maximalizálandó feltételes várható érték
Ez a függvény a paraméterben olyan, mint egy binomiális eloszlású valószínűségi változó log likelihood függvénye azzal a különbséggel, hogy itt a kitevőben nem csak egész számok vannak, hanem egy várható érték is. Ettől függetlenül a paraméterben maximalizálja
Az EM algoritmus konvergenciája tétel miatt a paraméterértékek sorozata konvergál, méghozzá a hiányos adatrendszerhez tartozó likelihood függvény maximumához, mivel egyértelműen létezik a maximuma. A határérték ki is számolható, mert folytonos függvénye a paraméternek, és ezért határértékében írható a benne szereplő helyére és helyére is a limesz. Így kapunk egy egyenletet a határértékre, ami alapján ellenőrizhető, hogy a példa legelején ugyanazt az egyenletet kellett megoldanunk. A
Az egyenlet elejéből és végéből átrendezéssel adódik a
egyenlet.
Temesi Róbert 2010-08-16