Az EM algoritmus különösen jól használható keverék eloszlások paramétereinek maximum likelihood becslésére, ezt a [5] cikk is elsők között említi. Ilyen esetben a számolások jelentősen leegyszrűsödnek, mivel a feladat kezelhető hiányos adat problémának. Most a kevert komponensek keverési aránya becslésének azt az esetét vizsgáljuk, amikor a komponensek sűrűsége ismert. Általánosabb, és nehezebb eset, amikor a komponensek sűrűségében is szerepelnek paraméterek, és ezeket együtt kell becsülni a keverési arányokkal. Ez az egyszerűbb eset sem valószerűtlen, mert gyakorlati példákban előfordul, hogy rendelkezésre állnak a komponensekből külön-külön vett minták is, ami által még a kevert eloszlás paramétereinek becslése előtt lehetőség nyílik a komponensek paramétereinek tetszőlegesen pontos becslésére.
Tehát tételezzük fel, hogy egy valószínűségi változó sűrűség függvényének komponensű kevert alakja van:
ahol a paramétervektor. Ha nem akarunk feltételes szélsőértéket keresni, akkor célszerű egyel kevesebb paramétert venni, a legutolsó paraméterre pedig teljesüljön
A komponens sűrűségek pedig teljesen meghatározottak.
Ez a modell például olyan gyakorlati eseteket foglal magába, ahol például egy populáció különböző csoportra osztható bizonyos ismeretlen arányban. és ahol az -edik csoportba való tartozás feltétele mellett az feltételes eloszlása Például egy Do és McLachlan által 1984-ben tekintett gyakorlati problémában, a tekintett populáció különböző faj csoportjába, részpopulációjába tartozó patkányok, melyek közül a baglyok minden csoportból valamilyen ismeretlen valószínűséggel fogyasztanak el egy egyedet. Ez teljesülhet például, ha a csoport részaránya a teljes populációban , és a baglyok minden egyedet egyforma valószínűséggel találnak meg, és fogyasztanak el, vagy lehet a részaránya tetszőleges, de a baglyok egy ide eső egyedet olyan valószínűséggel lelnek fel, hogy összességében valószínűséggel jussanak hozzá egy egyedhez ebből a csoportból. A feladat a paraméterek becslése bagolyköpetekből vett patkánykoponyán végzett mérések alapján, ahol egy ilyen koponyán mért adatokat tartalmazza az valószínűségi változó. A patkány hozzátartozik a baglyok étrendjéhez, és az emészthetetlen részeket bagolyköpet formájában öklendezik vissza.
Tehát csupán a koponyákon végzett mérések alapján nem tudjuk meghatározni a patkányok faját, viszont tudjuk, hogy az egyes fajokon belül a mért értékek milyen eloszlást követnek. Az eloszlások ismeretében csak annak feltételes valószínűségét tudjuk meghatározni, hogy a mért értékeket feltéve mennyi a valószínűsége annak, hogy a patkány egy adott fajba tartozott, ami a csoportba tartozás indikátor változójának a várható értéke. Ha tudnánk, hogy melyik patkány milyen fajba tartozik, egyszerűen vennénk a relatív gyakoriságokat, és ezek adnák a paraméterek maximum likelihood becslését. Most azonban csak a csoportba tartozás feltételes várható értékét tudjuk, ezért a gyakoriságok számolásánál ezzel a valószínűséggel súlyozzuk az adott csoportba tartozások számát. Egy egyed esetében tehát nem vagyunk biztosak benne, hogy hová tartozik és ezért nem egy egyest adunk ahhoz a csoporthoz tartozó mintából vett gyakorisághoz, amelyik csoporthoz tartozik, hanem ezt az egyest szétosztjuk az összes csoport között annak arányában, hogy mennyi az egyed odatartozásának valószínűsége feltéve a méréseink eredményét. Így a gyakoriság már nem egész lesz, hanem tetszőleges valós szám. Persze a feltételes valószínűség számolásához ismernünk kellene a paramétereket. Ezen az önmagába visszakanyarodó problámán úgy tudunk úrrá lenni, hogy veszünk egy kiindulási paramétert, amivel elvégezzük a számolást, majd az így kapott új paraméterekkel megismételjük, amíg a paraméterértékek állandósulnak. Ez az EM algoritmus. A konvergenciát az EM algoritmus tétel biztosítja.
A keverék eloszlásból vett független elemszámú megfigyelhető mintát jelölje
ami a koponyákon mért értékek sorozata. log likelihoodja
Ezt differenciálva a paraméterek szerint, és egynlővé téve nullával kapjuk a
likelihood egyenletet kapjuk, ami általános esetben nehezen oldható meg a paraméterekre.
Ahhoz, hogy hiányos adat problémaként kezelhessük a feladatot vezessük be a hiányzó, illetve rejtett
adatrendszert, ahol egy elemű indikátorváltozó és a koordinátája 1, ha az -edik minta a sűrűségfüggvény szerinti eloszlásból származik. Példánkban ez azt jelenti, hogy az -edik koponya egy -edik fajba tartozó patkányé volt. De néha a változók mögött nem állnak valóságos csoportok, hanem a sűrűség ilyen felbontása csak egy elméleti segédeszköz ahhoz, hogy a problémát az EM algoritmus keretei közé helyezhessük.
Ha a változók megfigyelhetőek lennének, akkor becslése egyszerűen
volna, ami a sűrűség -edik komponenséből származó minta részaránya. Amint az előző példában is, az EM algoritmus a megfigyelhető minta szerinti feltételes várható értéken keresztül veszi figyelembe a hiányzó adatokat. Legyen a teljes adatrendszer ennek megfelelően a hiányos adatrendszer kiegészítve a hiányzó adatrendszerrel:
A teljes adatrendszer log likelihoodja polinomiális alakú:
ahol
ami nem függ a paraméterektől. Mivel ez a kifejezés lineáris adatokban, ezért az EM algoritmusban szereplő feltételes várható értékhez egyszerűen csak kell venni feltételes várható értékét a megfigyelt adatok mellett. Ahol a valószínűségi változó eloszlásából származik. Ki kell tehát számolni a feltételes várható értéket, amlely
Láttuk korábban, hogy minden esetben, amikor a két változónak van sűrűségfüggvénye, akkor a feltételes várható értéket az együttes sűrűségfüggvény és a feltételben álló változó marginális sűrűségfüggvényének hányadosa szerint kell venni. Az együttes sűrűségfüggvény a pontban , az pontban pedig a marginális sűrűség Ezért a feltételes várható érték
Ez tulajdonképpen a Bayes tétel sűrűségfüggvényekre vonatkozó alakja, mert és ezért
vagy feltételes sűrűségfüggvényekkel kifejezve
mert az előző egyenletben a bal oldal csak az értékétől függ, ugyanis elemei egymástól függetlenek. A maximalizációs lépés a már felírt relatív gyakoriságok számolása lesz, csak éppen az adott csoporthoz tartozás feltételes várható értékeinek kell venni a relatív gyakoriságát. Összefoglalva, az előző paraméterek ismeretében a következő paramétereket a
egyenlet definiálja.
Az EM algoritmus tétel biztosítja a konvergenciát a hiányos adatrendszer likelihoodjának egy stacionárius pontjához, de ebben az esetben be is bizonyítható, hogy az EM algoritmus tényleg a likelihood egyenlet megoldásához konvergál. Ha a likelihood egyenlet megoldása, akkor a paraméter helyébe a paramétert helyettesítve és a likelihood egyenlet mindkét oldalát beszorozva paraméterrel, ahol az index és között változik, akkor a
egyenletet kapjuk. Az egyenlet esetén is fennál, ezért összegezhetjük minden -re, ami a
egyenletre vezet. Azaz
Ezt visszahelyettesítve az első egyenletbe, azt kapjuk, hogy
ami azt jelenti, hogy megoldása az EM algoritmus által adott iterációnak, vagyis az EM algoritmus optimális paraméterhez konvergál.
További részletek és numerikus példa található a [4] könyvben.
Temesi Róbert 2010-08-16