]> Maximum Likelihood
  1. Virtual Laboratories
  2. 6. Pontbecslések
  3. 1
  4. 2
  5. 3
  6. 4
  7. 5
  8. 6

3. Maximum likelihood módszer

Elméleti alapok

Tegyük fel ismét, hogy van egy megfigyelhető X valószínűségi változónk egy kísérletből; a valószínűségi változó S halmazbeli értékeket vesz fel. Tegyük fel még, hogy X eloszlása függ egy ismeretlen θ paramétertől, ami Θ paramétertérbeli értékeket vesz fel. Speciálisan, jelöljük X sűrűségfüggvényét S felett f θ -val θ Θ esetén. Természetesen az X változónk majdnem mindig vektor értékű. A θ paraméter szintén lehet vektor értékű.

Az L likelihood függvény az a függvény, amit úgy kapunk, hogy a sűrűségfüggvényben felcseréljük x és θ szerepét, azaz θ -t tekintjük a változónak és x -et az adott információnak (becslés esetén pontosan ez a lényeg):

L x θ f θ x ,  θ Θ ,  x S .

A maximum likelihood módszer esetén megkísérlünk egy u x értéket találni a θ paraméterhez, ami maximalizálja L x θ -t minden x S esetén. Ha ezt meg tudjuk tenni, akkor az u X statisztikát a θ maximum likelihood becslésének hívjuk. A módszer ránézésre megfelelő -- megpróbálunk olyan paraméterértékeket találni, amelyek a legnagyobb valószínűséggel vezetnek a ténylegesen megfigyelt adatokhoz.

Mivel a természetes logaritmus függvény szigorúan monoton nő, L x θ maximuma, ha létezik, ugyanott van, ahol L x θ maximuma. Ez utóbbi függvényt hívjuk log likelihood függvénynek és sok esetben könnyebb dolgozni vele, mint a likelihood függvénnyel (tipikusan mivel az f θ x sűrűségfüggvény szorzat alakú).

Paramétervektorok

Fontos speciális eset, mikor θ θ 1 θ 2 θ k k valós paraméterből álló vektor, vagyis Θ k . Ebben az esetben a maximum likelihood probléma egy többváltozós függvény maximalizálása. Ha Θ egy folytonos halmaz, akkor az analízis módszerei használhatók. Ha L x maximumát egy θ pontban veszi fel, ami Θ belsejébe esik, akkor L x -nek lokális maximuma van θ -ban. Eszerint, feltételezve, hogy a likelihood függvény differenciálható, ezt a pontot a következő egyenletrendszer megoldásával kaphatjuk meg:

θ i L x θ 0 ,  i 1 2 k

vagy ekvivalensen

θ i L x θ 0 ,  i 1 2 k

Másrészről a maximum lehet Θ egy határpontján, vagy egyáltalán nem létezik.

Véletlen minta

Következőként tekintsük azt az esetet, amikor az eredményváltozónk X X 1 X 2 X n egy n elemű véletlen minta az X valószínűségi változó eloszlásából, ami R -beli értékeket vesz fel, és g θ ,  θ Θ a sűrűségfüggvénye. Ekkor X S R n -beli értékeket vesz fel, és X együttes sűrűségfüggvénye a marginális sűrűségfüggvények szorzata. Ebben a speciális esetben a likelihood függvény:

L x θ i 1 n g θ x i ,  x x 1 x 2 x n S ,  θ Θ

és emiatt a log likelihood függvény:

L x θ i 1 n g θ x i ,  x x 1 x 2 x n S ,  θ Θ

Példák és speciális esetek

A következőkben klasszikus esetekre vizsgáljuk a maximum likelihood becslést.

A Bernoulli eloszlás

Tegyük fel, hogy van egy pénzérménk, a fej valószínűsége legyen ismeretlen, p . Feldobjuk az érmét n alkalommal és feljegyezzük a fejek és írások sorozatát. Így az X X 1 X 2 X n adatok egy n elemű p paraméterű Bernoulli eloszlású véletlen mintát alkotnak. Jelölje

Y i 1 n X i

a fejek számát, azaz a fejek aránya (a mintaátlag)

M Y n

Tegyük fel, hogy p a 0 1 intervallumon változik. Mutassuk meg, hogy M a p maximum likelihood becslése! Emlékeztetünk arra, hogy p -re a momentumok módszerével kapott becslés is M .

Tegyük fel, hogy az érme vagy szabályos, vagy mindkét oldala fej, így p az 12 1 értékeket veheti fel. Mutassuk meg, hogy p maximum likelihod becslése az alábbi statisztika, és értelmezzük az eredményt:

U 1 Y n 12 Y n

Az 1. és 2. feladatok azt mutatják, hogy egy paraméter maximum likelihood becslése, mint minden maximalizálási feladat megoldása, kritikus mértékben függ az értelmezési tartománytól.

Mutassuk meg, hogy

  1. U 1 p 1 12 12 n 1 p 12
  2. U torzított, de aszimptotikusan torzítatlan!

Mutassuk meg, hogy

  1. MSE U 0 p 1 12 n 2 p 12
  2. U konzisztens!

Mutassuk meg, hogy U egyenletesen jobb, mint M az 12 1 paramétertéren!

Egyéb alapeloszlások

A következő feladatokban felidézzük, hogy ha X X 1 X 2 X n egy véletlen minta egy μ várható értékű és σ 2 szórásnégyzetű eloszlásból, akkor μ és σ 2 momentumok módszerével kapott becslései

M 1 n i 1 n X i ,  T 2 1 n i 1 n X i M 2

Természetesen M a mintaátlag, és T 2 n 1 n S 2 , ahol S 2 a korrigált tapasztlati szórásnégyzet. A következő feladatokban néhány eloszláscsalád esetén kiszámítjuk ezen paraméterek maximum likelihood becslését.

Tegyük fel, hogy X X 1 X 2 X n egy ismeretlen a 0 paraméterű Poisson eloszlásból származó véletlen minta. Mutassuk meg, hogy a maximum likelihood becslése az M mintaátlag! Emlékeztetünk arra, hogy Poisson eloszlás esetén az a paraméter a várható érték és a szórásnégyzet is.

Tegyük fel, hogy X X 1 X 2 X n egy ismeretlen μ várható értékű és σ 2 0 szórásnégyzetű normális eloszlásból származó véletlen minta. Mutassuk meg, hogy μ és σ 2 maximum likelihood becslései M és T 2 .

Tegyük fel, hogy X X 1 X 2 X n ismert k alakparaméterű és ismeretlen b 0 skálaparaméterű gamma eloszlásból származó véletlen minta.

  1. Mutassuk meg, hogy b momentumok módszerével nyert becslése W M k .
  2. Mutassuk meg, hogy W a b maximum likelihood becslése is!

Futtassuk a gamma becslés kísérletet ezerszer, tízes frissítési gyakorisággal, néhány különböző n mintanagyságra, k alakparaméterre, és b skálaparaméterre! Mindegyik esetben hasonlítsuk össze b momentumok módszerével kapott V becslését, amikor k ismeretlen, és b momentumok módszerével és a maximum likelihood módszerrel kapott W becslését, amikor k ismert! Az átlagos négyzetes hiba alapján melyik a jobb becslés?

Tegyük fel, hogy X X 1 X 2 X n egy a 0 bal-paraméterű és b 1 jobb-paraméterű béta eloszlásból származó véletlen minta. Mutassuk meg, hogy a maximum likelihood becslése

V n i 1 n X i

Futtassuk a béta becslés kísérletet ezerszer, tízes frissítési gyakorisággal, néhány különböző n mintanagyságra és a paraméterre! Mindegyik esetben hasonlítsuk össze a momentumok módszerével kapott U becslést a maximum likelihood módszerrel kapott V becsléssel! Az átlagos négyzetes hiba alapján melyik a jobb becslés?

Tegyük fel, hogy X X 1 X 2 X n egy a 0 paraméterű Pareto eloszlásból származó véletlen minta. Mutassuk meg, hogy a maximum likelihood becslése

V n i 1 n X i

Futtassuk a Pareto becslés kísérletet ezerszer, tízes frissítési gyakorisággal, néhány különböző n mintanagyságra és a paraméterre! Mindegyik esetben hasonlítsuk össze a momentumok módszerével kapott U becslést a maximum likelihood módszerrel kapott V becsléssel! Az átlagos négyzetes hiba alapján melyik a jobb becslés?

Egyenletes eloszlások

Ebben a részben két becslési problémát fogunk tanulmányozni, amelyek jó ellenpéldaként rávilágítanak a becslés lényegére. Bizonyos értelemben az első becslési problémánk a folytonos analógiája a Véges mintavételezési modellek fejezet Rendezett statisztikák részében tanulmányozott becslési problémának. Tegyük fel, hogy X X 1 X 2 X n egy, a 0 a intervallumon egyenletes eloszlásból származó véletlen minta, ahol a 0 ismeretlen paraméter.

Mutassuk meg, hogy az a momentumok módszerével kapott becslése U 2 M .

Mutassuk meg, hogy

  1. U torzítatlan!
  2. U a 2 3 n , így U konzisztens!

Mutassuk meg, hogy az a maximum likelihood becslése X n n , az n -edik rendstatisztika!

Mutassuk meg, hogy

  1. X n n n n 1 a
  2. bias X n n a n 1 , azaz X n n negatívan torzított, de aszimptotikusan torzítatlan!

Mutassuk meg, hogy

  1. X n n n n 2 n 1 2 a 2
  2. MSE X n n 2 n 1 n 2 a 2 , azaz X n n konzisztens!

Legyen V n 1 n X n n .

Mutassuk meg, hogy

  1. V torzítatlan!
  2. V a 2 n n 2 , azaz V konzisztens!

Mutassuk meg, hogy V U -hoz viszonyított aszimptotikus relatív hatékonysága végtelen!

Az utolsó feladat azt mutatja, hogy V sokkal jobb becslés, mint U ; egy olyan becslést mint V , amelynek átlagos négyzetes hibája 1 n 2 rendben csökkenő, szuperhatékonynak nevezünk. Most, hogy találtunk egy igazán jó becslést, nézzük, találunk-e egy igazán rosszat. Természetes jelölt egy olyan becslés, ami X n 1 -en, az első rendstatisztikán alapul.

Mutassuk meg, hogy

  1. ha X egyenletes eloszlású 0 a -n, akkor a X is az!
  2. a X 1 a X 2 a X n szintén véletlen minta a 0 a -n egyenletes eloszlásból!
  3. X n 1 eloszlása megegyezik a X n n eloszlásával!

Mutassuk meg, hogy X n 1 a n 1 , és emiatt W n 1 X n 1 torzítatlan!

Mutassuk meg, hogy W n n 2 a 2 , így W még csak nem is konzisztens!

Futtassuk a egyenletes becslés kísérletetet ezerszer, tízes frissítési gyakorisággal, néhány különböző n mintanagyságra és a paraméterre! Minden esetben hasonlítsuk össze a becslések tapasztalati torzítását és átlagos négyzetes hibáját az elméleti értékeikkel! Rangsoroljuk a becsléseket az átlagos négyzetes hibájuk alapján!

A következő példák során megmutatjuk, hogy a maximum likelihood becslés nem szükségszerűen egyedi. Tegyük fel, hogy X X 1 X 2 X n egy, az a a 1 intervallumon egyenletes eloszlásból származó véletlen minta, ahol a ismeretlen paraméter.

Mutassuk meg, hogy a momentumok módszerével kapott becslése U M 12 .

Mutassuk meg, hogy

  1. U torzítatlan!
  2. U 1 12 n , így U konzisztens!

Mutassuk meg, hogy minden V X n n 1 X n 1 statisztika az a maximum likelihood becslése!

Az invariáns tulajdonság

Visszatérve az eredeti felállásra, tegyük fel, hogy h egy kölcsönösen egyértelmű leképezése a Θ paramétertérnek a Λ halmazra. λ h θ -t tekinthetjük, mint egy új paramétert, ami Λ térbeli értékeket vesz fel, és a sűrűségfüggvényt könnyen átparaméterezhetjük az új paraméterre. Így legyen:

f λ x f h λ x ,  x S ,  λ Λ

A megfelelő likelihood függvény:

L x λ L x h λ ,  λ Λ ,  x S

Tegyük fel, hogy u x Θ maximalizálja L x -et x S esetén. Mutassuk meg, hogy h u x Λ maximalizálja L x -t x S esetén!

A 28. feladatból következik, hogy ha U a θ maximum likelihood becslése, akkor V h U a λ h θ maximum likelihood becslése. Ez az eredmény mint invariáns tulajdonság ismert.

Tegyük fel, hogy X X 1 X 2 X n egy a 0 paraméterű Poisson eloszlásból származó véletlen minta, és legyen p X i 0 a . Keressük meg p maximum likelihood becslését kétféleképpen:

  1. közvetlenül, a p paraméterhez tartozó likelihood függvény megkeresésével!
  2. felhasználva a 6. feladat eredményét és az invariáns tulajdonságot!

Ha a h függvény nem kölcsönösen egyértelmű, a λ h θ paramétervektorra vonatkozó maximum likelihood probléma nem jól definiált, mivel nem tudjuk a sűrűségfüggvényt paraméterezni λ segítségével. Ebben az esetben is létezik azonban a maximum likelihood problémának egy természetes általánosítása. Legyen

L x λ L x θ <és /> θ Θ h θ λ ,  λ Λ ,  x S

Tegyük fel ismét, hogy u x Θ maximalizálja L x -et x S esetén. Mutassuk meg, hogy h u x Λ maximalizálja L x -t x S esetén!

Az utolsó feladat eredménye kiterjeszti az invariáns tulajdonságot a paraméter több-az-egyhez transzformációjára: ha U a θ maximum likelihood becslése, akkor V h U maximum likelihood becslés λ h θ -ra.

Tegyük fel, hogy X X 1 X 2 X n egy n elemű, Bernoulli eloszlásból származó véletlen minta, ismeretlen p 0 1 paraméterrel. Keressük meg p 1 p (az eloszlás szórásnégyzete) maximum likelihood becslését!

Tegyük fel, hogy X X 1 X 2 X n egy ismeretlen μ várható értékű és σ 2 0 szórásnégyzetű normális eloszlásból származó véletlen minta. Keressük meg μ 2 σ 2 (az eloszlás második momentuma 0 körül) maximum likelihood becslését!