Maximum Likelihood

Tegyük fel ismét, hogy van egy megfigyelhető

X

valószínűségi változónk egy kísérletből; a valószínűségi változó

S

halmazbeli értékeket vesz fel. Tegyük fel még, hogy

X

eloszlása függ egy ismeretlen

θ

paramétertől, ami

Θ

paramétertérbeli értékeket vesz fel. Speciálisan, jelöljük

X

sűrűségfüggvényét

S

felett

f θ

-val

θ Θ

esetén. Természetesen az

X

változónk majdnem mindig vektor értékű. A

θ

paraméter szintén lehet vektor értékű.

L

likelihood függvény az a függvény, amit úgy kapunk, hogy a sűrűségfüggvényben felcseréljük

x

és

θ

szerepét, azaz

θ

-t tekintjük a változónak és

x

-et az adott információnak (becslés esetén pontosan ez a lényeg):

A maximum likelihood módszer esetén megkísérlünk egy

u x

értéket találni a

θ

paraméterhez, ami maximalizálja

L x θ

-t minden

x S

esetén. Ha ezt meg tudjuk tenni, akkor az

u X

statisztikát a

θ

maximum likelihood becslésének hívjuk. A módszer ránézésre megfelelő -- megpróbálunk olyan paraméterértékeket találni, amelyek a legnagyobb valószínűséggel vezetnek a ténylegesen megfigyelt adatokhoz.

Mivel a természetes logaritmus függvény szigorúan monoton nő,

L x θ

maximuma, ha létezik, ugyanott van, ahol

L x θ

maximuma. Ez utóbbi függvényt hívjuk log likelihood függvénynek és sok esetben könnyebb dolgozni vele, mint a likelihood függvénnyel (tipikusan mivel az

f θ x

sűrűségfüggvény szorzat alakú).

Paramétervektorok

Fontos speciális eset, mikor

θ θ 1 θ 2 θ k

k

valós paraméterből álló vektor, vagyis

Θ k

. Ebben az esetben a maximum likelihood probléma egy többváltozós függvény maximalizálása. Ha

Θ

egy folytonos halmaz, akkor az analízis módszerei használhatók. Ha

L x

maximumát egy

θ

pontban veszi fel, ami

Θ

belsejébe esik, akkor

L x

-nek lokális maximuma van

θ

-ban. Eszerint, feltételezve, hogy a likelihood függvény differenciálható, ezt a pontot a következő egyenletrendszer megoldásával kaphatjuk meg:

Másrészről a maximum lehet

Θ

egy határpontján, vagy egyáltalán nem létezik.

Véletlen minta

Következőként tekintsük azt az esetet, amikor az eredményváltozónk

X X 1 X 2 X n

egy

n

elemű véletlen minta az

X

valószínűségi változó eloszlásából, ami

R

-beli értékeket vesz fel, és

g θ, θ Θ

a sűrűségfüggvénye. Ekkor

X

S R n

-beli értékeket vesz fel, és

X

együttes sűrűségfüggvénye a marginális sűrűségfüggvények szorzata. Ebben a speciális esetben a likelihood függvény:

Példák és speciális esetek

A következőkben klasszikus esetekre vizsgáljuk a maximum likelihood becslést.

A Bernoulli eloszlás

Tegyük fel, hogy van egy pénzérménk, a fej valószínűsége legyen ismeretlen,

p

. Feldobjuk az érmét

n

alkalommal és feljegyezzük a fejek és írások sorozatát. Így az

X X 1 X 2 X n

adatok egy

n

elemű

p

paraméterű Bernoulli eloszlású véletlen mintát alkotnak. Jelölje

Tegyük fel, hogy $p$ a $01$ intervallumon változik. Mutassuk meg, hogy $M$ a $p$ maximum likelihood becslése! Emlékeztetünk arra, hogy $p$ -re a momentumok módszerével kapott becslés is $M$ .

Tegyük fel, hogy az érme vagy szabályos, vagy mindkét oldala fej, így $p$ az $1 2 1$ értékeket veheti fel. Mutassuk meg, hogy $p$ maximum likelihod becslése az alábbi statisztika, és értelmezzük az eredményt:

U 1 Y n 1 2 Y n

Az 1. és 2. feladatok azt mutatják, hogy egy paraméter maximum likelihood becslése, mint minden maximalizálási feladat megoldása, kritikus mértékben függ az értelmezési tartománytól.

Mutassuk meg, hogy

$U 1 p 1 1 2 1 2 n 1 p 1 2$
$U$ torzított, de aszimptotikusan torzítatlan!

Mutassuk meg, hogy

$MSE U 0 p 1 1 2 n 2 p 1 2$
$U$ konzisztens!

Mutassuk meg, hogy $U$ egyenletesen jobb, mint $M$ az $1 2 1$ paramétertéren!

Egyéb alapeloszlások

A következő feladatokban felidézzük, hogy ha

X X 1 X 2 X n

egy véletlen minta egy

μ

várható értékű és

σ 2

szórásnégyzetű eloszlásból, akkor

μ

és

σ 2

momentumok módszerével kapott becslései

Természetesen

M

a mintaátlag, és

T 2 n 1 n S 2

, ahol

S 2

a korrigált tapasztlati szórásnégyzet. A következő feladatokban néhány eloszláscsalád esetén kiszámítjuk ezen paraméterek maximum likelihood becslését.

Tegyük fel, hogy $X X 1 X 2 X n$ egy ismeretlen $a 0$ paraméterű Poisson eloszlásból származó véletlen minta. Mutassuk meg, hogy $a$ maximum likelihood becslése az $M$ mintaátlag! Emlékeztetünk arra, hogy Poisson eloszlás esetén az $a$ paraméter a várható érték és a szórásnégyzet is.

Tegyük fel, hogy $X X 1 X 2 X n$ egy ismeretlen $μ$ várható értékű és $σ 2 0$ szórásnégyzetű normális eloszlásból származó véletlen minta. Mutassuk meg, hogy $μ$ és $σ 2$ maximum likelihood becslései $M$ és $T 2$ .

Tegyük fel, hogy $X X 1 X 2 X n$ ismert $k$ alakparaméterű és ismeretlen $b 0$ skálaparaméterű gamma eloszlásból származó véletlen minta.

Mutassuk meg, hogy $b$ momentumok módszerével nyert becslése $W M k$ .
Mutassuk meg, hogy $W$ a $b$ maximum likelihood becslése is!

Futtassuk a gamma becslés kísérletet ezerszer, tízes frissítési gyakorisággal, néhány különböző $n$ mintanagyságra, $k$ alakparaméterre, és $b$ skálaparaméterre! Mindegyik esetben hasonlítsuk össze $b$ momentumok módszerével kapott $V$ becslését, amikor $k$ ismeretlen, és $b$ momentumok módszerével és a maximum likelihood módszerrel kapott $W$ becslését, amikor $k$ ismert! Az átlagos négyzetes hiba alapján melyik a jobb becslés?

Tegyük fel, hogy $X X 1 X 2 X n$ egy $a 0$ bal-paraméterű és $b 1$ jobb-paraméterű béta eloszlásból származó véletlen minta. Mutassuk meg, hogy $a$ maximum likelihood becslése

V n i 1 n X i

Futtassuk a béta becslés kísérletet ezerszer, tízes frissítési gyakorisággal, néhány különböző $n$ mintanagyságra és $a$ paraméterre! Mindegyik esetben hasonlítsuk össze a momentumok módszerével kapott $U$ becslést a maximum likelihood módszerrel kapott $V$ becsléssel! Az átlagos négyzetes hiba alapján melyik a jobb becslés?

Tegyük fel, hogy $X X 1 X 2 X n$ egy $a 0$ paraméterű Pareto eloszlásból származó véletlen minta. Mutassuk meg, hogy $a$ maximum likelihood becslése

V n i 1 n X i

Futtassuk a Pareto becslés kísérletet ezerszer, tízes frissítési gyakorisággal, néhány különböző $n$ mintanagyságra és $a$ paraméterre! Mindegyik esetben hasonlítsuk össze a momentumok módszerével kapott $U$ becslést a maximum likelihood módszerrel kapott $V$ becsléssel! Az átlagos négyzetes hiba alapján melyik a jobb becslés?

Egyenletes eloszlások

Ebben a részben két becslési problémát fogunk tanulmányozni, amelyek jó ellenpéldaként rávilágítanak a becslés lényegére. Bizonyos értelemben az első becslési problémánk a folytonos analógiája a Véges mintavételezési modellek fejezet Rendezett statisztikák részében tanulmányozott becslési problémának. Tegyük fel, hogy

X X 1 X 2 X n

egy, a

0 a

intervallumon egyenletes eloszlásból származó véletlen minta, ahol

a 0

ismeretlen paraméter.

Mutassuk meg, hogy az $a$ momentumok módszerével kapott becslése $U 2 M$ .

Mutassuk meg, hogy

$U$ torzítatlan!
$U a 2 3 n$ , így $U$ konzisztens!

Mutassuk meg, hogy az $a$ maximum likelihood becslése $X n n$ , az $n$ -edik rendstatisztika!

Mutassuk meg, hogy

$X n n n n 1 a$
$bias X n n a n 1$ , azaz $X n n$ negatívan torzított, de aszimptotikusan torzítatlan!

Mutassuk meg, hogy

$X n n n n 2 n 1 2 a 2$
$MSE X n n 2 n 1 n 2 a 2$ , azaz $X n n$ konzisztens!

Mutassuk meg, hogy

$V$ torzítatlan!
$V a 2 n n 2$ , azaz $V$ konzisztens!

Mutassuk meg, hogy $V$ $U$ -hoz viszonyított aszimptotikus relatív hatékonysága végtelen!

Az utolsó feladat azt mutatja, hogy

V

sokkal jobb becslés, mint

U

; egy olyan becslést mint

V

, amelynek átlagos négyzetes hibája

1 n 2

rendben csökkenő, szuperhatékonynak nevezünk. Most, hogy találtunk egy igazán jó becslést, nézzük, találunk-e egy igazán rosszat. Természetes jelölt egy olyan becslés, ami

X n 1

-en, az első rendstatisztikán alapul.

Mutassuk meg, hogy

ha $X$ egyenletes eloszlású $0 a$ -n, akkor $a X$ is az!
$a X 1 a X 2 a X n$ szintén véletlen minta a $0 a$ -n egyenletes eloszlásból!
$X n 1$ eloszlása megegyezik $a X n n$ eloszlásával!

Mutassuk meg, hogy $X n 1 a n 1$ , és emiatt $W n 1 X n 1$ torzítatlan!

Mutassuk meg, hogy $W n n 2 a 2$ , így $W$ még csak nem is konzisztens!

Futtassuk a egyenletes becslés kísérletetet ezerszer, tízes frissítési gyakorisággal, néhány különböző $n$ mintanagyságra és $a$ paraméterre! Minden esetben hasonlítsuk össze a becslések tapasztalati torzítását és átlagos négyzetes hibáját az elméleti értékeikkel! Rangsoroljuk a becsléseket az átlagos négyzetes hibájuk alapján!

A következő példák során megmutatjuk, hogy a maximum likelihood becslés nem szükségszerűen egyedi. Tegyük fel, hogy

X X 1 X 2 X n

egy, az

a a 1

intervallumon egyenletes eloszlásból származó véletlen minta, ahol

a

ismeretlen paraméter.

Mutassuk meg, hogy $a$ momentumok módszerével kapott becslése $U M 1 2$ .

Mutassuk meg, hogy

$U$ torzítatlan!
$U 1 12 n$ , így $U$ konzisztens!

Mutassuk meg, hogy minden $V X n n 1 X n 1$ statisztika az $a$ maximum likelihood becslése!

Az invariáns tulajdonság

Visszatérve az eredeti felállásra, tegyük fel, hogy

h

egy kölcsönösen egyértelmű leképezése a

Θ

paramétertérnek a

Λ

halmazra.

λ h θ

-t tekinthetjük, mint egy új paramétert, ami

Λ

térbeli értékeket vesz fel, és a sűrűségfüggvényt könnyen átparaméterezhetjük az új paraméterre. Így legyen:

Tegyük fel, hogy $u x Θ$ maximalizálja $L x$ -et $x S$ esetén. Mutassuk meg, hogy $h u x Λ$ maximalizálja $L x$ -t $x S$ esetén!

A 28. feladatból következik, hogy ha

U

θ

maximum likelihood becslése, akkor

V h U

λ h θ

maximum likelihood becslése. Ez az eredmény mint invariáns tulajdonság ismert.

Tegyük fel, hogy $X X 1 X 2 X n$ egy $a 0$ paraméterű Poisson eloszlásból származó véletlen minta, és legyen $p X i 0 a$ . Keressük meg $p$ maximum likelihood becslését kétféleképpen:

közvetlenül, a $p$ paraméterhez tartozó likelihood függvény megkeresésével!
felhasználva a 6. feladat eredményét és az invariáns tulajdonságot!

Ha a

h

függvény nem kölcsönösen egyértelmű, a

λ h θ

paramétervektorra vonatkozó maximum likelihood probléma nem jól definiált, mivel nem tudjuk a sűrűségfüggvényt paraméterezni

λ

segítségével. Ebben az esetben is létezik azonban a maximum likelihood problémának egy természetes általánosítása. Legyen

Tegyük fel ismét, hogy $u x Θ$ maximalizálja $L x$ -et $x S$ esetén. Mutassuk meg, hogy $h u x Λ$ maximalizálja $L x$ -t $x S$ esetén!

Az utolsó feladat eredménye kiterjeszti az invariáns tulajdonságot a paraméter több-az-egyhez transzformációjára: ha

U

θ

maximum likelihood becslése, akkor

V h U

maximum likelihood becslés

λ h θ

-ra.

Tegyük fel, hogy $X X 1 X 2 X n$ egy $n$ elemű, Bernoulli eloszlásból származó véletlen minta, ismeretlen $p 01$ paraméterrel. Keressük meg $p 1 p$ (az eloszlás szórásnégyzete) maximum likelihood becslését!

Tegyük fel, hogy $X X 1 X 2 X n$ egy ismeretlen $μ$ várható értékű és $σ 2 0$ szórásnégyzetű normális eloszlásból származó véletlen minta. Keressük meg $μ 2 σ 2$ (az eloszlás második momentuma 0 körül) maximum likelihood becslését!

3. Maximum likelihood módszer

Elméleti alapok

Paramétervektorok

Véletlen minta

Példák és speciális esetek

A Bernoulli eloszlás

Egyéb alapeloszlások

Egyenletes eloszlások

Az invariáns tulajdonság