Becslések

Szokás szerint, a kiinduló pontunk egy véletlen kísérlet egy hozzá tartozó mintatérrel és egy

valószínűségi mértékkel. Az alap statiszikai modellben van egy megfigyelhető

X

valószínűségi változó , ami

S

halmazbeli értékeket vesz fel. Emlékeztetünk arra, hogy általában ez a változó elég összetett struktúrájú lehet. Például ha a kísérlet egy populáció

n

objektumának mintavételezése, és különböző mérőszámokat jegyzünk fel, akkor az adatvektor a következő formátumú:

ahol

X i

az i-edik objektum mérőszámainak vektora. A legfontosabb speciális eset, amikor

X 1 X 2 X n

függetlenek és azonos eloszlásúak (IID). Ebben az esetben

X

egy

n

elemű véletlen minta az

X

változó eloszlásából.

Statisztikák

A statisztika a véletlen kísérlet eredményváltozójának egy megfigyelhető függvénye:

Így egy statisztika a megfigyelési változóból származtatott

X

valószínűségi változó, azzal a feltételezéssel, hogy

W

szintén megfigyelhető. Ahogy a jelölés mutatja,

W

is jellemzően vektorértékű.

Paraméterek

Általános értelemben egy

θ

paraméter az

X

eloszlás egy függvénye, ami

Θ

paramétertérbeli értékeket vesz fel. Tipikusan

X

eloszlása

k

érdeklődésre számot tartó valós paraméterrel rendelkezik, így

θ

a következő alakú:

és így

Θ k

. Sok esetben egy vagy több paraméter ismeretlen, és az

X

változó alapján kell megbecsülni. Ez a legfontosabb és legalapvetőbb statisztikai probéma és ennek a fejezetnek a témája.

Becslések

Tegyük fel, hogy van egy ismeretlen valós

θ

paraméterünk, ami a

Θ

paramétertérbeli értékeket vesz fel. Egy valós értékű

W W X

statisztikát, amit a

θ

becslésére használunk,

θ

becslésének nevezünk. A becslés egy valószínűségi változó, ezért van eloszlása, várható értéke, szórása, stb. Mikor ténylegesen elvégezzük a kísérletet és megfigyeljük az

x

adatokat, a

w W x

megfigyelt érték (egy darab szám) a

θ

paraméter becslése.

Alaptulajdonságok

A (véletlen) hiba a becslés és a paraméter különbsége:

W θ

. A hiba várható értékét nevezzük torzításnak (bias):

A várható érték alaptulajdonságait felhasználva mutassuk meg, hogy $bias W W θ$

Így a becslés torzítatlan, ha a torzítás 0 minden

θ Θ

esetén, vagyis ha a becsült paraméter becslésének várható értéke:

W θ

minden

θ Θ

esetén. A becslés minőségét rendszerint az átlagos négyzetes hiba (mean square error) kiszámításával mérjük:

A várható érték és a szórásnégyzet alaptulajdonságai felhasználásával mutassuk meg, hogy

MSE W W bias 2 W

Speciálisan, ha a becslés torzítatlan, akkor

W

átlagos négyzetes hibája egyszerűen

W

szórásnégyzete.

Ideális esetben torzítatlan becslést szeretnénk, kis átlagos négyzetes hibával. Ez viszont nem minden esetben lehetséges, és a 2. gyakorlat megmutatja a törékeny kapcsolatot a torzítás és az átlagos négyzetes hiba között. A következő részben példát látunk egy paraméter két becslésére, amik egymás többszöresei; az egyik torzítatlan, viszont a másiknak kisebb az átlagos négyzetes hibája. Ha van két torzítatlan becslésünk

θ

-ra, legyen

U

és

V

, természetesen jobban kedveljük azt, amelyiknek kisebb a szórásnégyzete (átlagos négyzetes hibája). A

V

relatív hatékonysága

U

-ra nézve egyszerűen a szórásnégyzetek hányadosa:

Aszimptotikus tulajdonságok

Gyakran rendelkezünk egy általános képlettel, ami megadja

θ

becslését minden

n

mintanagyságra. Technikailag ez megadja

θ

valós értékű becsléseinek egy sorozatát:

Ebben az esetben vizsgálhatjuk a becslések aszimptotikus tulajdonságait

n

esetén. A legtöbb definíció a fentiek természetes általánosítása. Becslések egy

W n

sorozata aszimptotikusan torzítatlan, ha

Mutassuk meg, hogy $W n$ akkor és csak akkor aszimptotikusan torzítatlan, ha $W n θ$ , ha $n$ minden $θ Θ$ esetén!

Tegyük fel, hogy

U n

és

V n

két becslés sorozat, melyek aszimptotikusan torzítatlanok

θ

-ra nézve. A

V n

aszimptotikus relatív hatékonysága

U n

-re nézve a következő határérték, ha létezik:

Természetesen elvárjuk, hogy valamilyen értelemben a becsléseink javuljanak, ahogy az

n

mintanagyság növekszik. Speciálisan, a becslések

W n

sorozatát

θ

-ra nézve konzisztensnek nevezzük, ha

W n θ

, ahogy

n

. Valószínűséggel kifejezve:

Tegyük fel, hogy $MSE W n 0$ , ha $n$ minden $θ Θ$ esetén! Mutassuk meg, hogy $W n$ konzisztens $θ$ -ra! Útmutatás: Használjuk a Markov egyenlőtlenséget!

A 4. gyakorlatban szereplő feltétel mint átlagos négyzetes konzisztencia ismert. Így az átlagos négyzetes konzisztenciából következik az egyszerű konzisztencia. Ez egyszerűen a statisztikai változata a tételnek, mely szerint az átlagos négyzetes konvergenciából következik a valószínűségbeli konvergencia.

Becslési problémák

A következő néhány szakaszban áttekintünk néhány alap becslési problémát, amiket a Véletlen minták fejezetben már tanulmányoztunk.

Az átlag becslése

Tegyük fel, hogy

X X 1 X 2 X n

n

elemű véletlen minta egy

X

valós értékű valószínűségi változó eloszlásából, aminek átlaga

μ

, szórása

σ

. Az eloszlás

μ

átlagának természetes becslése a mintaközép, amit a következőképpen definiálunk:

Mutassuk meg, hogy

$M μ$ , így $M$ torzítatlan becslése $μ$ -nek!
$M σ 2 n$ , így $M$ konzisztens becslése $μ$ -nek!

A mintaközép kísérletben állítsuk be a mintaeloszlást gamma eloszlásra! A csúszka segítségével növeljük a mintanagyságot, és figyeljük meg a torzítatlan és konzisztens tulajdonságot grafikusan és numerikusan! Futtassuk a kísérletet ezerszer, tízes frissítési gyakorisággal!

Futtassuk a normális eloszlás becslése kísérletet ezerszer, tízes frissítési gyakorisággal, a paraméterek néhány értékére! Minden esetben hasonlítsuk össze $M n$ empirikus torzítását és átlagos négyzetes hibáját az elméleti értékekkel!

M n

mintaközépnek, mint az eloszlás

μ

várható értéke becslésének konzisztenciája egyszerűen a nagy számok gyenge törvénye. Továbbá az 5. gyakorlat eredményeinek számos fontos speciális esete van. Lásd a Mintaközép fejezetet a részletekért!

Az egyezési kísérletben a valószínűségi változó az egyezések száma. Futtassuk a szimulációt ezerszer, tízes frissítési gyakorisággal, és figyeljük meg a szemmel látható konvergenciát

a mintaközép tart a várható értékhez!
a tapasztalati sűrűségfüggvény tart a sűrűségfüggvényhez!

A szórásnégyzet becslése

Mint az előző szakaszban, tegyük fel, hogy

X X 1 X 2 X n

egy

n

elemű véletlen minta egy

X

valós értékű valószínűségi változó eloszlásából, aminek várható értéke

μ

és szórása

σ

. Szintén feltételezzük, hogy a negyedik centrális momentum

d 4 X μ 4

véges.

Ha a

μ

ismert (rendszerint valamilyen mesterséges feltételezés alapján), akkor a

σ 2

természetes becslése a tapasztalati szórásnégyzet egy speciális formája, ami a következőképpen definiált:

Mutassuk meg, hogy

$W 2 σ 2$ , így $W 2$ a $σ 2$ torzítatlan becslése!
$W 2 1 n d 4 σ 4$ , így $W 2$ a $σ 2$ konzisztens becslése!

μ

ismeretlen (ez az elfogadhatóbb feltételezés), akkor a szórásnégyzet természetes becslése a korrigált tapasztalati szórásnégyzet, ami a következő:

Mutassuk meg, hogy

$S 2 σ 2$ , így $S 2$ a $σ 2$ torzítatlan becslése!
$S 2 1 n d 4 n 3 n 1 σ 4$ , így $S 2$ a $σ 2$ konzisztens becslése!

Futtassuk az exponenciális kísérletet ezerszer, tízes frissítési gyakorisággal! Figyeljük meg a minta szórásának szemmel látható konvergenciáját az eloszlás szórásához!

Mutassuk meg, hogy

$W 2 S 2$ ! Eszerint $W 2$ jobb, mint $S 2$ , feltételezve, hogy $μ$ ismert, így ténylegesen felhasználhatjuk $W 2$ -et.
az $S 2$ aszimptotikus relatív hatékonysága $W 2$ -hez 1!

Futtassuk a normális eloszlás becslése kísérletet ezerszer, tízes frissítési gyakorisággal, a paraméterek néhány értékére! Hasonlítsuk össze minden esetben $S 2$ és $W 2$ tapasztalati torzítását és átlagos négyzetes hibáját az elméleti értékeikkel! Melyik tűnik jobbnak?

A Poisson eloszlás

Példaként az utóbbi két szakaszban szereplő elvekre, tegyük fel, hogy

X

Poisson eloszlású ismeretlen

a 0

paraméterrel. Ekkor

X X a

, így vagy az

M

mintaátlagot vagy az

S 2

korrigált tapasztalati szórásnégyzetet használhatjuk

a

becslésére. Mindkettő torzítatlan, de melyik a jobb? Természetesen az átlagos négyzetes hibát használjuk kritériumként.

Mutassuk meg, hogy

$X a$
$X 2 a 2 a$
$X 3 a 3 3 a 2 a$
$X 4 a 4 6 a 3 7 a 2 a$
$d 4 3 a 2 a$

Mutassuk meg, hogy

$M a n$
$S 2 a n 1 2 a n n 1$
$M S 2$ , vagyis az $M$ mintaközép jobb becslése az $a$ paraméternek, mint az $S 2$ minta szórásnégyzet.
$M$ aszimptotikus relatív hatékonysága $S 2$ -hez viszonyítva $1 2 a$

Futtassuk a Poisson kísérletet százszor, minden futásnál frissítve, a paraméter néhány értékére! Számítsuk ki $M$ és $S 2$ becsléseit minden esetben! Melyik becslés jobb?

A kovariancia becslése

Tegyük fel, hogy

X 1 Y 1 X 2 Y 2 X n Y n

egy

n

elemű véletlen minta az

X Y

eloszlásaiból, ahol

X

egy valós értékű valószínűségi változó

μ

várható értékkel és

σ

szórással, és

Y

is egy valós értékű valószínűségi változó

ν

várható értékkel és

τ

szórással. Jelöljük

δ

-val

X Y

kovarianciáját. Szokás szerint legyen

X X 1 X 2 X n

és

Y Y 1 Y 2 Y n

n

elemű véletlen minták az

X

és

Y

eloszlásaiból.

μ

és

ν

ismertek (ami egy mesterséges feltételezés), a

δ

kovarianca természetes becslése a minta kovariancia egy speciális verziója, amit a következőképpen definiálunk:

Mutassuk meg, hogy

$W δ$ , így $W$ a $δ$ torzítatlan becslése!
$W$ $δ$ konzisztens becslése!

μ

és

ν

ismeretlenek (ez az elfogadhatóbb feltételezés), akkor a

δ

kovariancia természetes becslése a minta kovariancia szokásos verziója, amit a következőképpen definiálunk:

Mutassuk meg, hogy

$S δ$ , így $S$ $δ$ torzítatlan becslése!
$S$ $δ$ konzisztens becslése!

A fejezet témái

A várható érték, szórásnégyzet, kovariancia becslései, amiket ebben az alfejezetben tekintettünk át, bizonyos értelemben természetesek. Mindamellett, más paraméterekre, még az sem világos, hogy egyáltalán hogyan találunk ésszerű becslést. A következő néhány alfejezetben áttekintjük a becslések készítésének problémáit. Ezután visszatérünk a becslések matematikai tulajdonságainak vizsgálatához, és megvizsgáljuk a kérdést, mikor tudhatjuk egy becslésről, hogy az adott adatokra a legjobb.

1. Becslések

Az alap statisztikai modell

Statisztikák

Paraméterek

Becslések

Alaptulajdonságok

Aszimptotikus tulajdonságok

Becslési problémák

Az átlag becslése

A szórásnégyzet becslése

A Poisson eloszlás

A kovariancia becslése

A fejezet témái