]> Becslések
  1. Virtual Laboratories
  2. 6. Pontbecslések
  3. 1
  4. 2
  5. 3
  6. 4
  7. 5
  8. 6

1. Becslések

Az alap statisztikai modell

Szokás szerint, a kiinduló pontunk egy véletlen kísérlet egy hozzá tartozó mintatérrel és egy valószínűségi mértékkel. Az alap statiszikai modellben van egy megfigyelhető X valószínűségi változó , ami S halmazbeli értékeket vesz fel. Emlékeztetünk arra, hogy általában ez a változó elég összetett struktúrájú lehet. Például ha a kísérlet egy populáció n objektumának mintavételezése, és különböző mérőszámokat jegyzünk fel, akkor az adatvektor a következő formátumú:

X X 1 X 2 X n

ahol X i az i-edik objektum mérőszámainak vektora. A legfontosabb speciális eset, amikor X 1 X 2 X n függetlenek és azonos eloszlásúak (IID). Ebben az esetben X egy n elemű véletlen minta az X változó eloszlásából.

Statisztikák

A statisztika a véletlen kísérlet eredményváltozójának egy megfigyelhető függvénye:

W W X

Így egy statisztika a megfigyelési változóból származtatott X valószínűségi változó, azzal a feltételezéssel, hogy W szintén megfigyelhető. Ahogy a jelölés mutatja, W is jellemzően vektorértékű.

Paraméterek

Általános értelemben egy θ paraméter az X eloszlás egy függvénye, ami Θ paramétertérbeli értékeket vesz fel. Tipikusan X eloszlása k érdeklődésre számot tartó valós paraméterrel rendelkezik, így θ a következő alakú:

θ θ 1 θ 2 θ k

és így Θ k . Sok esetben egy vagy több paraméter ismeretlen, és az X változó alapján kell megbecsülni. Ez a legfontosabb és legalapvetőbb statisztikai probéma és ennek a fejezetnek a témája.

Becslések

Tegyük fel, hogy van egy ismeretlen valós θ paraméterünk, ami a Θ paramétertérbeli értékeket vesz fel. Egy valós értékű W W X statisztikát, amit a θ becslésére használunk, θ becslésének nevezünk. A becslés egy valószínűségi változó, ezért van eloszlása, várható értéke, szórása, stb. Mikor ténylegesen elvégezzük a kísérletet és megfigyeljük az x adatokat, a w W x megfigyelt érték (egy darab szám) a θ paraméter becslése.

Alaptulajdonságok

A (véletlen) hiba a becslés és a paraméter különbsége: W θ . A hiba várható értékét nevezzük torzításnak (bias):

bias W W θ

A várható érték alaptulajdonságait felhasználva mutassuk meg, hogy bias W W θ

Így a becslés torzítatlan, ha a torzítás 0 minden θ Θ esetén, vagyis ha a becsült paraméter becslésének várható értéke: W θ minden θ Θ esetén. A becslés minőségét rendszerint az átlagos négyzetes hiba (mean square error) kiszámításával mérjük:

MSE W W θ 2

A várható érték és a szórásnégyzet alaptulajdonságai felhasználásával mutassuk meg, hogy

MSE W W bias 2 W

Speciálisan, ha a becslés torzítatlan, akkor W átlagos négyzetes hibája egyszerűen W szórásnégyzete.

Ideális esetben torzítatlan becslést szeretnénk, kis átlagos négyzetes hibával. Ez viszont nem minden esetben lehetséges, és a 2. gyakorlat megmutatja a törékeny kapcsolatot a torzítás és az átlagos négyzetes hiba között. A következő részben példát látunk egy paraméter két becslésére, amik egymás többszöresei; az egyik torzítatlan, viszont a másiknak kisebb az átlagos négyzetes hibája. Ha van két torzítatlan becslésünk θ -ra, legyen U és V , természetesen jobban kedveljük azt, amelyiknek kisebb a szórásnégyzete (átlagos négyzetes hibája). A V relatív hatékonysága U -ra nézve egyszerűen a szórásnégyzetek hányadosa:

eff U V U V

Aszimptotikus tulajdonságok

Gyakran rendelkezünk egy általános képlettel, ami megadja θ becslését minden n mintanagyságra. Technikailag ez megadja θ valós értékű becsléseinek egy sorozatát:

W n W n X 1 X 2 X n ,  n

Ebben az esetben vizsgálhatjuk a becslések aszimptotikus tulajdonságait n esetén. A legtöbb definíció a fentiek természetes általánosítása. Becslések egy W n sorozata aszimptotikusan torzítatlan, ha

bias W n 0  ,ha   n  minden   θ Θ  esetén.  

Mutassuk meg, hogy W n akkor és csak akkor aszimptotikusan torzítatlan, ha W n θ , ha n minden θ Θ esetén!

Tegyük fel, hogy U n és V n két becslés sorozat, melyek aszimptotikusan torzítatlanok θ -ra nézve. A V n aszimptotikus relatív hatékonysága U n -re nézve a következő határérték, ha létezik:

n U n V n

Természetesen elvárjuk, hogy valamilyen értelemben a becsléseink javuljanak, ahogy az n mintanagyság növekszik. Speciálisan, a becslések W n sorozatát θ -ra nézve konzisztensnek nevezzük, ha W n θ , ahogy n .  Valószínűséggel kifejezve:

W n θ ε 0  ,ha   n  minden   ε 0  és minden   θ Θ  esetén  

Tegyük fel, hogy MSE W n 0 , ha n minden θ Θ esetén! Mutassuk meg, hogy W n konzisztens θ -ra! Útmutatás: Használjuk a Markov egyenlőtlenséget!

A 4. gyakorlatban szereplő feltétel mint átlagos négyzetes konzisztencia ismert. Így az átlagos négyzetes konzisztenciából következik az egyszerű konzisztencia. Ez egyszerűen a statisztikai változata a tételnek, mely szerint az átlagos négyzetes konvergenciából következik a valószínűségbeli konvergencia.

Becslési problémák

A következő néhány szakaszban áttekintünk néhány alap becslési problémát, amiket a Véletlen minták fejezetben már tanulmányoztunk.

Az átlag becslése

Tegyük fel, hogy X X 1 X 2 X n n elemű véletlen minta egy X valós értékű valószínűségi változó eloszlásából, aminek átlaga μ , szórása σ . Az eloszlás μ átlagának természetes becslése a mintaközép, amit a következőképpen definiálunk:

M X 1 n i 1 n X i

Mutassuk meg, hogy

  1. M μ , így M torzítatlan becslése μ -nek!
  2. M σ 2 n , így M konzisztens becslése μ -nek!

A mintaközép kísérletben állítsuk be a mintaeloszlást gamma eloszlásra! A csúszka segítségével növeljük a mintanagyságot, és figyeljük meg a torzítatlan és konzisztens tulajdonságot grafikusan és numerikusan! Futtassuk a kísérletet ezerszer, tízes frissítési gyakorisággal!

Futtassuk a normális eloszlás becslése kísérletet ezerszer, tízes frissítési gyakorisággal, a paraméterek néhány értékére! Minden esetben hasonlítsuk össze M n empirikus torzítását és átlagos négyzetes hibáját az elméleti értékekkel!

Az M n mintaközépnek, mint az eloszlás μ várható értéke becslésének konzisztenciája egyszerűen a nagy számok gyenge törvénye. Továbbá az 5. gyakorlat eredményeinek számos fontos speciális esete van. Lásd a Mintaközép fejezetet a részletekért!

Az egyezési kísérletben a valószínűségi változó az egyezések száma. Futtassuk a szimulációt ezerszer, tízes frissítési gyakorisággal, és figyeljük meg a szemmel látható konvergenciát

  1. a mintaközép tart a várható értékhez!
  2. a tapasztalati sűrűségfüggvény tart a sűrűségfüggvényhez!

A szórásnégyzet becslése

Mint az előző szakaszban, tegyük fel, hogy X X 1 X 2 X n egy n elemű véletlen minta egy X valós értékű valószínűségi változó eloszlásából, aminek várható értéke μ és szórása σ . Szintén feltételezzük, hogy a negyedik centrális momentum d 4 X μ 4 véges.

Ha a μ ismert (rendszerint valamilyen mesterséges feltételezés alapján), akkor a σ 2 természetes becslése a tapasztalati szórásnégyzet egy speciális formája, ami a következőképpen definiált:

W 2 X 1 n i 1 n X i μ> 2

Mutassuk meg, hogy

  1. W 2 σ 2 , így W 2 a σ 2 torzítatlan becslése!
  2. W 2 1 n d 4 σ 4 , így W 2 a σ 2 konzisztens becslése!

Ha μ ismeretlen (ez az elfogadhatóbb feltételezés), akkor a szórásnégyzet természetes becslése a korrigált tapasztalati szórásnégyzet, ami a következő:

S 2 X 1 n 1 i 1 n X i M X 2

Mutassuk meg, hogy

  1. S 2 σ 2 , így S 2 a σ 2 torzítatlan becslése!
  2. S 2 1 n d 4 n 3 n 1 σ 4 , így S 2 a σ 2 konzisztens becslése!

Futtassuk az exponenciális kísérletet ezerszer, tízes frissítési gyakorisággal! Figyeljük meg a minta szórásának szemmel látható konvergenciáját az eloszlás szórásához!

Mutassuk meg, hogy

  1. W 2 S 2 ! Eszerint W 2 jobb, mint S 2 , feltételezve, hogy μ ismert, így ténylegesen felhasználhatjuk W 2 -et.
  2. az S 2 aszimptotikus relatív hatékonysága W 2 -hez 1!

Futtassuk a normális eloszlás becslése kísérletet ezerszer, tízes frissítési gyakorisággal, a paraméterek néhány értékére! Hasonlítsuk össze minden esetben S 2 és W 2 tapasztalati torzítását és átlagos négyzetes hibáját az elméleti értékeikkel! Melyik tűnik jobbnak?

A Poisson eloszlás

Példaként az utóbbi két szakaszban szereplő elvekre, tegyük fel, hogy X Poisson eloszlású ismeretlen a 0 paraméterrel. Ekkor X X a , így vagy az M mintaátlagot vagy az S 2 korrigált tapasztalati szórásnégyzetet használhatjuk a becslésére. Mindkettő torzítatlan, de melyik a jobb? Természetesen az átlagos négyzetes hibát használjuk kritériumként.

Mutassuk meg, hogy

  1. X a
  2. X 2 a 2 a
  3. X 3 a 3 3 a 2 a
  4. X 4 a 4 6 a 3 7 a 2 a
  5. d 4 3 a 2 a

Mutassuk meg, hogy

  1. M a n
  2. S 2 a n 1 2 a n n 1
  3. M S 2 , vagyis az M mintaközép jobb becslése az a paraméternek, mint az S 2 minta szórásnégyzet.
  4. M aszimptotikus relatív hatékonysága S 2 -hez viszonyítva 1 2 a

Futtassuk a Poisson kísérletet százszor, minden futásnál frissítve, a paraméter néhány értékére! Számítsuk ki M és S 2 becsléseit minden esetben! Melyik becslés jobb?

A kovariancia becslése

Tegyük fel, hogy X 1 Y 1 X 2 Y 2 X n Y n egy n elemű véletlen minta az X Y eloszlásaiból, ahol X egy valós értékű valószínűségi változó μ várható értékkel és σ szórással, és Y is egy valós értékű valószínűségi változó ν várható értékkel és τ szórással. Jelöljük δ -val X Y kovarianciáját. Szokás szerint legyen X X 1 X 2 X n és Y Y 1 Y 2 Y n n elemű véletlen minták az X és Y eloszlásaiból.

Ha μ és ν ismertek (ami egy mesterséges feltételezés), a δ kovarianca természetes becslése a minta kovariancia egy speciális verziója, amit a következőképpen definiálunk:

W X Y 1 n i 1 n X i μ Y i ν

Mutassuk meg, hogy

  1. W δ , így W a δ torzítatlan becslése!
  2. W δ konzisztens becslése!

Ha μ és ν ismeretlenek (ez az elfogadhatóbb feltételezés), akkor a δ kovariancia természetes becslése a minta kovariancia szokásos verziója, amit a következőképpen definiálunk:

S X Y 1 n 1 i 1 n X i M X Y i M Y

Mutassuk meg, hogy

  1. S δ , így S δ torzítatlan becslése!
  2. S δ konzisztens becslése!

A fejezet témái

A várható érték, szórásnégyzet, kovariancia becslései, amiket ebben az alfejezetben tekintettünk át, bizonyos értelemben természetesek. Mindamellett, más paraméterekre, még az sem világos, hogy egyáltalán hogyan találunk ésszerű becslést. A következő néhány alfejezetben áttekintjük a becslések készítésének problémáit. Ezután visszatérünk a becslések matematikai tulajdonságainak vizsgálatához, és megvizsgáljuk a kérdést, mikor tudhatjuk egy becslésről, hogy az adott adatokra a legjobb.