]>
Szokás szerint, a kiinduló pontunk egy véletlen kísérlet egy hozzá tartozó mintatérrel és egy valószínűségi mértékkel. Az alap statiszikai modellben van egy megfigyelhető valószínűségi változó , ami halmazbeli értékeket vesz fel. Emlékeztetünk arra, hogy általában ez a változó elég összetett struktúrájú lehet. Például ha a kísérlet egy populáció objektumának mintavételezése, és különböző mérőszámokat jegyzünk fel, akkor az adatvektor a következő formátumú:
ahol az i-edik objektum mérőszámainak vektora. A legfontosabb speciális eset, amikor függetlenek és azonos eloszlásúak (IID). Ebben az esetben egy elemű véletlen minta az változó eloszlásából.
A statisztika a véletlen kísérlet eredményváltozójának egy megfigyelhető függvénye:
Így egy statisztika a megfigyelési változóból származtatott valószínűségi változó, azzal a feltételezéssel, hogy szintén megfigyelhető. Ahogy a jelölés mutatja, is jellemzően vektorértékű.
Általános értelemben egy paraméter az eloszlás egy függvénye, ami paramétertérbeli értékeket vesz fel. Tipikusan eloszlása érdeklődésre számot tartó valós paraméterrel rendelkezik, így a következő alakú:
és így . Sok esetben egy vagy több paraméter ismeretlen, és az változó alapján kell megbecsülni. Ez a legfontosabb és legalapvetőbb statisztikai probéma és ennek a fejezetnek a témája.
Tegyük fel, hogy van egy ismeretlen valós paraméterünk, ami a paramétertérbeli értékeket vesz fel. Egy valós értékű statisztikát, amit a becslésére használunk, becslésének nevezünk. A becslés egy valószínűségi változó, ezért van eloszlása, várható értéke, szórása, stb. Mikor ténylegesen elvégezzük a kísérletet és megfigyeljük az adatokat, a megfigyelt érték (egy darab szám) a paraméter becslése.
A (véletlen) hiba a becslés és a paraméter különbsége: . A hiba várható értékét nevezzük torzításnak (bias):
A várható érték alaptulajdonságait felhasználva mutassuk meg, hogy
Így a becslés torzítatlan, ha a torzítás 0 minden esetén, vagyis ha a becsült paraméter becslésének várható értéke: minden esetén. A becslés minőségét rendszerint az átlagos négyzetes hiba (mean square error) kiszámításával mérjük:
A várható érték és a szórásnégyzet alaptulajdonságai felhasználásával mutassuk meg, hogy
Speciálisan, ha a becslés torzítatlan, akkor átlagos négyzetes hibája egyszerűen szórásnégyzete.
Ideális esetben torzítatlan becslést szeretnénk, kis átlagos négyzetes hibával. Ez viszont nem minden esetben lehetséges, és a 2. gyakorlat megmutatja a törékeny kapcsolatot a torzítás és az átlagos négyzetes hiba között. A következő részben példát látunk egy paraméter két becslésére, amik egymás többszöresei; az egyik torzítatlan, viszont a másiknak kisebb az átlagos négyzetes hibája. Ha van két torzítatlan becslésünk -ra, legyen és , természetesen jobban kedveljük azt, amelyiknek kisebb a szórásnégyzete (átlagos négyzetes hibája). A relatív hatékonysága -ra nézve egyszerűen a szórásnégyzetek hányadosa:
Gyakran rendelkezünk egy általános képlettel, ami megadja becslését minden mintanagyságra. Technikailag ez megadja valós értékű becsléseinek egy sorozatát:
Ebben az esetben vizsgálhatjuk a becslések aszimptotikus tulajdonságait esetén. A legtöbb definíció a fentiek természetes általánosítása. Becslések egy sorozata aszimptotikusan torzítatlan, ha
Mutassuk meg, hogy akkor és csak akkor aszimptotikusan torzítatlan, ha , ha minden esetén!
Tegyük fel, hogy és két becslés sorozat, melyek aszimptotikusan torzítatlanok -ra nézve. A aszimptotikus relatív hatékonysága -re nézve a következő határérték, ha létezik:
Természetesen elvárjuk, hogy valamilyen értelemben a becsléseink javuljanak, ahogy az mintanagyság növekszik. Speciálisan, a becslések sorozatát -ra nézve konzisztensnek nevezzük, ha , ahogy . Valószínűséggel kifejezve:
Tegyük fel, hogy , ha minden esetén! Mutassuk meg, hogy konzisztens -ra! Útmutatás: Használjuk a Markov egyenlőtlenséget!
A 4. gyakorlatban szereplő feltétel mint átlagos négyzetes konzisztencia ismert. Így az átlagos négyzetes konzisztenciából következik az egyszerű konzisztencia. Ez egyszerűen a statisztikai változata a tételnek, mely szerint az átlagos négyzetes konvergenciából következik a valószínűségbeli konvergencia.
A következő néhány szakaszban áttekintünk néhány alap becslési problémát, amiket a Véletlen minták fejezetben már tanulmányoztunk.
Tegyük fel, hogy elemű véletlen minta egy valós értékű valószínűségi változó eloszlásából, aminek átlaga , szórása . Az eloszlás átlagának természetes becslése a mintaközép, amit a következőképpen definiálunk:
Mutassuk meg, hogy
A mintaközép kísérletben állítsuk be a mintaeloszlást gamma eloszlásra! A csúszka segítségével növeljük a mintanagyságot, és figyeljük meg a torzítatlan és konzisztens tulajdonságot grafikusan és numerikusan! Futtassuk a kísérletet ezerszer, tízes frissítési gyakorisággal!
Futtassuk a normális eloszlás becslése kísérletet ezerszer, tízes frissítési gyakorisággal, a paraméterek néhány értékére! Minden esetben hasonlítsuk össze empirikus torzítását és átlagos négyzetes hibáját az elméleti értékekkel!
Az mintaközépnek, mint az eloszlás várható értéke becslésének konzisztenciája egyszerűen a nagy számok gyenge törvénye. Továbbá az 5. gyakorlat eredményeinek számos fontos speciális esete van. Lásd a Mintaközép fejezetet a részletekért!
Az egyezési kísérletben a valószínűségi változó az egyezések száma. Futtassuk a szimulációt ezerszer, tízes frissítési gyakorisággal, és figyeljük meg a szemmel látható konvergenciát
Mint az előző szakaszban, tegyük fel, hogy egy elemű véletlen minta egy valós értékű valószínűségi változó eloszlásából, aminek várható értéke és szórása . Szintén feltételezzük, hogy a negyedik centrális momentum véges.
Ha a ismert (rendszerint valamilyen mesterséges feltételezés alapján), akkor a természetes becslése a tapasztalati szórásnégyzet egy speciális formája, ami a következőképpen definiált:
Mutassuk meg, hogy
Ha ismeretlen (ez az elfogadhatóbb feltételezés), akkor a szórásnégyzet természetes becslése a korrigált tapasztalati szórásnégyzet, ami a következő:
Mutassuk meg, hogy
Futtassuk az exponenciális kísérletet ezerszer, tízes frissítési gyakorisággal! Figyeljük meg a minta szórásának szemmel látható konvergenciáját az eloszlás szórásához!
Mutassuk meg, hogy
Futtassuk a normális eloszlás becslése kísérletet ezerszer, tízes frissítési gyakorisággal, a paraméterek néhány értékére! Hasonlítsuk össze minden esetben és tapasztalati torzítását és átlagos négyzetes hibáját az elméleti értékeikkel! Melyik tűnik jobbnak?
Példaként az utóbbi két szakaszban szereplő elvekre, tegyük fel, hogy Poisson eloszlású ismeretlen paraméterrel. Ekkor , így vagy az mintaátlagot vagy az korrigált tapasztalati szórásnégyzetet használhatjuk becslésére. Mindkettő torzítatlan, de melyik a jobb? Természetesen az átlagos négyzetes hibát használjuk kritériumként.
Mutassuk meg, hogy
Mutassuk meg, hogy
Futtassuk a Poisson kísérletet százszor, minden futásnál frissítve, a paraméter néhány értékére! Számítsuk ki és becsléseit minden esetben! Melyik becslés jobb?
Tegyük fel, hogy egy elemű véletlen minta az eloszlásaiból, ahol egy valós értékű valószínűségi változó várható értékkel és szórással, és is egy valós értékű valószínűségi változó várható értékkel és szórással. Jelöljük -val kovarianciáját. Szokás szerint legyen és elemű véletlen minták az és eloszlásaiból.
Ha és ismertek (ami egy mesterséges feltételezés), a kovarianca természetes becslése a minta kovariancia egy speciális verziója, amit a következőképpen definiálunk:
Mutassuk meg, hogy
Ha és ismeretlenek (ez az elfogadhatóbb feltételezés), akkor a kovariancia természetes becslése a minta kovariancia szokásos verziója, amit a következőképpen definiálunk:
Mutassuk meg, hogy
A várható érték, szórásnégyzet, kovariancia becslései, amiket ebben az alfejezetben tekintettünk át, bizonyos értelemben természetesek. Mindamellett, más paraméterekre, még az sem világos, hogy egyáltalán hogyan találunk ésszerű becslést. A következő néhány alfejezetben áttekintjük a becslések készítésének problémáit. Ezután visszatérünk a becslések matematikai tulajdonságainak vizsgálatához, és megvizsgáljuk a kérdést, mikor tudhatjuk egy becslésről, hogy az adott adatokra a legjobb.