]>
Tegyük fel, hogy van egy alap véletlen kísérletünk és, hogy egy valós értékű, erre az alapkísérletre vonatkozó véletlen változó. Tételezzük fel, hogy ezt az alapkísérletet egymástól függetlenül -szer megismételjük. Ez meghatároz egy, az független véletlen változók sorozatával egy összetett kísérletet, amely sorozat mindegyik eleme ugyanolyan eloszlású, mint az változó. Emlékeztetünk arra, hogy statisztikai kifejezésekben azt mondjuk, hogy az vektor egy véletlen minta, melynek eleme van és mindegyike ugyanolyan eloszlású, mint az változó. A minta átlagát egyszerűen a mintabeli változók átlag adja:
A minta átlaga a véletlen mintának egy függvénye és így egy statisztika. Mint minden statisztika, a minta átlaga maga is egy valószínűségi változó saját eloszlással, átlaggal és szórásnégyzettel. Sok esetben az eloszlás átlaga ismeretlen és a minta átlagát használjuk ennek az ismeretlen paraméternek a becslésére. Amikor a kiindulási minta nyilvánvaló, akkor a jelölésből elhagyjuk.
A dobókocka kísérletben, a kockán lévő pontszámok egy speciális eloszlásból vett véletlen mintát alkotnak. Válasszuk ki az u.n. átlag véletlen változót, ez a változó a kockadobások pontszámainak - mint mintának - az átlaga. A kockadobások pontszámainak eloszlása (értéke) 1-től, a minta méretéig, -ig vehet fel értéket. A mintaátlag sűrűségfüggvényének alakját és elhelyezkedését mindegyik állapotában feltüntetjük. A kiválasztott értékével 1000-szer lefuttatjuk a szimulációt, a gyakoriságot 10-esével frissítgetve. Az empirikus sűrűségfüggvénynek az elméleti sűrűségfüggvényhez való nyilvánvaló konvergenciája a grafikonon jól látható.
A várható érték alaptulajdonságait használva mutassuk meg, hogy .
A 2. gyakorlat azt mutatja, hogy az mintaátlag torzítatlan becslése a várható értéknek. Ezért szórásnégyzete az átlagos négyzetes hiba, ha -et használjuk a becslésére.
A szórásnégyzet alaptulajdonságait használva mutassuk meg, hogy .
A 3. gyakorlatból következik, hogy a minta átlagának szórásnégyzete az elméleti szórásnégyzetnek növekedő, a minta méretének csökkenő függvénye. Mindkét állítást intuitíve megérthetjük, ha arra gondolunk, hogy a mintaátlag az elméleti átlagnak egy becslése.
A dobókocka kísérletben válasszuk ki az u.n. átlag véletlen változót, amely, mint említettük a kockadobások pontszámainak - mint mintának - az átlaga. A kockadobások pontszámainak eloszlása (értéke) 1-től, a minta méretéig, -ig vehet fel értéket. Megjegyezzük, hogy a mintaátlag várható értéke ugyanaz marad, de a mintaátlag standard szórása csökken (mint tudjuk, a minta négyzetgyökének reciprokának megfelelően). A kiválasztott értékével 1000-szer lefuttatjuk a szimulációt, a gyakoriságot 10-esével frissítgetve. Megjegyezzük, hogy a mintaátlag empirikus momentumainak az elméleti momentumokhoz való konvergenciája jól látható.
Számítsuk ki a Fisher féle nőszirom adatokra a sziromlevél vastagság változójának mintaátlagát a következő esetekben! Az eredményeket hasonlítsuk össze!
Győződjünk meg arról, hogy a mintaátlag egy lineáris operáció, azaz mutassuk meg, hogy ha
és egy-egy elemű minta(ugyanazon a valószínűségi mezőn definiálva), és egy konstans, akkor
A nagy számok törvénye azt mondja ki, hogy a minta átlaga konvergál a mintaelemek közös várható értékéhez, ha a minta elemszáma növekszik, ez a valószínűségelmélet egyik alapvető tétele. A törvénynek több változata van a konvergencia módjától függően.
Tételezzük fel újra, hogy alapkísérletünknek egy valós értékű véletlen változója várható értékkel és standard szórással (véges). Ismételjük meg az alapkísérletet végtelen sokszor, s így alkossunk egy új összetett kísérletet az független véletlen változóknak egy sorozatával, melyek minden tagjának ugyanaz az eloszlása, mint az változó eloszlása. Statisztikai kifejezéssel élve azt mondjuk hogy a mintavételünk az eloszlásból lett véve. Minden esetén jelölje az első mintaváltozó átlagát:
A 3. Gyakorlatból láthatjuk, hogy , ha . Ez azt jelenti, hogy , ha négyzetes középben.
Használjuk a Csebisev egyenlőtlenséget annak bizonyítására, hogy tetszőleges esetén
.Ez azt jelenti, hogy ha , ilyenkor sztochasztikus konvergenciáról beszélünk. Megemlítjük, hogy általában a négyzetes középben való konvergencia magában foglalja a sztochasztikus konvergenciát. A minta átlagának az elméleti várható értékhez való konvergenciája négyzetes középben való konvergenciát és sztochasztikus konvergenciát is jelent és a nagy számok gyenge törvényei néven ismertek.
A nagy számok erős törvénye azt mondja ki, hogy a minta átlaga 1 valószínűséggel konvergál a elméleti várható értékhez. Ahogy a név is sugallja, ez erősebb eredmény, mint a gyenge törvény eredménye. Azaz a nagy számok erős törvénye azt mondja ki, hogy
A következő gyakorlatok a nagy számok erős törvényének bizonyítását vázolják. Először legyen úgy, hogy .
A Csebisev egyenlőtlenséget felhasználva mutassuk meg, hogy minden és minden esetén
Használjuk fel a előző gyakorlat eredményét és az első Borel-Cantelli lemmát annak megmutatására, hogy minden esetén
.Használjuk fel a előző gyakorlat eredményét és a Boole egyenlőtlenséget annak megmutatására, hogy
Következtessünk az előző gyakorlatból arra, hogy .
Ideiglenesen tételezzük fel, hogy az alapmintaváltozónk nemnegatív: .
Mutassuk meg, hogy 1 valószínűséggel, szerint növekvő.
esetén legyen az egyetlen olyan pozitív egész szám, amelyre .
Az előző gyakorlat eredményét és algebrai ismereteket felhasználva mutassuk meg, hogy 1 valószínűséggel
.A 11. gyakorlat, a 13. gyakorlat és a határértékre vonatkozó korlátozó (squeeze) tétel
-ből következik a nemnegatív változókra vonatkozó nagy számok erős törvénye:
Most enyhítsünk az alapminta változóra vonatkozó feltételen, a változó legyen nemnegatív és emlékeztetünk arra, hogy az valós szám pozitív és negatív részének a definíciója:
Emlékeztetünk arra is, hogy , , , és .
Felhasználva a 6. Gyakorlatot és 14. gyakorlatot mutassuk meg, hogy 1 valószínűséggel:
Végül mutassuk meg, hogy 1 valószínűséggel.
A nagy számok erős törvényének előbbiekben vázolt bizonyítása megkívánja, hogy a minta eloszlásának szórásnégyzete véges legyen (megjegyezzük, hogy ez a kritikus pont a 8. gyakorlatban és a 9. gyakorlatban). Továbbá léteznek jobb bizonyítások is, amik csak annyit kívánnak meg, hogy . Lásd például, Probability and Measure c. Patrick Billingsley könyvet!
A kocka kísérletben a kockán lévő pontszámok egy speciális eloszlásból vett véletlen mintát alkotnak. Válasszuk ki az u.n. átlag véletlen változót, ez a változó a kockadobások pontszámainak - mint mintának - az átlaga. A kockadobások pontszámainak eloszlása (értéke) 1-től, a minta méretéig, -ig vehet fel értéket. Figyelje meg, hogy a minta átlagának eloszlása kezd hasonlítani egy ponttömeg eloszláshoz. 1000-szer lefuttatjuk a szimulációt, a gyakoriságot 10-esével frissítgetve. Megemlítjük, hogy a mintaátlag empirikus sűrűségfüggvényének az elméleti sűrűségfüggvényhez való konvergenciája nyilvánvaló.
A projektben szereplő több appletet a minket érdeklő alap véletlen változóval végrehajtott kísérletekkel szimuláljuk. Amikor lefuttatjuk a szimulációt, a kísérletet többször végrehajtjuk egymástól függetlenül. A legtöbb esetben az applet az átlagot numerikusan egy táblázatban jeleníti meg, a grafikonon pedig az alsó vizszintes kék sáv közepe jelöli. Amikor futtatjuk a szimulációt, a minta átlaga szintén megjelenik a táblázatban numerikusan, és a grafikonon pedig az alsó vizszintes piros sáv közepe jelöli.
A binomiális pénzérme kisérlet szimulációjában a fejek számát figyeljük. 1000-szer lefuttatjuk a szimulációt, a gyakoriságot 10-esével frissítgetve. Megemlítjük, hogy a mintaátlagnak az elméleti átlaghoz való konvergenciája nyilvánvaló.
A megfeleltetéses kísérlet szimulációjában az összepasszoló párok száma véletlen változó. 1000-szer lefuttatjuk a szimulációt, a gyakoriságot 10-esével frissítgetve. Megemlítjük, hogy a mintaátlagnak az elméleti átlaghoz való konvergenciája nyilvánvaló.
A gamma kísérlet szimulációjában a beérkezési idők egy véletlen változót reprezentálnak. 1000-szer lefuttatjuk a szimulációt, a gyakoriságot 10-esével frissítgetve. Megemlítjük, hogy a mintaátlagnak az elméleti átlaghoz való konvergenciája nyilvánvaló.
A véletlen minták és a mintaátlagok a valószínűségszámításban és a statisztikában mindenütt jelenlévő fogalmak. Ebben a részfejezetben látni fogjuk, hogy a mintaátlagokat hogyan használhatjuk valószínűségek, sűrűségfüggvények és eloszlásfüggvények becslésére.
Tételezzük fel, hogy az alapkísérlet egy véletlen változója, értékeit az térből veszi. Megjegyezzük, hogy a kísérlet eredményváltozója is lehet, amikor is a mintatér. Minden eseményre, egy általános tér, így lehet vektor-értékű is. Emlékezzünk vissza arra, hogy az -nek az eloszlása valószínűségi mérték az -en a következő egyenlőség által megadva:
Tételezzük fel, hogy az alapkísérletet -szer végezzük el, s kapjuk az véletlen mintát, melynek eleme van és hogy az eloszlású mintából lett véve. Az változó empirikus eloszlása az alábbi mintával van definiálva:
Bár a mintától való függést nem jelöltük, megemlítjük, hogy minden -re egy statisztika, ami megadja az - ban lévő mintaértékek arányát.
Mutassuk meg, hogy fix , esetén az elemű véletlen mintából vett mintaátlag indikátor változó eloszlásából vett véletlen minta átlaga. Így következtessünk arra, hogy
A nagy számok törvényének ez a speciális esete alapvető a valószínűség fogalmának pontos megértéséhez.
Mutassuk meg, hogy fix minta esetén kielégíti a valószínűségi mérték axiómáit.
Az véletlen mintán alapuló tapasztalati eloszlása diszkrét eloszlás, az különböző mintaértékekre összesítve. Valóban, az eloszlás valószínűséget ad meg az -re minden esetén, így ha a mintaértékek különbözőek, akkor a tapasztalati eloszlás egyenletes ezeken a mintaértékeken.
Ennek a projektnek néhány appletje érdekes eseményekkel kapcsolatos véletlen kísérletek szimulációja. Amikor elvégezzük a kísérletet, az a kísérlet egymástól függetlenül történő elvégzését jelenti. A legtöbb esetben az applet kijelzi az esemény és komplementerének relatív gyakoriságát mind grafikusan (kék színnel), mind numerikusan táblázatban. Amikor elvégzi a kísérletet, a relatív gyakoriságokat piros színnel láthatjuk, és ezek numerikusan is megjelennek.
A Buffon féle pénzérme kísérlet szimulációjában a megfigyelt esemény az, hogy a feldobott pénzérme ráesik-e a kijelölt négyzetes terület (padlólap, csempe) szélére (vonalára). Végezzük el a kísérletet 1000-szer, a gyakoriságot 10-esével frissítgetve. Az esemény relatív gyakoriságának a valószínűséghez való konvergenciája jól látható.
A Bertrand kísérlet szimulációjában a minket érdeklő esemény az, hogy egy kör véletlen
húrja hosszabb-e, mint a körbe írt szabályos háromszög egy oldalának a hossza. Végezzük el a kísérletet 1000-szer, a gyakoriságot 10-esével frissítgetve. Az esemény relatív gyakoriságának a valószínűséghez való konvergenciája jól látható.
Tételezzük fel, hogy egy alapkísérlet valós értékű véletlen változója. Emlékeztetünk arra, hogy egy változónak az eloszlásfüggvénye
Most tételezzük fel, hogy az alapkísérletet alkalommal megismételjük, s így kapunk egy véletlen mintát, amely elemből áll és eloszlása ugyanaz, mint eloszlása. Természetesnek tűnik az empirikus eloszlásfüggvény minta alapján történő következő definíciója:
Bár a mintától való függést nem jelöltük, megemlítjük, hogy minden esetén egy statisztika, ami megadja az -nél kisebb vagy egyenlő mintaelemek arányát.
Mutassuk meg, hogy az empirikus eloszlás eloszlásfüggvénye, ami az véletlen mintán alapul. Részletezve:
Mutassuk meg, hogy minden esetén egy olyan méretű véletlen mintából vett mintaátlag, amely az indikátor változó eloszlásából lett véve. Ebből következően mutassuk meg, hogy
Tételezzük fel, hogy egy alapkísérletnél egy véletlen változó, amely diszkrét eloszlású egy megszámlálható halmazon. Megjegyezzük, hogy az megszámlálható halmazra nincsenek feltételek, így vektor értékű is lehet. Emlékeztetünk arra, hogy valószínűségi sűrűségfüggvénye az függvény, amely a következő módon van megadva:
Tételezzük fel, hogy az alapkísérletet -szer megismételjük, s így kapjuk az elemű véletlen mintát eloszlásából. Az relatív gyakoriság függvény, vagy empirikus sűrűségfüggvény definíciója elég természetes módon a következő:
Bár nem említjük jelölésünkben a mintától való függőségét, megjegyezzük, hogy minden esetén egy statisztika ami megadja, hogy a mintaváltozók hanyadrésze egyenlő -szel.
Mutassuk meg, hogy az empirikus eloszlásának a valószínűségi sűrűségfüggvénye, amely az mintán alapul. Speciálisan
Mutassuk meg, hogy minden -re egy elemű véletlen mintából vett mintaátlag, mely az indikátor változó eloszlásából lett választva. Ílymódon következtessünk arra, hogy
Mutassuk meg, hogy ha valós értékű, akkor az véletlen minta átlaga az empirikus sűrűségfüggvényre vonatkozólag számított átlag, azaz
Ebben a projektben sok applet olyan kísérletek szimulációja, amelyben az eredményváltozó folytonos eloszlású. Amikor elvégezzük a kísérletet, az a kísérlet egymástól függetlenül történő elvégzését jelenti. A legtöbb esetben az applet kijelzi a valódi sűrűségfüggvényt grafikusan (kék színnel). Amikor elvégzi a kísérletet, a relatív gyakoriságokat piros színnel láthatjuk, és ezek numerikusan is megjelennek.
A póker kísérletben a véletlen változó a kéz "típusa". Végezzük el a kísérletet 1000-szer, a gyakoriságot 10-esével frissítgetve. Az empirikus sűrűségfüggvénynek a valódi sűrűségfüggvényhez való konvergenciája jól látható.
A binomiális pénzérme kísérletben a véletlen változó a fejek száma. Végezzük el a kísérletet 1000-szer, a gyakoriságot 10-esével frissítgetve. Az esemény relatív gyakoriságának a valószínűséghez való konvergenciája jól látható.
A párosítási kísérletben a párok száma a véletlen változó. Végezzük el a kísérletet 1000-szer, a gyakoriságot 10-esével frissítgetve. Az empirikus sűrűségfüggvénynek a valódi sűrűségfüggvényhez való konvergenciája jól látható.
Emlékeztetünk arra, hogy a standard -dimenziós mérték az térben
Speciálisan hosszmérték az egydimenziós térben, terület az kétdimenziós térben (síkon), és térfogat az háromdimenziós térben.
Tételezzük fel, hogy egy alapkísérlet véletlen változója, folytonos eloszlású az halmazon, és hogy valószínűségi sűrűségfüggvénye . Gyakorlatilag, a -ra vonatkozó valószínűségi sűrűségfüggvény. Így, a definíció alapján
Újra ismételjük meg az alapkísérletet -szer, megkapjuk az véletlen mintát, melynek eleme van és a mintaelemek eloszlása megegyezik eloszlásával. Tételezzük fel, hogy az halmaznak egy megszámlálható részhalmazokra való felbontása. Mint korábban, definiálhatjuk empirikus eloszlását
összefüggéssel.Ezután definiáljuk az empirikus sűrűségfüggvényt a következő módon:
Nyilvánvaló, hogy a empirikus sűrűségfüggvény függ a felbontástól, valamint a mintától, de ezt a jelölésben a nehéz kezelhetőség miatt nem fejezzük ki. Természetesen, minden esetén egy véletlen változó (valójában egy statisztika), de a sűrűségfüggvény definíciója miatt elegendően finom felbontás esetén (úgy, hogy kicsi minden -re) és a minta mérete elegendően nagy, akkor a nagy számok törvénye miatt
Mutassuk meg, hogy az empirikus sűrűségfüggvény kielégiti az elméleti sűrűségfüggvény matematikai tulajdonságait olyan eloszlás esetén, amelyik -en folytonos:
Mutassuk meg, hogy az empirikus sűrűségfüggvény olyan eloszlásnak felel meg, amelyre egyenletes eloszlású az halmaz felett minden -re.
Ebben a projektben sok applet olyan kísérletek szimulációja, amelyben az eredményváltozó folytonos eloszlású. Amikor elvégezzük a kísérletet, az a kísérlet egymástól függetlenül történő elvégzését jelenti. Az applet kijelzi a valódi sűrűségfüggvényt grafikusan (kék színnel). Amikor elvégzi a kísérletet, az empirikus sűrűségfüggvényt piros színnel láthatjuk.
Abban a szimulációban, amely a gamma kísérletre vonatkozik, sok paraméter van és figyelembe vesszük az elméleti sűrűségfüggvény alakját és fekvését.Végezzük el a kísérletet 1000-szer, a gyakoriságot 10-esével frissítgetve. Az esemény relatív gyakoriságának a valószínűséghez való konvergenciája jól látható.
Abban a szimulációban, amely a véletlen változó kísérletre vonatkozik, válasszuk ki a normális eloszlást. Végezzük el a kísérletet 1000-szer, a gyakoriságot 10-esével frissítgetve. Az esemény relatív gyakoriságának a valószínűséghez való konvergenciája jól látható.
A korábbiakban említett fogalmak közül nagyon sokat használnak az un. adatfeltáró analízisben. Speciálisan tegyük fel, hogy egy populációra vonatkozó változó (általában vektorértékű) és hogy egy elemszámú mintából vett megfigyelési adatok, amelyek erre a változóra vonatkoznak. Például lehet a M&Ms cukorka egy csomagjának nettó súlya és a különböző színű cukorkák száma (megfelelően kódolva). Legyen most az adathalmaznak egy felbontása, ahol egy véges index halmaz. A felbontásban szereplő halmazok általában mint osztályok ismertek. Ugyanúgy, mint korábban, definiáljuk az gyakoriságát
képlettel.Ezek után definiáljuk relatív gyakoriságát a következőképpen:
Végül, ha folytonos változó, mely értékeit -ból veszi, akkor definiáljuk sűrűségét az alábbi módon:
A leképezés, ami a gyakoriságokat az osztályokhoz rendeli, mint gyakorisági eloszlás ismert az adathalmazra. A leképezés, ami a relatív gyakoriságokat az osztályokhoz rendeli, mint relatív gyakorisági eloszlás ismert az adathalmazra. Végül a folytonos változó esetében a leképezés, ami a sűrűségeket az osztályokhoz rendeli, mint sűrűségi eloszlás ismert az adathalmazra. Amikor vagy , akkor ezen eloszlások oszlopdiagramja hisztogram néven ismert.
Ezen empirikus eloszlások elkészítésének és ábrázolásának a teljes célja, hogy összegezzük és abrázoljuk az adatokat valamilyen értelmes módon. Így, néhány általános irányelv az osztályok megválasztásához:
Az interaktív hisztogramban klikkeljünk az -tengelyen különböző pontokra, hogy generáljunk egy 20 elemből álló adathalmazt. Változtassuk az osztályt 0.1-től 5.0-ig terjedően öt különböző szálességben, majd ismételjük ezt meg. Az osztályszélesség mindegyik választásánál a gyakoriság hisztogram és a relatív gyakoriság hisztogram között átválthatunk. Megjegyezzük, hogy a hisztogram alakja változik, ha ezeket az operációkat végrehajtjuk.
Nagyon fontos, hogy megértsük: folytonos változó esetén is kénytelenek vagyunk gyakorisági adatokat használni. Például tételezzük fel, hogy egy M&Ms zacskó cukorka (grammokban mért) súlya reprezentálja a mi változónkat és hogy a mérő eszközünk pontossága 0.01 gramm. Ha egy csomag súlyát 50.32 grammnak mérjük, akkor annak súlya valójában az alábbi intervallumba esik: (vagy talán néhány más intervallum, attól függően, hogyan működik a mérőeszköz.). Hasonlóan, amikor két zacskó ugyanannyinak lett mérve, a súlyok látszólagos egyenlősége valójában a mérőeszköz pontatlanságának az eredménye; valójában a két zacskó majdnem bizonyosan nem ugyanolyan súlyú. Így, az ugyanolyan súlyúnak mért két zacskó valójában csak 2 gyakoriságot jelent az előbbi intervallumon.
Újra, létezik egy kompromisszum az osztályok száma és mérete között; ezeket meghatározza az empirikus eloszlás felbontása. Szélsőséges esetben, amikor az osztály mérete kisebb, mint a regisztrált adatok pontossága, mindegyik osztály vagy egy adatot tartalmaz, vagy egyet sem. Ebben az esetben nincs információveszteség, vissza tudjuk nyerni az eredeti adathalmazt a gyakorisági eloszlásból (kivéve azt az esetet, amikor ordinális típusúak az adatok. Másrészt nehéz megkülönböztetni az adatok alakját, amikor sok, kis gyakoriságú osztályunk van. A másik szélsőséges esetben a gyakorisági hisztogram a lehetséges értékek egy osztályát tartalmazza. Ebben az esetben minden információ elvész, kivéve az adathalmaz értékeinek a száma. A két szélsőséges eset között az empirikus eloszlás részleges, de nem teljes információval szolgál. Ezek a közbeeső esetek képesek adatainkat megfelelően szervezni.
Az interaktív hisztogramon állítsa az osztály szélességét 0.1-re. Kattintson az -tengelyre, hogy előállítson egy 10 különböző elemet tartalmazó, összesen 20 elemű adathalmazt.
Számítsuk ki a mintaátlagot és adjuk meg a sűrűséghisztogramot a Michelson féle fénysebesség adatokra!
Számítsuk ki a mintaátlagot és adjuk meg a sűrűséghisztogramot a Cavendish féle Föld sűrűségi adatokra!
Vizsgáljuk az M&M adathalmazt!
A Kabóca adathalmazban számítsuk ki a mintaátlagot és adjuk meg a sűrűséghisztogramot a súlyváltozóra az alábbi megszorításokkal! Jegyezzük fel a különbségeket!
Tekintsük a Fisher féle nőszirom (írisz) adatokat!. Számítsuk ki a mintaátlagot és adjuk meg a sűrűséghisztogramot a sziromlevél hossz-változójára az alábbi megszorításokkal! Hasonlítsuk össze az eredményeket!
Az interaktív hisztogramban állítsuk be az osztályt 0.1 szélességűre és klikkeljünk a tengelyre, hogy generáljunk adott típusú eloszlást 30 ponttal. Növeljük meg az osztályszélességeket, mindegyiket négy értékkel és írjuk le az eloszlás típusát.