Mintaátlag és a nagy számok törvénye

Tegyük fel, hogy van egy alap véletlen kísérletünk és, hogy

X

egy valós értékű, erre az alapkísérletre vonatkozó véletlen változó. Tételezzük fel, hogy ezt az alapkísérletet egymástól függetlenül

n

-szer megismételjük. Ez meghatároz egy, az

X X 1 X 2 X n

független véletlen változók sorozatával egy összetett kísérletet, amely sorozat mindegyik eleme ugyanolyan eloszlású, mint az

X

változó. Emlékeztetünk arra, hogy statisztikai kifejezésekben azt mondjuk, hogy az

X

vektor egy véletlen minta, melynek

n

eleme van és mindegyike ugyanolyan eloszlású, mint az

X

változó. A minta átlagát egyszerűen a mintabeli változók átlag adja:

A minta átlaga a véletlen mintának egy függvénye és így egy statisztika. Mint minden statisztika, a minta átlaga maga is egy valószínűségi változó saját eloszlással, átlaggal és szórásnégyzettel. Sok esetben az eloszlás átlaga ismeretlen és a minta átlagát használjuk ennek az ismeretlen paraméternek a becslésére. Amikor a kiindulási minta nyilvánvaló, akkor a jelölésből elhagyjuk.

A dobókocka kísérletben, a kockán lévő pontszámok egy speciális eloszlásból vett véletlen mintát alkotnak. Válasszuk ki az u.n. átlag véletlen változót, ez a változó a kockadobások pontszámainak - mint mintának - az átlaga. A kockadobások pontszámainak eloszlása (értéke) 1-től, a minta méretéig, $n$ -ig vehet fel értéket. A mintaátlag sűrűségfüggvényének alakját és elhelyezkedését mindegyik állapotában feltüntetjük. A kiválasztott $n$ értékével 1000-szer lefuttatjuk a szimulációt, a gyakoriságot 10-esével frissítgetve. Az empirikus sűrűségfüggvénynek az elméleti sűrűségfüggvényhez való nyilvánvaló konvergenciája a grafikonon jól látható.

Momentumok

A várható érték alaptulajdonságait használva mutassuk meg, hogy $M μ$ .

A 2. gyakorlat azt mutatja, hogy az

M

mintaátlag torzítatlan becslése a

μ

várható értéknek. Ezért

M

szórásnégyzete az átlagos négyzetes hiba, ha

M

-et használjuk a

μ

becslésére.

A szórásnégyzet alaptulajdonságait használva mutassuk meg, hogy $M σ 2 n$ .

A 3. gyakorlatból következik, hogy a minta átlagának szórásnégyzete az elméleti szórásnégyzetnek növekedő, a minta méretének csökkenő függvénye. Mindkét állítást intuitíve megérthetjük, ha arra gondolunk, hogy a mintaátlag az elméleti átlagnak egy becslése.

A dobókocka kísérletben válasszuk ki az u.n. átlag véletlen változót, amely, mint említettük a kockadobások pontszámainak - mint mintának - az átlaga. A kockadobások pontszámainak eloszlása (értéke) 1-től, a minta méretéig, $n$ -ig vehet fel értéket. Megjegyezzük, hogy a mintaátlag várható értéke ugyanaz marad, de a mintaátlag standard szórása csökken (mint tudjuk, a minta négyzetgyökének reciprokának megfelelően). A kiválasztott $n$ értékével 1000-szer lefuttatjuk a szimulációt, a gyakoriságot 10-esével frissítgetve. Megjegyezzük, hogy a mintaátlag empirikus momentumainak az elméleti momentumokhoz való konvergenciája jól látható.

Számítsuk ki a Fisher féle nőszirom adatokra a sziromlevél vastagság változójának mintaátlagát a következő esetekben! Az eredményeket hasonlítsuk össze!

az Összes esetre
Csak a Setosa esetén
Csak a Versicolor esetén
Csak a Verginica esetén

Linearitás

Győződjünk meg arról, hogy a mintaátlag egy lineáris operáció, azaz mutassuk meg, hogy ha

$X$ és $Y$ egy-egy $n$ elemű minta(ugyanazon a valószínűségi mezőn definiálva), és $c$ egy konstans, akkor

$M X Y M X M Y$
$M c X c M X$

A Nagy számok törvénye

A nagy számok törvénye azt mondja ki, hogy a minta átlaga konvergál a mintaelemek közös várható értékéhez, ha a minta elemszáma növekszik, ez a valószínűségelmélet egyik alapvető tétele. A törvénynek több változata van a konvergencia módjától függően.

Tételezzük fel újra, hogy

X

alapkísérletünknek egy valós értékű véletlen változója

μ

várható értékkel és

σ

standard szórással (véges). Ismételjük meg az alapkísérletet végtelen sokszor, s így alkossunk egy új összetett kísérletet az

X 1 X 2

független véletlen változóknak egy sorozatával, melyek minden tagjának ugyanaz az eloszlása, mint az

X

változó eloszlása. Statisztikai kifejezéssel élve azt mondjuk hogy a mintavételünk az

X

eloszlásból lett véve. Minden

n

esetén jelölje

M n

az első

n

mintaváltozó átlagát:

Gyenge törvények

A 3. Gyakorlatból láthatjuk, hogy

M n M n μ 2 0

, ha

n

. Ez azt jelenti, hogy

M n μ

, ha

n

négyzetes középben.

Használjuk a Csebisev egyenlőtlenséget annak bizonyítására, hogy tetszőleges $ε 0$ esetén

M n μ ε 0 ha n

Ez azt jelenti, hogy

M n μ

n

, ilyenkor sztochasztikus konvergenciáról beszélünk. Megemlítjük, hogy általában a négyzetes középben való konvergencia magában foglalja a sztochasztikus konvergenciát. A minta átlagának az elméleti várható értékhez való konvergenciája négyzetes középben való konvergenciát és sztochasztikus konvergenciát is jelent és a nagy számok gyenge törvényei néven ismertek.

Erős törvények

A nagy számok erős törvénye azt mondja ki, hogy a minta

M n

átlaga 1 valószínűséggel konvergál a

μ

elméleti várható értékhez. Ahogy a név is sugallja, ez erősebb eredmény, mint a gyenge törvény eredménye. Azaz a nagy számok erős törvénye azt mondja ki, hogy

A következő gyakorlatok a nagy számok erős törvényének bizonyítását vázolják. Először legyen

Y n i 1 n X i

úgy, hogy

M n Y n n

A Csebisev egyenlőtlenséget felhasználva mutassuk meg, hogy minden $n$ és minden $ε 0$ esetén

M n 2 μ ε σ 2 n 2 ε 2

Használjuk fel a előző gyakorlat eredményét és az első Borel-Cantelli lemmát annak megmutatására, hogy minden $ε 0$ esetén

M n 2 μ ε végtelen sok esetben, ha n 0

Használjuk fel a előző gyakorlat eredményét és a Boole egyenlőtlenséget annak megmutatására, hogy

Létezik egy racionális ε 0 úgy, hogy M n 2 μ ε végtelen sok esetben, ha n 0

Következtessünk az előző gyakorlatból arra, hogy $M n 2 μ ha n 1$ .

Ideiglenesen tételezzük fel, hogy az alapmintaváltozónk nemnegatív:

X 0 1

Mutassuk meg, hogy 1 valószínűséggel, $Y n$ $n$ szerint növekvő.

n

esetén legyen

k n

az egyetlen olyan pozitív egész szám, amelyre

k n 2 n k n 1 2

Az előző gyakorlat eredményét és algebrai ismereteket felhasználva mutassuk meg, hogy 1 valószínűséggel

Y k n 2 k n 1 2 Y n n Y k n 1 2 k n 2

A 11. gyakorlat, a 13. gyakorlat és a határértékre vonatkozó korlátozó (squeeze) tétel-ből következik a nemnegatív változókra vonatkozó nagy számok erős törvénye: $M n μ ha n 1$

Most enyhítsünk az

X

alapminta változóra vonatkozó feltételen, a változó legyen nemnegatív és emlékeztetünk arra, hogy az

x

valós szám pozitív és negatív részének a definíciója:

x x 0, x x 0

Felhasználva a 6. Gyakorlatot és 14. gyakorlatot mutassuk meg, hogy 1 valószínűséggel:

$1 n i 1 n X i X ha n$
$1 n i 1 n X i X ha n$

Végül mutassuk meg, hogy $M n μ ha n$ 1 valószínűséggel.

A nagy számok erős törvényének előbbiekben vázolt bizonyítása megkívánja, hogy a minta eloszlásának szórásnégyzete véges legyen (megjegyezzük, hogy ez a kritikus pont a 8. gyakorlatban és a 9. gyakorlatban). Továbbá léteznek jobb bizonyítások is, amik csak annyit kívánnak meg, hogy

X

. Lásd például, Probability and Measure c. Patrick Billingsley könyvet!

Szimulációs gyakorlatok

A kocka kísérletben a kockán lévő pontszámok egy speciális eloszlásból vett véletlen mintát alkotnak. Válasszuk ki az u.n. átlag véletlen változót, ez a változó a kockadobások pontszámainak - mint mintának - az átlaga. A kockadobások pontszámainak eloszlása (értéke) 1-től, a minta méretéig, $n$ -ig vehet fel értéket. Figyelje meg, hogy a minta átlagának eloszlása kezd hasonlítani egy ponttömeg eloszláshoz. 1000-szer lefuttatjuk a szimulációt, a gyakoriságot 10-esével frissítgetve. Megemlítjük, hogy a mintaátlag empirikus sűrűségfüggvényének az elméleti sűrűségfüggvényhez való konvergenciája nyilvánvaló.

A projektben szereplő több appletet a minket érdeklő alap véletlen változóval végrehajtott kísérletekkel szimuláljuk. Amikor lefuttatjuk a szimulációt, a kísérletet többször végrehajtjuk egymástól függetlenül. A legtöbb esetben az applet az átlagot numerikusan egy táblázatban jeleníti meg, a grafikonon pedig az alsó vizszintes kék sáv közepe jelöli. Amikor futtatjuk a szimulációt, a minta átlaga szintén megjelenik a táblázatban numerikusan, és a grafikonon pedig az alsó vizszintes piros sáv közepe jelöli.

A binomiális pénzérme kisérlet szimulációjában a fejek számát figyeljük. 1000-szer lefuttatjuk a szimulációt, a gyakoriságot 10-esével frissítgetve. Megemlítjük, hogy a mintaátlagnak az elméleti átlaghoz való konvergenciája nyilvánvaló.

A megfeleltetéses kísérlet szimulációjában az összepasszoló párok száma véletlen változó. 1000-szer lefuttatjuk a szimulációt, a gyakoriságot 10-esével frissítgetve. Megemlítjük, hogy a mintaátlagnak az elméleti átlaghoz való konvergenciája nyilvánvaló.

A gamma kísérlet szimulációjában a beérkezési idők egy véletlen változót reprezentálnak. 1000-szer lefuttatjuk a szimulációt, a gyakoriságot 10-esével frissítgetve. Megemlítjük, hogy a mintaátlagnak az elméleti átlaghoz való konvergenciája nyilvánvaló.

Kiterjesztések és speciális esetek

A véletlen minták és a mintaátlagok a valószínűségszámításban és a statisztikában mindenütt jelenlévő fogalmak. Ebben a részfejezetben látni fogjuk, hogy a mintaátlagokat hogyan használhatjuk valószínűségek, sűrűségfüggvények és eloszlásfüggvények becslésére.

Relatív gyakoriság

Tételezzük fel, hogy

X

az alapkísérlet egy véletlen változója, értékeit az

S

térből veszi. Megjegyezzük, hogy

X

a kísérlet eredményváltozója is lehet, amikor is

S

a mintatér. Minden eseményre,

S

egy általános tér, így

X

lehet vektor-értékű is. Emlékezzünk vissza arra, hogy az

X

-nek az eloszlása valószínűségi mérték az

S

-en a következő egyenlőség által megadva:

Tételezzük fel, hogy az alapkísérletet

n

-szer végezzük el, s kapjuk az

X 1 X 2 X n

véletlen mintát, melynek

n

eleme van és hogy az

X

eloszlású mintából lett véve. Az

X

változó empirikus eloszlása az alábbi mintával van definiálva:

Bár a mintától való függést nem jelöltük, megemlítjük, hogy minden

A S

-re

P n A

egy statisztika, ami megadja az

A

- ban lévő mintaértékek arányát.

Mutassuk meg, hogy fix $A$ , $P n A$ esetén az $n$ elemű véletlen mintából vett mintaátlag $X A$ indikátor változó eloszlásából vett véletlen minta átlaga. Így következtessünk arra, hogy

$P n A X A$
$P n A 1 n X A 1 X A$
$P n A X A$ ha $n$ 1 valószínűséggel.

A nagy számok törvényének ez a speciális esete alapvető a valószínűség fogalmának pontos megértéséhez.

Mutassuk meg, hogy fix minta esetén $P n$ kielégíti a valószínűségi mérték axiómáit.

X

véletlen mintán alapuló tapasztalati eloszlása diszkrét eloszlás, az

X 1 X 2 X n

különböző mintaértékekre összesítve. Valóban, az eloszlás

1 n

valószínűséget ad meg az

X i

-re minden

i 12 n

esetén, így ha a mintaértékek különbözőek, akkor a tapasztalati eloszlás egyenletes ezeken a mintaértékeken.

Ennek a projektnek néhány appletje érdekes eseményekkel kapcsolatos véletlen kísérletek szimulációja. Amikor elvégezzük a kísérletet, az a kísérlet egymástól függetlenül történő elvégzését jelenti. A legtöbb esetben az applet kijelzi az esemény és komplementerének relatív gyakoriságát mind grafikusan (kék színnel), mind numerikusan táblázatban. Amikor elvégzi a kísérletet, a relatív gyakoriságokat piros színnel láthatjuk, és ezek numerikusan is megjelennek.

A Buffon féle pénzérme kísérlet szimulációjában a megfigyelt esemény az, hogy a feldobott pénzérme ráesik-e a kijelölt négyzetes terület (padlólap, csempe) szélére (vonalára). Végezzük el a kísérletet 1000-szer, a gyakoriságot 10-esével frissítgetve. Az esemény relatív gyakoriságának a valószínűséghez való konvergenciája jól látható.

A Bertrand kísérlet szimulációjában a minket érdeklő esemény az, hogy egy kör véletlen húrja hosszabb-e, mint a körbe írt szabályos háromszög egy oldalának a hossza. Végezzük el a kísérletet 1000-szer, a gyakoriságot 10-esével frissítgetve. Az esemény relatív gyakoriságának a valószínűséghez való konvergenciája jól látható.

Az empirikus eloszlásfüggvény

Tételezzük fel, hogy

X

egy alapkísérlet valós értékű véletlen változója. Emlékeztetünk arra, hogy egy

X

változónak az

F

eloszlásfüggvénye

Most tételezzük fel, hogy az alapkísérletet

n

alkalommal megismételjük, s így kapunk egy

X 1 X 2 X n

véletlen mintát, amely

n

elemből áll és eloszlása ugyanaz, mint

X

eloszlása. Természetesnek tűnik az empirikus eloszlásfüggvény minta alapján történő következő definíciója:

Bár a mintától való függést nem jelöltük, megemlítjük, hogy minden

x

esetén

F n x

egy statisztika, ami megadja az

x

-nél kisebb vagy egyenlő mintaelemek arányát.

Mutassuk meg, hogy $F n$ az $X$ empirikus eloszlás eloszlásfüggvénye, ami az $X 1 X 2 X n$ véletlen mintán alapul. Részletezve:

$F n$ 0-tól 1-ig nő.
$F n$ lépcsősfüggvény $X 1 X 2 X n$ különböző mintaértékeknél történő ugrásokkal.

Mutassuk meg, hogy minden $x$ esetén $F n x$ egy olyan $n$ méretű véletlen mintából vett mintaátlag, amely az $X x$ indikátor változó eloszlásából lett véve. Ebből következően mutassuk meg, hogy

$F n x F x$
$F n x 1 n F x 1 F x$
$F n x F x$ ha $n$ 1 valószínűséggel.

Diszkrét változó empirikus sűrűségfüggvénye

Tételezzük fel, hogy

X

egy alapkísérletnél egy véletlen változó, amely diszkrét eloszlású egy

S

megszámlálható halmazon. Megjegyezzük, hogy az

S

megszámlálható halmazra nincsenek feltételek, így

X

vektor értékű is lehet. Emlékeztetünk arra, hogy

X

valószínűségi sűrűségfüggvénye az

f

függvény, amely a következő módon van megadva:

Tételezzük fel, hogy az alapkísérletet

n

-szer megismételjük, s így kapjuk az

X 1 X 2 X n

n

elemű véletlen mintát

X

eloszlásából. Az

X

relatív gyakoriság függvény, vagy empirikus sűrűségfüggvény definíciója elég természetes módon a következő:

Bár nem említjük jelölésünkben a mintától való függőségét, megjegyezzük, hogy minden

x S

esetén

f n x

egy statisztika ami megadja, hogy a mintaváltozók hanyadrésze egyenlő

x

-szel.

Mutassuk meg, hogy $f n$ az $X$ empirikus eloszlásának a valószínűségi sűrűségfüggvénye, amely az $X 1 X 2 X n$ mintán alapul. Speciálisan

$f n x 0$ , ha $x S$
$x x S f n x 1$

Mutassuk meg, hogy minden $x$ -re $f n x$ egy $n$ elemű véletlen mintából vett mintaátlag, mely az $X x$ indikátor változó eloszlásából lett választva. Ílymódon következtessünk arra, hogy

$f n x f x$
$f n x 1 n f x 1 f x$
$f n x f x$ , ha $n$ 1 valószínűséggel.

Mutassuk meg, hogy ha $X$ valós értékű, akkor az $X 1 X 2 X n$ véletlen minta átlaga az empirikus sűrűségfüggvényre vonatkozólag számított átlag, azaz

1 n i 1 n X i x x S x f n x

Ebben a projektben sok applet olyan kísérletek szimulációja, amelyben az eredményváltozó folytonos eloszlású. Amikor elvégezzük a kísérletet, az a kísérlet egymástól függetlenül történő elvégzését jelenti. A legtöbb esetben az applet kijelzi a valódi sűrűségfüggvényt grafikusan (kék színnel). Amikor elvégzi a kísérletet, a relatív gyakoriságokat piros színnel láthatjuk, és ezek numerikusan is megjelennek.

A póker kísérletben a véletlen változó a kéz "típusa". Végezzük el a kísérletet 1000-szer, a gyakoriságot 10-esével frissítgetve. Az empirikus sűrűségfüggvénynek a valódi sűrűségfüggvényhez való konvergenciája jól látható.

A binomiális pénzérme kísérletben a véletlen változó a fejek száma. Végezzük el a kísérletet 1000-szer, a gyakoriságot 10-esével frissítgetve. Az esemény relatív gyakoriságának a valószínűséghez való konvergenciája jól látható.

A párosítási kísérletben a párok száma a véletlen változó. Végezzük el a kísérletet 1000-szer, a gyakoriságot 10-esével frissítgetve. Az empirikus sűrűségfüggvénynek a valódi sűrűségfüggvényhez való konvergenciája jól látható.

Empirikus sűrűségfüggvény folytonos változóra

Speciálisan

1

hosszmérték az

egydimenziós térben,

2

terület az

2

kétdimenziós térben (síkon), és

3

térfogat az

3

háromdimenziós térben.

Tételezzük fel, hogy

X

egy alapkísérlet véletlen változója, folytonos eloszlású az

S k

halmazon, és hogy

X

valószínűségi sűrűségfüggvénye

f

. Gyakorlatilag,

f

k

-ra vonatkozó valószínűségi sűrűségfüggvény. Így, a definíció alapján

Újra ismételjük meg az alapkísérletet

n

-szer, megkapjuk az

X 1 X 2 X n

véletlen mintát, melynek

n

eleme van és a mintaelemek eloszlása megegyezik

X

eloszlásával. Tételezzük fel, hogy

A j j J

S

halmaznak egy megszámlálható részhalmazokra való felbontása. Mint korábban, definiálhatjuk

A j

empirikus eloszlását

Nyilvánvaló, hogy a empirikus sűrűségfüggvény függ a felbontástól, valamint a mintától, de ezt a jelölésben a nehéz kezelhetőség miatt nem fejezzük ki. Természetesen, minden

x

esetén

f n x

egy véletlen változó (valójában egy statisztika), de a sűrűségfüggvény definíciója miatt elegendően finom felbontás esetén (úgy, hogy

k A j

kicsi minden

j

-re) és a minta mérete

n

elegendően nagy, akkor a nagy számok törvénye miatt

Mutassuk meg, hogy az $f n$ empirikus sűrűségfüggvény kielégiti az elméleti sűrűségfüggvény matematikai tulajdonságait olyan eloszlás esetén, amelyik $S$ -en folytonos:

$f n x 0$ for $x S$
$x S f n x 1$

Mutassuk meg, hogy az $f n$ empirikus sűrűségfüggvény olyan eloszlásnak felel meg, amelyre $P n A j$ egyenletes eloszlású az $A j$ halmaz felett minden $j J$ -re.

Ebben a projektben sok applet olyan kísérletek szimulációja, amelyben az eredményváltozó folytonos eloszlású. Amikor elvégezzük a kísérletet, az a kísérlet egymástól függetlenül történő elvégzését jelenti. Az applet kijelzi a valódi sűrűségfüggvényt grafikusan (kék színnel). Amikor elvégzi a kísérletet, az empirikus sűrűségfüggvényt piros színnel láthatjuk.

Abban a szimulációban, amely a gamma kísérletre vonatkozik, sok paraméter van és figyelembe vesszük az elméleti sűrűségfüggvény alakját és fekvését.Végezzük el a kísérletet 1000-szer, a gyakoriságot 10-esével frissítgetve. Az esemény relatív gyakoriságának a valószínűséghez való konvergenciája jól látható.

Abban a szimulációban, amely a véletlen változó kísérletre vonatkozik, válasszuk ki a normális eloszlást. Végezzük el a kísérletet 1000-szer, a gyakoriságot 10-esével frissítgetve. Az esemény relatív gyakoriságának a valószínűséghez való konvergenciája jól látható.

Adatfeltáró analízis

A korábbiakban említett fogalmak közül nagyon sokat használnak az un. adatfeltáró analízisben. Speciálisan tegyük fel, hogy

x

egy populációra vonatkozó változó (általában vektorértékű) és hogy

x 1 x 2 x n

egy

n

elemszámú mintából vett megfigyelési adatok, amelyek erre a változóra vonatkoznak. Például

x

lehet a M&Ms cukorka egy csomagjának nettó súlya és a különböző színű cukorkák száma (megfelelően kódolva). Legyen most

A j j J

az adathalmaznak egy felbontása, ahol

J

egy véges index halmaz. A felbontásban szereplő halmazok általában mint osztályok ismertek. Ugyanúgy, mint korábban, definiáljuk az

A j

gyakoriságát

Végül, ha

x

folytonos változó, mely értékeit

k

-ból veszi, akkor definiáljuk

A j

sűrűségét az alábbi módon:

A leképezés, ami a gyakoriságokat az osztályokhoz rendeli, mint gyakorisági eloszlás ismert az adathalmazra. A leképezés, ami a relatív gyakoriságokat az osztályokhoz rendeli, mint relatív gyakorisági eloszlás ismert az adathalmazra. Végül a folytonos változó esetében a leképezés, ami a sűrűségeket az osztályokhoz rendeli, mint sűrűségi eloszlás ismert az adathalmazra. Amikor

k 1

vagy

k 2

, akkor ezen eloszlások oszlopdiagramja hisztogram néven ismert.

Ezen empirikus eloszlások elkészítésének és ábrázolásának a teljes célja, hogy összegezzük és abrázoljuk az adatokat valamilyen értelmes módon. Így, néhány általános irányelv az osztályok megválasztásához:

Az interaktív hisztogramban klikkeljünk az $x$ -tengelyen különböző pontokra, hogy generáljunk egy 20 elemből álló adathalmazt. Változtassuk az osztályt 0.1-től 5.0-ig terjedően öt különböző szálességben, majd ismételjük ezt meg. Az osztályszélesség mindegyik választásánál a gyakoriság hisztogram és a relatív gyakoriság hisztogram között átválthatunk. Megjegyezzük, hogy a hisztogram alakja változik, ha ezeket az operációkat végrehajtjuk.

Nagyon fontos, hogy megértsük: folytonos változó esetén is kénytelenek vagyunk gyakorisági adatokat használni. Például tételezzük fel, hogy egy M&Ms zacskó cukorka (grammokban mért) súlya reprezentálja a mi változónkat és hogy a mérő eszközünk pontossága 0.01 gramm. Ha egy csomag súlyát 50.32 grammnak mérjük, akkor annak súlya valójában az alábbi intervallumba esik:

50.315 50.324

(vagy talán néhány más intervallum, attól függően, hogyan működik a mérőeszköz.). Hasonlóan, amikor két zacskó ugyanannyinak lett mérve, a súlyok látszólagos egyenlősége valójában a mérőeszköz pontatlanságának az eredménye; valójában a két zacskó majdnem bizonyosan nem ugyanolyan súlyú. Így, az ugyanolyan súlyúnak mért két zacskó valójában csak 2 gyakoriságot jelent az előbbi intervallumon.

Újra, létezik egy kompromisszum az osztályok száma és mérete között; ezeket meghatározza az empirikus eloszlás felbontása. Szélsőséges esetben, amikor az osztály mérete kisebb, mint a regisztrált adatok pontossága, mindegyik osztály vagy egy adatot tartalmaz, vagy egyet sem. Ebben az esetben nincs információveszteség, vissza tudjuk nyerni az eredeti adathalmazt a gyakorisági eloszlásból (kivéve azt az esetet, amikor ordinális típusúak az adatok. Másrészt nehéz megkülönböztetni az adatok alakját, amikor sok, kis gyakoriságú osztályunk van. A másik szélsőséges esetben a gyakorisági hisztogram a lehetséges értékek egy osztályát tartalmazza. Ebben az esetben minden információ elvész, kivéve az adathalmaz értékeinek a száma. A két szélsőséges eset között az empirikus eloszlás részleges, de nem teljes információval szolgál. Ezek a közbeeső esetek képesek adatainkat megfelelően szervezni.

Az interaktív hisztogramon állítsa az osztály szélességét 0.1-re. Kattintson az $x$ -tengelyre, hogy előállítson egy 10 különböző elemet tartalmazó, összesen 20 elemű adathalmazt.

A gyakorisági eloszlásból közvetlenül írja le az adathalmaz 20 elemét.
Növelje meg az osztályszélességét 0.2, 0.5, 1.0, és 5.0 értékűre. Nézze meg, hogyan csökken a hisztogram felbontása. Így veszíti el a gyakoriság eloszlás az eredeti adathalmazzal kapcsolatos információkat.

Számítsuk ki a mintaátlagot és adjuk meg a sűrűséghisztogramot a Michelson féle fénysebesség adatokra!

Számítsuk ki a mintaátlagot és adjuk meg a sűrűséghisztogramot a Cavendish féle Föld sűrűségi adatokra!

Vizsgáljuk az M&M adathalmazt!

Számítsuk ki a mintaátlagot és adjuk meg a sűrűséghisztogramot a cukorkák számára!
Számítsuk ki a mintaátlagot és adjuk meg a sűrűséghisztogramot a nettó súlyra!

A Kabóca adathalmazban számítsuk ki a mintaátlagot és adjuk meg a sűrűséghisztogramot a súlyváltozóra az alábbi megszorításokkal! Jegyezzük fel a különbségeket!

Összes eset.
Egyenként mindegyik fajtára.
A hím és nőnemű egyedekre.

Tekintsük a Fisher féle nőszirom (írisz) adatokat!. Számítsuk ki a mintaátlagot és adjuk meg a sűrűséghisztogramot a sziromlevél hossz-változójára az alábbi megszorításokkal! Hasonlítsuk össze az eredményeket!

Összes eset.
Mindegyik fajta egyedre.

Az interaktív hisztogramban állítsuk be az osztályt 0.1 szélességűre és klikkeljünk a tengelyre, hogy generáljunk adott típusú eloszlást 30 ponttal. Növeljük meg az osztályszélességeket, mindegyiket négy értékkel és írjuk le az eloszlás típusát.

Egyenletes eloszlás.
Szimmetrikus, egycsúcsú eloszlás.
Egycsúcsú jobbra ferde eloszlás.
Egycsúcsú balra ferde eloszlás.
Szimmetrikus két csúcsú eloszlás.
$u$ -alakú eloszlás.

2. Mintaátlag és a nagy számok törvénye

Mintaátlag

Momentumok

Linearitás

A Nagy számok törvénye

Gyenge törvények

Erős törvények

Szimulációs gyakorlatok

Kiterjesztések és speciális esetek

Relatív gyakoriság

Az empirikus eloszlásfüggvény

Diszkrét változó empirikus sűrűségfüggvénye

Empirikus sűrűségfüggvény folytonos változóra

Adatfeltáró analízis