]> Rendstatisztikák
  1. Virtuális laboratóriumok
  2. 5. Véletlen minták
  3. 1
  4. 2
  5. 3
  6. 4
  7. 5
  8. 6
  9. 7

6. Rendstatisztikák

Definíciók

Tételezzük fel, hogy van egy alap véletlen kísérletünk és hogy X valós értékű valószínűségi változó F eloszlásfüggvényel és f sűrűségfüggvénnyel.

Hajtsunk végre n független alapkísérletet, hogy generáljunk egy X X 1 X 2 X n n méretű X eloszlásból vett véletlen mintát. Emlékeztetünk arra, hogy ez független véletlen változóknak egy sorozata, melyek mindegyikének az eloszlása megegyezik X eloszlásával.

Jelölje X n k X az X minta k -adik legkisebb elemét. Ezt a statisztikát rendstatisztikának nevezzük, s azt mondjuk, hogy a rendje k . Statisztikai elemzéseknél az első lépés gyakran az, hogy rendezzük az adatokat; így a rendstatisztikák előfordulása természetes dolog. Ebben a fejezetben az a célunk, hogy tanulmányozzuk a rendstatisztikák eloszlását a mintaeloszlásokkal kifejezve. Külön megemlítjük az extremális rendstatisztikákat, a minimumot és a maximumot:

X n 1 X 1 X 2 X n ,  X n n X 1 X 2 X n

A rendstatisztika kísérletben az alapértelmezett beállításokat használjuk és néhányszor elvégezzük a kísérletet. A következőket említjük meg:

  1. A baloldalon lévő táblázat a rendstatisztika értékeit mutatja.
  2. A baloldalon lévő ábra a mintaeloszlás sűrűségfüggvényét mutatja kék színnel jelölve, a mintaértékek pirossal vannak beírva.
  3. A jobboldalon lévő ábra a kiválasztott rendstatisztika sűrűségfüggvényét mutatja kék szinnel bejelölve, pirossal az empirikus sűrűségfüggvény van berajzolva. Az eloszlás átlagának/standard szórásának ábrája kékkel, míg az empirikus átlag/szórás pirossal van jelölve
  4. A jobboldalon lévő táblázat a sűrűségfüggvény numerikus értékeit, momentumait és az empirikus sűrűségfüggvényt és momentumait tartalmazza.

Eloszlások

A k -adik rendstatisztika eloszlása

Jelölje G n k X n k eloszlásfüggvényét. Legyen

N n y i 1 2 n X i y ,  y

Mutassuk meg, hogy N n y binomiális eloszlású n és F y paraméterekkel minden y esetén!

Mutassuk meg, hogy X n k y akkor és csak akkor, ha N n y k y esetén és k 1 2 n -re!

Felhasználva a 2. és 3. gyakorlat eredményét mutassuk meg, hogy

G n k y j k n n j F y j 1 F y n j ,  y

Mutassuk meg, hogy G n 1 y 1 1 F y n ,  y !

Mutassuk meg, hogy G n n y F y n ,  y !

Tételezzük fel, hogy X folytonos eloszlású. Mutassuk meg, hogy X n k folytonos eloszlású és sűrűségfüggvénye a következőképpen néz ki:

g n k y n k 1 1 n k F y k 1 1 F y n k f y ,  y

Útmutatás: Differenciáljuk a 4. gyakorlatban lévő kifejezést y szerint.

A rendstatisztika kísérletben válasszunk a 0 1 intervallumon egyenletes eloszlást és legyen n 5 . Változtassuk k értékét 1-től 5-ig és figyeljük meg a X n k sűrűségfüggvényének az alakját. Minden k értékre végezzük el a szimulációt 1000-szer 10-esével frissítve. Az empirikus sűrűségfüggvény konvergenciája az elméleti sűrűségfüggvényhez nyilvánvalóan látszik.

Létezik egy heurisztikus bizonyítás a 7. gyakorlat eredményére. Először is g n k y y annak a valószínűsége, hogy X n k az y -nak tetszőlegesen kicsi, y sugarú környezetében van. Másrészt ez az esemény azt jelenti, hogy a mintaváltozók némelyike a végtelenül kicsi intervallumban helyezkedik el, k 1 mintaváltozó kisebb, mint y , és n k mintaváltozó nagyobb, mint y . Ezen változók lehetséges kiválasztásainak számát az alábbi multinomiális együttható adja meg:

n k 1 1 n k n k 1 1 n k

A függetlenség miatt annak a valószínűsége, hogy a kiválasztott változók a megadott intervallumokba esnek:

F y k 1 1 F y n k f y y

Tekintsünk egy n elemű véletlen mintát az exponenciális eloszlású r paraméterű valószínűségi változóból. Számítsuk ki a k -adik X n k rendstatisztika sűrűségfüggvényét! Speciálisan megjegyezzük, hogy a változók minimuma (azaz X n 1 ) exponenciális eloszlású n r paraméterrel.

A rendstatisztika kísérletben válasszuk az (1) exponenciális eloszlást és legyen n 5 . Változtassuk k értékét 1-től 5-ig és figyeljük meg a X n k sűrűségfüggvényének az alakját. Minden k értékre végezzük el a szimulációt 1000-szer 10-esével frissítve. Az empirikus sűrűségfüggvény konvergenciája az elméleti sűrűségfüggvényhez nyilvánvalóan látszik.

Vizsgáljuk az n elemű 0 1 intervallumban egyenletes eloszlású véletlen mintát

  1. Mutassuk meg, hogy X n k beta eloszlású k és n k 1 paraméterekkel!
  2. Adjuk meg X n k átlagát és szórásnégyzetét.

A rendstatisztikai kísérletben válasszuk a 0 1 intervallumban az egyenletes eloszlást és legyen n 6 . Változtassuk k értékét 1-től 6-ig és figyeljük meg az átlag/standard szórás helyét és méretét. Minden k értékre végezzük el a szimulációt 1000-szer 10-esével frissítve. Az empirikus momentumok konvergenciája az elméleti momentumokhoz nyilvánvalóan látszanak.

Feldobunk négy szabályos dobókockát. Adjuk meg a rendtatisztikák sűrűségfüggvényeit.

A dobókockakísérletben válasszuk a következő rendstatisztikát és kockaeloszlást. A kockák számát növeljük 1-től 20-ig, figyeljük meg mindegyik esetben a sűrűségfüggvény alakját. n 4 esetére végezzük el a szimulációt 1000-szer 10-esével frissítve. A relatív gyakoriság függvény konvergenciája a sűrűségfüggvényhez nyilvánvalóan látszik.

  1. Szabályos kocka esetén a maximális pontszám.
  2. Szabályos kocka esetén a minimális pontszám.
  3. Szabályos egy-hat irányban lapos kocka esetén a maximális pontszám.
  4. Szabályos egy-hat irányban lapos kocka esetén a minimális pontszám.

Együttes eloszlások

Tételezzük fel újra, hogy X folytonos eloszlású.

Tegyük fel, hogy j k . Használjunk egy heurisztikus bizonyítást annak megmutatására, hogy az X n j X n k együttes sűrűségfüggvénye

g n j k y z n j 1 1 k j 1 1 n k F y j 1 f y F z F y k j 1 f z 1 F z n k ,  y z

Hasonló bizonyítást használhatunk ahhoz, hogy tetszőleges számú rendstatisztika együttes sűrűségfüggvényét megkapjuk. Természetesen, mi elsősorban a rendstatisztikák összességének együttes sűrűségfüggvényének megadásában vagyunk érdekelve; a következő gyakorlat ezt az együttes sűrűségfüggvényt adja meg, amely rendkívül egyszerű alakú.

Mutassuk meg, hogy X n 1 X n 2 X n n együttes sűrűségfüggvénye a következő

g n y 1 y 2 y n n f y 1 f y 2 f y n ,  y 1 y 2 y n
  1. Az 1 2 n elemek mindegyik i i 1 i 2 i n permutációjára legyen S i x n x i 1 x i 2 x i n .
  2. Az S i -en értelmezett x 1 x 2 x n x i 1 x i 2 x i n leképezés egy-egyértelmű, folytonos, első parciális deriváltakkal és 1 Jakobi determinánssal.
  3. Az S i halmazok diszjunktak. Az i az 1 2 n számok n darab permutációja közül az i -ediket jelöli.
  4. Annak valószínűsége, hogy X 1 X 2 X n ezen halmazok egyikével sem egyezik meg, 0.
  5. Használjuk a többváltozós transzformációformulát.

Létezik egy egyszerű, heurisztikus bizonyítás a 16. Gyakorlat formulájára. Minden y n esetén, amennyiben y 1 y 1 y n létezik y koordinátáinak n darab permutációja. X 1 X 2 X n sűrűségfüggvénye ezen pontok mindegyikében f y 1 f y 2 f y n . Ezért X n 1 X n 2 X n n sűrűségfüggvénye y pontban egy n -szor ez a szorzat.

Vizsgáljunk egy n elemű, r paraméterű exponenciális elsozlásból vett mintát. Számítsuk ki az X n 1 X n 2 X n n rendstatisztikák együttes sűrűségfüggvényét!

Tételezzük fel, hogy X 1 X 2 X n egy n elemű a b intervallumban egyenletes eloszlású véletlen minta, ahol a b . Mutassuk meg, hogy

  1. X 1 X 2 X n egyenletes eloszlású az a b n -ben!
  2. X n 1 X n 2 X n n egyenletes eloszlású x a b n a x 1 x 2 x n b -en.

Négy szabályos kockát feldobunk. Adjuk meg a rendstatisztikák sűrűségfüggvényét!

Származtatott statisztikák

Néhány, a rendstatisztikákon alapuló fontos statisztikát tárgyalunk.

Minta terjedelme

A minta terjedelme az

R X n n X n 1 véletlen változó.

Ez a statisztika a minta szóródásának egyszerű mértékét adja. Megjegyezzük, hogy a minta terjedelmének eloszlása a korábban megadott X n 1 X n n együttes eloszlásából kapható meg.

Vizsgáljuk az n elemű, r paraméterű exponenciális eloszlásból vett mintát. Mutassuk meg, hogy a minta R terjedelme ugyanolyan eloszlású, mint az n 1 elemű, exponenciális eloszlásból vett véletlen minta maximumának eloszlása!

Vizsgáljuk az n elemű, 0 1 -ben egyenletes eloszlású véletlen mintát.

  1. Mutassuk meg, hogy R beta eloszlású n 1 és 2 paraméterekkel!
  2. Adjuk meg R várható értékét és szórásnégyzetét.
  3. Mi történik, ha n ?

Feldobunk négy szabályos dobókockát.. Adjuk meg a minta terjedelmének sűrűségfüggvényét!

A minta mediánja

Ha n páratlan, akkor a minta mediánja rendezett megfigyelések középső tagja, azaz

X n k  ahol   k n 1 2

Ha n páros, akkor nem egy középső elem van, hanem kettő. Igy a medián alatt az alábbit értjük:

X n k X n k 1  ahol   k n 2

Ebben az esetben a minta mediánja az intervallum középső pontja.

12 X n k X n k 1  ahol   k n 2

Bizonyos értelemben ez a definíció egy kicsit önkényes, mivel semmi kényszerű indok nincs arra vonatkozólag, hogy a medián intervallum melyik pontját válasszuk. Erre vonatkozólag a hiba függvények elemzésére utalunk a szórásnégyzetről szóló fejezetben. Végül is a minta mediánja egy természetes statisztika, amely megfelel a eloszlás mediánjának. Továbbá a minta mediánjának az eloszlását megkaphatjuk a rendstatisztikák eredményeiből.

Minta kvantilisek

Képesek vagyunk általánosítani a fentebb elemzett minta mediánját egyéb mintakvantilisre. Tételezzük fel, hogy p 0 1 . Legyen k n 1 p , az n 1 p egész része és legyen q n 1 p k az n 1 p tört része. Felhasználva a lineáris interpolációt, definiáljuk a p -ed rendű mintakvantilist a következőképpen:

X n k q X n k 1 X n k 1 q X n k q X n k 1

Még egyszer, a p -ed rendű mintakvantilis egy természetes statisztika, azaz hasonló a p -ed rendű eloszláskvantilishez. Továbbá a mintakvantilis eloszlását megkaphatjuk a rendstatisztikák eredményeiből.

Az 14 rendű mintakvantilis első mintakvartilis néven ismert, és gyakran Q 1 -gyel jelöljük. A 34 rendű mintakvantilis harmadik mintakvartilis néven ismert és Q 3 -mal jelöljük. Megjegyezzük, hogy a minta mediánja 12 rendű kvartilis és néha Q 2 -vel jelöljük. Az interkvartilis tartomány definíciója:

IQR Q 3 Q 1

Az IQR egy statisztika, ami a medián körüli eloszlás kiterjedését méri, de természetesen kevesebb információt ad, mint a Q 1 Q 3 intervallum.

Próba adatanalízis (Felderítő jellegű adatvizsgálat)

Az alábbi öt statisztikára X n 1 Q 1 Q 2 Q 3 X n n gyakran hivatkozunk, mint öt fontos statisztika. Ezek a statisztikák együtt, jó sok információt adnak az eloszlásról, az eloszlás középpontjára, kiterjedésére és ferdeségére vonatkozóan. Az öt számot gyakran boxplot segítségével ábrázoljuk, s amelyik az az X n 1 minimumtól az X n n maximumig húzott egyenesből áll, rajta egy téglalappal a Q 1 első kvartilistől a Q 3 harmadik kvartilisig, bejelölve a minimumot, a Q 2 mediánt és a maximumot.

Az interaktív hisztogramon válasszuk a boxplotot. Konstruáljuk meg a 6 osztályból és legalább 10 értékből álló gyakorisági eloszlást. Számítsuk ki az öt fontos statisztikát és ellenőrizzük, hogy ugyanazt az eredményt kapjuk-e, mint az appletben!

Az interaktív hisztogramon válasszuk a boxplotot. Létesítsünk egy 0.1 szélességű osztályt és konstruáljunk az alább megadott típusok mindegyikéből legalább 30 értékből álló eloszlást. Majd növeljük az osztályszélességet a másik négy statisztika vizsgálatához. Hajtsa végre az oprációkat és figyelje meg a boxplot alakját és az öt fontos statisztika relatív helyzetét:

  1. Egyenletes eloszlás.
  2. Szimmetrikus, egy móduszú eloszlás.
  3. Jobbra ferde egymóduszú eloszlás.
  4. Balra ferde egymóduszú eloszlás.
  5. Szimmetrikus, két móduszú eloszlás.
  6. u -alakú eloszlás.

Az interaktív hisztogramnál válasszuk a boxplotot. Induljunk ki egy eloszlásból és válasszunk néhány további pontot az alábbiak szerint:

  1. Adjunk hozzá egy pontot X n 1 alatt.
  2. Adjunk hozzá egy pontot X n 1 és Q 1 között.
  3. Adjunk hozzá egy pontot Q 1 és Q 2 között.
  4. Adjunk hozzá egy pontot Q 2 és Q 3 között.
  5. Adjunk hozzá egy pontot Q 3 és X n n között.
  6. Adjunk hozzá egy pontot X n n felett.

Az utolsó problémában megjegyezheti, hogy amikor az eloszláshoz hozzáveszünk egy pontot, akkor az öt statisztikából egy, vagy több nem változik. Általában a kvantilisek viszonylagosan érzéktelenek az adatok változására.

Számítsuk ki az öt fő statisztikai mutatószámot és vázoljuk a boxplotot a fénysebesség változóra a Michelson féle adathalmazban! Hasonlítsuk össze a mediánt a fénysebesség valódi értékével!

Számítsuk ki az öt fő statisztikai mutatószámot és vázoljuk a boxplotot a földsűrűség változóra a Cavendish féle adathalmazban! Hasonlítsuk össze a mediánt a föld sűrűségének valódi értékével!

Számítsuk ki az öt fő statisztikai mutatószámot és vázoljuk a boxplotot az M&M adathalmaz súlyváltozójára!

Számítsuk ki az öt fő statisztikai mutatószámot és vázoljuk a boxplotot a Fisher féle nőszirom adathalmazra az alábbiaknak megfelelően! Ábrázoljuk a boxplotokat párhuzamos tengelyeken, így össze tudja hasonlítani őket!

  1. Összes esetet
  2. Csak a Setosa típust
  3. Csak a Verginica típust
  4. Csak a Versicolor típust