]> A hipergeometrikus eloszlás
  1. Virtuális labóratóriumok
  2. 11. Véges mintavételi modellek
  3. 1
  4. 2
  5. 3
  6. 4
  7. 5
  8. 6
  9. 7
  10. 8
  11. 9

2. A hipergeometrikus eloszlás

Alapelmélet

Tételezzük fel, hogy van egy D dichotom populációnk. Azaz egy populáció, amely csak két típusú objektumot tartalmaz, melyekre úgy hivatkozunk, hogy 1 típusú, vagy 0 típusú. Például

Jelölje R D -nek azt a részhalmazát, amely csak 1 típusú objektumot tartalmaz és tételezzük fel, hogy D m és R r . Amint az alap mintavételi modellben, a mintát a D halmazból n objektum véletlenszerű kiválasztásával nyerjük. Ebben a részben csak az objektum típusai érdekelnek minket, így jelölje X i a választott i -edik objektum (1 vagy 0) típusát. A típusok vektora

X X 1 X 2 X n

Minket főleg az az Y valószínűségi változó érdekel, ami megadja a mintában szereplő 1 típusú objektumoknak a számát. Megjegyezzük, hogy Y egy számláló változó, és így hasonlóan az összes számláló változóhoz, felírható, mint indikátor változók összege, ebben az esetben:

Y i 1 n X i

Feltételezzük, hogy a mintavétel visszatevés nélküli, amely a dichotom populációknál valószerű feltevés.

Sűrűségfüggvény

Emlékeztetünk arra, mivel a mintavétel visszatevés nélküli, a rendezetlen minta egyenletes eloszlású a D -ből választott n méretű összes kombinációk halmaza felett. Ez a megfigyelés Y sűrűségfüggvényének egy egyszerű kombinatorikai származtatásához vezet.

Mutassuk meg, hogy

Y k r k m r n k m n ,  k 0 n m r n r

Ez, mint m , r , és n paraméterű hypergeometrikus eloszlás ismeretes.

Mutassuk meg a hipergeometrikus sűrűségfüggvény következő alternatív alakját kétféle módon: kombinatorikusan mint egy m labdából álló populációból választott n méretű permutáció, és algebrailag, kiindulva az 1. gyakorlat eredményéből.

Y k n k r k m r n k m n ,  k 0 n m r n r

Emlékeztetünk arra a megállapodásra, hogy j i j i 0 i j esetén. Ezzel a megállapodással a sűrűségfüggvénnyel kapcsolatos formulák az 1. gyakorlatban és a 2. gyakorlatban kifogástalanok k 0 1 n esetére. Rendszerint ezt az egyszerűbb előírást használjuk a hipergeometrikus eloszlás értékeihez.

Legyen v r 1 n 1 m 1 . Mutassuk meg, hogy

  1. Y k Y k 1 akkor és csak akkor, ha k v .
  2. A hipergeometrikus eloszlás egycsúcsú, előszőr nő, majd csökken.
  3. A módusz v -ben van, ha v nem egész és v -ben, továbbá v 1 -ben van, ha v 0-nál nagyobb egész.

A golyó és urnakísérletben válasszuk a visszatevés nélküli mintavételt. Változtassuk a paramétereket és figyeljük meg a sűrűségfüggvény alakját. A paraméterek kiválasztott értékeire végezzük el a kísérletet 1000-szer, 10-esével frissítve a gyakoriságot és figyeljük meg a relatív gyakoriság függvényének a sűrűségfüggvényhez való konvergenciáját.

Momentumok

A következő gyakorlatokban Y várható értékének és szórásnégyzetének formuláját fogjuk megadni. Az indikátorváltozók cserélhető tulajdonsága, valamint a kovariancia és a korreláció tulajdonságai játsszák a főszerepet.

Mutassuk meg, hogy X i r m minden i -re.

Mutassuk meg, hogy Y n r m .

Mutassuk meg, hogy X i r m 1 r m minden i -re.

Mutassuk meg, hogy különböző i -re és j -re

  1. X i X j r m 1 r m 1 m 1
  2. X i X j 1 m 1

Jegyezzük meg a 8. gyakorlatból, hogy az az esemény, hogy az i -ből az 1 típusú objektumot húzzuk ki, és az az esemény, hogy a j -ből az 1 típusú objektumot húzzuk ki, negatívan korrelál, de a korreláció csak a populáció méretétől függ és nem függ az 1 típusú objektumok számától. Megemlítjük, hogy a korreláció teljes, ha m 2 . Gondolja át, hogy mit jelentenek ezek az eredmények intuitíven!

Felhasználva a 7. gyakorlat és a 8. gyakorlat eredményeit, mutassuk meg, hogy Y n r m 1 r m m n m 1

Megjegyezzük, hogy Y 0 , ha r 0 , vagy r m> , vagy n m . Gondoljuk át ezeket az eredményeket.

A golyó és urnakísérletben válasszuk a visszatevés nélküli mintavételt. Változtassuk a paramétereket és figyeljük meg a várható érték/standard szórás ábrájának méretét és helyzetét. A paraméterek kiválasztott értékeire végezzük el a kísérletet 1000-szer mindegyik 10-edik kísérlet után frissítve és figyeljük meg az empirikus momentumnak a valódi (elméleti) momentumhoz való konvergenciáját.

Visszatevéses mintavétel

Tételezzük fel, hogy a mintavétel visszatevéses, annak ellenére, hogy az alkalmazásokban rendszerint ez nem valószerű.

Mutassuk meg, hogy X 1 X 2 X n n Bernoulli kísérletnek egy sorozata r m paraméterrel.

Az alábbi eredmények nem következnek közvetlenül a Bernoulli kísérletek általános elméletéből, annak ellenére, hogy a korábban használt bizonyítás módosított változatát használjuk.

Mutassuk meg, hogy Y binomiális eloszlású n és r m paraméterekkel:

Y k n k r m k 1 r m n k ,  k 0 1 n

Mutassuk meg, hogy

  1. Y n r m .
  2. Y n r m 1 r m

Megjegyezzük, hogy a paraméterek minden értékére Y várható értéke ugyanaz, akár visszatevéses, akár visszatevés nélküli mintavételről van szó. Másrészt Y szórásnégyzete m n m 1 faktorral kisebb, amikor a mintavétel visszatevés nélküli. Gondoljuk át ezeket az eredményeket. Az m n m 1 faktort néha véges populációs korrekciós faktornak nevezzük.

A golyó és urnakísérletben változtassuk a paramétereket és váltsunk a visszatevés nélküli és a visszatevéses mintavétel között. Figyeljük meg a hipergeometrikus eloszlás sűrűségfüggvényének és a binomiális eloszlás sűrűségfüggvényének az ábrái közötti különbséget! Figyeljük meg a várható érték/standard szórás grafikonjai közötti különbséget is! A paraméterek kiválasztott értékeire és a két különböző mintavételi mód (eljárás) esetére végezzük el a kísérletet 1000-szer, 10-esével frissítve.

A hipergeometrikus eloszlás konvergenciája a binomiális eloszláshoz

Tételezzük fel, hogy az m populációs méret nagyon nagy az n mintamérethez képest. Ebben az esetben az tűnik ésszerűnek, hogy a visszatevés nélküli mintavétel ne nagyon különbözzön a visszatevéses mintavételtől és ennél fogva a hipergeometrikus eloszlás jól közelítené a binomiális eloszlást. A következő gyakorlat ezt a megfigyelést teszi pontossá. Gyakorlatilag, ez egy értékes eredmény, mivel a binomiális eloszlásnak kevesebb paramétere van. Pontosabban nekünk nem szükséges ismerni az m populációs paramétert és az 1 típusú objektumok számát r egyedenként, hanem csak az alábbi hányadost r m .

Tételezzük fel, hogy r r m m -től függ és hogy r m m p ha m . Mutassuk meg, hogy fix n esetén az m , r m , és n paraméterű hipergeometrikus eloszlás az n és p paraméterű binomiális eloszláshoz konvergál. Útmutatás: Használjuk a 2. gyakorlatban lévő reprezentációt.

Az előző gyakorlatban lévő konvergencia típusa, mint eloszlásban való konvergencia ismert.

A golyó és urnakísérletben változtassuk a paramétereket és váltsunk a visszatevés nélküli és a visszatevéses mintavétel között. Figyeljük meg a hipergeometrikus eloszlás sűrűségfüggvényének és a binomiális eloszlás sűrűségfüggvényének az ábrái közötti különbséget. Speciálisan figyeljük meg a hasonlóságot, amikor m nagy és n kicsi. A paraméterek kiválasztott értékeire és a két különböző mintavételi mód (eljárás) esetére végezzük el a kísérletet 1000-szer, 10-esével frissítve.

A 15. gyakorlat jelöléseit használva mutassuk meg, hogy a hipergeometrikus eloszlás várható értéke és szórásnégyzete konvergál a binomiális eloszlás várható értékéhez és szórásnégyzetéhez, ha m .

Következtetések a hipergeometrikus modellben

Sok valóságos problémában az r vagy m paraméter (vagy mindkettő) lehet ismeretlen. Ebben az esetben a mintában lévő 1 típusú objektumok száma, az Y megfigyelésünkön alapuló ismeretlen paraméterek érdekelnek minket. Feltételezzük, hogy kezdetben a mintavétel visszatevés nélüli, a legtöbb alkalmazásban ez a reális elrendezés.

r becslése ismert m esetén

Tételezzük fel, hogy a populáció mérete, m ismert, de az 1 típusú objektuomok száma, r ismeretlen. Ez a probléma például akkor keletkezhet, ha van m gyárilag készült tételünk, amely ismeretlen számú r selejtes tételt tartalmaz. Nagyon költséges (és esetleg a tesztelt elemet is károsító/megsemmisítő) megvizsgálni mind az m elemet, így ehelyett kiválasztunk n elemet és azokat vizsgáljuk meg selejtesség szempontjából.

r -nek egy minta becslése levezethető, remélve, hogy az 1 típusú objektumok mintabeli aránya közel van az 1 típusú objektumok populációbeli arányához. Azaz

Y n r m   így   r m n Y .

Mutassuk meg, hogy m n Y r .

Az előző gyakorlat eredménye azt jelenti, hogy m n Y torzítatlan becslése r -nek. Ezért a szórásnégyzet a becslés minőségének a mértéke, átlagos négyzetes eltérés értelemben.

Mutassuk meg, hogy m n Y m r r n m n m 1 .

Mutassuk meg, hogy fix m és r esetén m n Y 0 ha n m .

Így a becslés javítható, amint a mintaméret nő; ez a tulajdonság konzisztencia néven ismert.

A golyó és urnakísérletben válasszuk a visszatevés nélküli mintavételt. A paraméterek kiválasztott értékeire végezzük el a kísérletet 100-szor, mindegyik kísérlet után frissítve.

  1. Mindegyik kísérletnél hasonlítsuk össze r valódi értékét a becsült értékkel.
  2. Számítsuk ki az átlagos hibát és az átlagos négyzetes hibát 100 kísérlet után.
  3. Hasonlítsuk össze az átlagos négyzetes hibát a 19. gyakorlatbanban szerepelt szórásnégyzettel.

m becslése ismert r esetén

Tételezzük fel, hogy az 1 típusú objektumok száma, r ismert, de a populációs méret, m ismeretlen. Egy ilyen típusú probléma a következő: tételezzük fel, hogy egy egy tóban m hal van, ahol m ismeretlen. Kifogunk r halat és megjelöljük őket, majd visszadobjuk őket a tóba. Ezekután kifogunk n halat és közöttük Y legyen az ebben a mintában megjelölt halak száma. Ebből az adatból meg szeretnénk becsülni a populáció méretét, azaz m értékét. Ebben az összefüggésben a becslési problémát néha fogás-újrafogás problémának nevezzük.

Gondolja, hogy a mintavételi modell fő feltételét - nevezetesen az egyfomán valószínűségű mintákat - teljesíti a valódi fogás-újrakifogás problémája? Válaszát magyarázza meg!

Mégegyszer le tudjuk vezetni m -nek a mintabecslését remélve, hogy az 1 típusú objektumok mintabeli hányada közel van az 1 típusú objektumok populációs hányadához. Azaz,

Y n r m  így   m n r Y

Ilymódon m n r Y ha Y 0 és definiálatlan, ha Y 0 .

A golyó és urnakísérletben válasszuk a visszatevés nélküli mintavételt. A paraméterek kiválasztott értékeire végezzük el a kísérletet 100-szor, mindegyik kísérlet után frissítve.

  1. Mindegyik kísérletnél hasonlítsuk össze m valódi értékét a becsült értékkel.
  2. Számítsuk ki az átlagos hibát és az átlagos négyzetes hibát 100 kísérlet után.

Mutassuk meg, hogy ha k 0 akkor n r k maximalizálja Y k függvényt, mint m függvényét, fix r és n esetén. Ez azt jelenti, hogy n r Y m maximum likelihood becslése.

Felhasználva a Jensen egyenlőtlenséget mutassuk meg, hogy n r Y m .

Így a becslés torzítatlan és felülről tartva becsli m -et. Valóban, ha n m r , úgy, hogy Y 0 0 akkor n r Y .

Az m becslésének egy másik megközelítését a Rendezett statisztikák részben ismerjük meg.

Visszatevéses mintavétel

Tételezzük fel, hogy a mintavétel visszatevéses, annak ellenére, hogy a legtöbb alkalmazásban ez irreális feltevés. Ebben az eseten Y binomiális eloszlású n és r m paraméterekkel.

Mutassuk meg, hogy

  1. m n Y r .
  2. m n Y r m r n .

Így r becslése ismert m -mel mégis torzítatlan, de az átlagos négyzetes hibája nagyobb. Így a visszatevés nélküli mintavétel jobban működik a paraméterek minden értékére, mint a visszatevéses mintavétel.

A golyó és urnakísérletben válasszuk a viszarevéses mintavételt. A paraméterek kiválasztott értékeire végezzük el a kísérletet 100-szor, mindegyik kísérlet után frissítve.

  1. Mindegyik kísérletnél hasonlítsuk össze m valódi értékét a becsült értékkel!
  2. Számítsuk ki az átlagos hibát és az átlagos négyzetes hibát 100 kísérlet után!

Példák és alkalmazások

100 számítógépes chip között 10 hibás. A 100-ból véletlenszerűen választunk ötöt visszatevés nélkül.

  1. Számítsuk ki a mintában lévő hibás chipek számának sűrűségfüggvényét.
  2. Számítsuk ki a mintában lévő hibás chipek számának várható értékét és szórásnégyzetét.
  3. Adjuk meg annak valószínűségét, hogy a minta legalább egy hibás chipet tartalmaz.

Egy klubnak 50 tagja van; 20 férfi és 30 nő. Véletlenszerűen válaztanak egy 10 tagú bizottságot.

  1. Számítsuk ki a bizottságban lévő nők számának sűrűségfüggvényét.
  2. Adjuk meg a bizottságban lévő nők számának várható értékét és szórásnégyzetét.
  3. Adjuk meg a bizottságban lévő férfiak számának várható értékét és szórásnégyzetét.
  4. Adjuk meg annak valószínűségét, hogy a bizottsági tagok azonos neműek.

Egy kis tó 1000 halat tartalmaz, melyekből 100 meg van jelölve. Tételezzük fel, hogy 20 halat kifogtunk.

  1. Számítsuk ki a mintában lévő megjelölt halak számának sűrűségfüggvényét.
  2. Számítsuk ki a mintában lévő megjelölt halak számának várható értékét és szórásnégyzetét.
  3. Számítsuk ki annak valószínűségét, hogy a mita legalább két megjelölt halat tartalmaz.
  4. Adjuk meg az (a)-ban lévő valószínűség binomiális közelítését.

Egy bizonyos körzetben lévő regisztrált szavazók negyven százaléka az A jelöltet támogatja. Tételezzük fel, hogy véletlenszerűn kiválasztunk 10 szavazót.

  1. Adjuk meg a mintában lévő azon szavazók számának sűrűségfüggvényét, akik az A jelöltet támogatják.
  2. Adjuk meg a mintában lévő azon szavazók számának várható értékét és szórásnégyzetét, akik az A jelöltet támogatják.
  3. Adjuk meg annak valószínűségét, hogy a mintában lévő szavazók közül legalább öt szavazó az A jelöltet támogatja.

Tételezzük fel, hogy 100 memóriachipből véletlenszerűen és visszatevés nélkül vettünk egy 10 elemű mintát. A chipeket ellenőriztük és 2 hibásnak bizonyult. Becsüljük meg a teljes mintában lévő hibás chipek számát.

Egy választókörzetben 5000 regisztrált választó van. Tételezzük fel, hogy véletlenszerűen kiválasztunk 100 választót, akik szavaztak és 40 az A jelöltet támogatta. Becsüljük meg a körzetben levő azon választok számát, akik az A jelöltet támogatják.

Egy bizonyos tóból 200 halat kifogtak, megjelöltek, majd visszadobták a tóba. Ezek után kifogtak 100 halat, melyek közül 10 volt megjelölve. Becsüljük meg a tóban lévő halak számát.

Kártyák

Emlékeztetünk arra, hogy az általános kártyakísérletben véletlenszerűen kiválasztunk n kártyát visszatevés nélkül az 52 lapos kártyacsomagból. Az n 5 speciális eset a póker kísérlet, az n 13 eset a bridge kísérlet.

Egy póker kézben adjuk meg az alábbi változók sűrűségfüggvényét, várható értékét és szórásnégyzetét:

  1. A pikkek száma
  2. Az ászok száma

Egy bridge kézben adjuk meg az alábbi változók sűrűségfüggvényét, várható értékét és szórásnégyzetét:

  1. A kőrök száma.
  2. A honor (ász, király, dáma, bubi, vagy 10-es) kártyák száma.

A randomizált urna

Majdnem minden parametrikus valószínűségi modellben érdekes kihívás az, hogy elvégezzük egy vagy több paraméter randomizálását. A megfelelő módszer gyakran vezet egy érdekes parametrikus modellhez, mivel a randomizált paraméter eloszlása maga is egy paramétercsaládhoz tartozik. Ez a Bayes tételnek egy természetes alkalmazása.

Ebben a részben az alap hipergeometrikus modell 1 típusú objektumainak számát randomizáljuk. Speciálisan tételezzük fel, hogy a populációban m objektumunk van. Továbbá az 1 típusú objektumok fix r száma helyett tételezzük fel, hogy a populációban lévő m objektum mindegyike egymástól függetlenül, 1 típusú objektum p valószínűséggel és 0 típusú objektum 1 p valószínűséggel lehet. Egy paramétert, az r -t kiküszöböltük, az új paraméter, p értékeit a 0 1 intervallumból veszi. Jelölje U i a populációban az i -edik típusú objektumot, ilymódon U U 1 U 2 U m p paraméterű Bernoulli kísérleteknek egy sorozata. Jelölje V U 1 U 2 U m a populációban lévő 1 típusú objektumok számát, így V m és p paraméterű binomiális eloszlású.

Mint az előbb, vegyünk egy n objektumból álló mintát a populációból. Jelölje ismét X i a mintavétel i -edik objektumát, és jelölje Y X 1 X 2 X n a mintában lévő 1 típusú objektumok számát. A visszatevéses és a visszatevés nélküli mintavételt is vizsgáljuk. Az első esetben a minta mérete csak poiztív egész lehet, de a második esetben a minta mérte nem haladhatja meg a populáció méretét. A randomizált urna elemzésében a kulcs-technika a V -re vonatkozó feltétel. Ha tudjuk, hogy V r , akkor a modell az előbb tanulmányozott esetre redukálódik: m elemű populáció r 1 típusú objektummal és n mintamérettel.

Mutassuk meg, hogy bármelyik típusú mintavétel esetén

X i 1 V m p

Így bármelyik modellben, X azonos eloszlású indikátor változóknak egy sorozata. No, és mi van a függetlenséggel?

Tételezzük fel, hogy a mintavétel visszatevés nélküli. Legyen x 1 x 2 x n 0 1 n és legyen továbbá y x 1 x 2 x n Mutassuk meg, hogy

X 1 x 1 X 2 x x X n x n V y m V n y m n p y 1 p n y
  1. Mutassuk meg az első egyenlőséget a V feltétel segítségével.
  2. A második egyenlőség esetén legyen G s t s V t m V és vegyük figyelembe, hogy G egy valamilyen generátorfüggvény.
  3. Felhasználva a binomiális tételt, mutassuk meg, hogy G s t p s 1 p t m .
  4. Jelölje G j k G j k -ad rendű parciális deriváltját, j -szer az első és k -szor a második argumentum szerint deriválva.
  5. (b)-t felhasználva mutassuk meg, hogy G j k 1 1 V j m V k .
  6. (c)-t felhasználva mutassuk meg, hogy G j k 1 1 m j k p j 1 p k .

A előző gyakorlatból az együttes eloszlást használva látjuk, hogy X p paraméterű Bernoulli kísérleteknek egy sorozata, és ezért Y binomiális eloszlású n és p paraméterekkel. Közvetlenül is tudjuk igazolni, hogy X Bernoulli kísérleteknek egy sorozata azzal a magyarázattal, hogy X 1 X 2 X n a U 1 U 2 U m -nek egy véletlenszerűen választott részhalmaza.

Tételezzük fel, hogy a mintavétel visszatevéses. Legyen x 1 x 2 x n 0 1 n és legyen y x 1 x 2 x n Mutassuk meg, hogy

X 1 x 1 X 2 x x X n x n V y m V n y m n

X együttes eloszlására egy m , n , és p paraméterekkel kifejezett zárt formulát adni nem könnyű, de legalább azt könnyű látni, hogy az együttes eloszlás nem lesz ugyanaz, mint a visszatevés nélküli mintavételnél. Így X egy független sorozat. Megjegyezzük továbbá, hogy X egy cserélhető sorozat, mivel az együttes eloszlás invariáns a koordináták permutációjára (ez egy egyszerű következménye annak a ténynek, hogy együttes eloszlás csak az y összegtől függ).

Megjegyezzük, hogy

Y k n k V k m V n k m n ,   k 0 1 n

Számítsuk ki a típus változó párok kovarianciáját és korrelációját, amikor a mintavétel visszatevéses. Tételezzük fel, hogy i és j különböző indexek. Mutassuk meg, hogy

  1. X i 1 X j 1 V m 2 p 1 p m p 2
  2. X i X j p 1 p m .
  3. X i X j 1 m .

Most megkaphatjuk Y várható értékét és szórásnégyzetét. Mutassuk meg, hogy

  1. Y n p
  2. Y n p 1 p m n 1 m .

Fejezzük be egy érdekes megfigyeléssel: randomizált urna esetén X független változóknak egy sorozata, amikor a mintavétel visszatevés nélküli, de függő változóknak egy sorozata, amikor a mintavétel visszatevéses -- éppen az ellenkezője a fix számú 1 típusú objektumú determinisztikus urnának.