A Pólya féle urna és a Béta-Bernoulli folyamat

Ebben a részben két valószínűségi modellt fogunk tanulmányozni, amelyek önmagukban is érdekesek és fontosak. A tény, hogy mély kapcsolat van a két folyamat között, természetesen még inkább fontosabbá teszi őket. A Pólya féle urna elrendezés dichotom mintamodell, ami általánosítja a hipergeometrikus modellt (visszatevés nélküli mintavétel) és a Bernoulli modell (visszatevéses mintavétel). A beta-Berenoulli folyamatot a béta eloszlású Bernoulli kísérletben a

p

paraméter randomizálása által kapjuk meg. A paraméterek bizonyos értékei esetén a két folyamat ekvivalens, ez egy érdekes és meglepő eredmény.

A Pólya féle urnafolyamat

Tételezzük fel, hogy van egy urnánk (mi más!), ami kezdetben

a

piros és

b

zöld golyót tartalmaz, ahol

a

és

b

pozitív egészek. A folyamat mindegyik időegységénél kiválasztunk egy golyót az urnából, majd visszatesszük azt

c

db ugyanolyan színű új golyóval együtt. Általában a

c

paraméter nemnegatív egész. Mégis a modell valójában akkor értelmes, ha

c

negatív egész és ha ezt úgy interpretáljuk, hogy ennek jelentése: inkább eltávolítunk golyót az urnából, mint beleteszünk és feltesszük, hogy az urnában a megfelelő színű golyókból elegendő számú áll rendelkezésre. Ez a véletlen folyamat, mint Pólya féle urnafolyamat néven ismert, Pólya Györgynek köszönhetően.

A kiválasztott golyók színével kapcsolatban a Pólya féle urna séma általánosítja a visszatevés nélküli mintavétel standard modelljeit. Megjegyezzük, hogy

$c 0$ megfelel a visszatevéses mintavételnek.
$c 1$ megfelel a visszatevés nélküli mintavételnek.

A legfontosabb részhez tételezzük fel, hogy

c

nemnegatív egész úgy, hogy a folyamatot korlátlanul tudjuk folytatni. Alkalmanként vizsgáljuk a

c 1

esetet, úgy, hogy a visszatevés nélküli mintavétellel kapcsolatban interpretálni tudjuk az eredményeket.

Az eredményváltozók

Jelölje

X i

i

-edik időegységben a kiválasztott golyó színét, ahol 0 a zöld, 1 a piros színt jelöli. Matematikailag az alap véletlen folyamatunk indikátor változóknak a sorozata:

Mint minden véletlen folyamatnál, első célunk, hogy kiszámítsuk

X

véges dimenziós eloszlásait. Azaz, ki akarjuk számolni

X 1 X 2 X n

együttes eloszlását minden

n

-re.

Néhány további megjegyzés valóban segíteni fog. Emlékeztetünk arra, hogy a kombinatorikus struktúrák tanulmányozásakor az általánosított permutációs formulát így definiáltuk:

r

s

, és

j

, esetén

Szokás szerint elfogadjuk azt a konvenciót (megállapodást), hogy az üreshalmaz feletti szorzat 1. Ezért

r s 0 1

minden

r

és

s

esetén.

Emlékeztetünk arra, hogy

$r 0 j r j$
$r 1 j r j r r 1 r j 1$
$r 1 j r r 1 r j 1$
$r r j j r j$ .
$11 j j$ .

A véges dimenziós eloszlásokat könnyű kiszámolni, felhasználva a feltételes valószínűség szorzási szabályát. Ha bármely időpontban ismerjük az urna tartalmát, akkor egy kimenet valószínűsége a következő időpontban triviálisan számolható.

Legyen $x 1 x 2 x n 01 n$ és legyen $k x 1 x 2 x n$ Mutassuk meg, hogy

X 1 x 1 X 2 x x X n x n a c k b c n k a b c n

Az előző gyakorlatban az együttes valószínűség pontosan a piros golyók

k

számától függ. Így, az együttes eloszlás invariáns a koordináták permutációjára és ezért

X

egy cserélhető sorozat. Természetesen, az együttes eloszlást egy korábban kapott formulává redukálja a visszatevéses mintavétel speciális eseteiben (

c 0

) , vagy a visszatevés nélküli mintavétel speciális eseteiben (

c 1

), annak ellenére, hogy az utóbbi esetben

n a b

kell, hogy igaz legyen.

Mutasuk meg, hogy $X i 1 X i a a b$ minden $i$ -re.

Így

X

azonos eloszlású változóknak egy sorozata, először teljesen meglepő, de természetesen elkerülhetetlen minden cserélhető sorozat esetén. Hasonlítsuk össze az együttes és a marginális eloszlásokat! Megjegyezzük, hogy

X

akkor és csak akkor független sorozat, ha

c 0

, amikor a minta visszatevéses. A Pólya urna a véletlen folyamatok leghíresebb példáinak egyike, amelyben az eredményváltozók cserélhetők, ám (általában) nem függetlenek.

Tételezzük fel, hogy $i$ és $j$ különböző indexek. Mutassuk meg, hogy

$X i 1 X j 1 X i X j a a b a c a b c$
$X i X j a b c a b 2 a b c$
$X i X j c a b c$

Így a változók pozitívan korreláltak, ha

c 0

, negatívan korreláltak, ha

c 0

, és korrelálatlanok (valójában függetlenek), ha

c 0

. Ezek az eredmények bizonyosan értelmet kapnak, ha felelevenítjük a Pólya féle urna dinamikáját.

A Pólya urna indikátor változók egy sorozata által írható le. Tanulmányozni szeretnénk ugyanazokat a származtatott véletlen folyamatokat, amelyeket a Bernoulli kísérleteknél tanulmányoztunk: az első

n

kísérletben a piros golyók számát, a

k

-adik piros golyó kíhúzásának a számát, és így tovább.

A piros golyók száma

Megjegyezzük, hogy

Az első $n$ kísérletben kiválasztott zöld golyók száma $n Y n$ .
A első $n$ kísérlet után az urnában lévő piros golyók száma $a c Y n$ .
Az első $n$ kísérlet után az urnában lévő zöld golyók száma $b c n Y n$ .
Az első $n$ kísérlet után az urnában lévő golyók száma $a b c n$ .

Természtesen

Y Y 0 Y 1 Y 2

részletösszeg folyamat, amely

X

-szel kapcsolatos. Az

Y

alapvető elemzése könnyen következik az

X

-szel kapcsolatos eredményeinkből.

Mutassuk meg, hogy

Y n k n k a c k b c n k a b c n, k 01 n

Ezen sűrűségfüggvény által definiált eloszlás ismert, ( megfelelően elegendő módon) mint Pólya eloszlás. Természetesen, az eloszlás binomiális eloszlássá redukálódik a visszatevéses mintavétel esetében (

c 0

) és hipergeometrikus eloszlássá a visszatevés nélküli mintavétel esetén (

c 1

), bár ebben az esetben is újra szükséges, hogy

n a b

legyen. Az az eset, amikor a három paraméter egyenlő, különösen érdekes.

Tételezzük fel, hogy $a b c$ . Mutassuk meg, hogy $Y n$ egyenletes eloszlású a $01 n$ halmazon.

Indítsuk el a Pólya urna kísérlet szimulációját. Változtassuk a paramétereket, és figyeljük meg a sűrűségfüggvény alakját. Különösen jegyezzük meg, amikor a függvény aszimmetrikus, amikor a függvény szimmetrikus, amikor a függvény egycsúcsú, amikor a függvény monoton, amikor a függvény U-alakú. A paraméterek különböző értékeire végezzük el a kísérletet 1000-szer és figyeljük meg az empirikus sűrűségfüggvénynek az elméleti sűrűségfüggvényhez való nyilvánvaló konergenciáját.

Oldjuk meg a $Y n k Y n k 1$ egyenlőtlenséget $k$ -ra. Speciálisan mutassuk meg, hogy

A sűrűségfüggvény egycsúcsú, ha $a b c$ és $n a c b c$ .
A sűrűségfüggvény egycsúcsú, ha $b a c$ és $n b c a c$ .
A sűrűségfüggvény U-alakú, ha $c a b$ és $n c b c a$ .
A sűrűségfüggvény U-alakú, ha $c b a$ és $n c a c b$ .
A sűrűségfüggvény növekedő, ha $b c a$
A sűrűségfüggvény csökkenő, ha $a c b$

A következőkben találjuk meg a várható értéket és a szórásnégyzetet. Szokás szerint fő eszközeink: a tény, hogy egy összeg várható értéke egyenlő a várható értékek összegével és hogy összeg szórásnégyzete a páronként vett kovarianciák összege. Érdekes módon, a várható érték nem függ a

c

paramétertől.

Mutassuk meg, hogy

$Y n n a a b$
$Y n n a b a b 2 1 n 1 c a b c$

Indítsuk el a Pólya urna kísérlet szimulációját! Változtassuk a paramétereket és figyeljük meg a tapasztalati várható érték/tapasztalati standard szórás grafikonjának helyét és alakját. A paraméterek különböző értékeire végezzük el a kísérletet 1000-szer és figyeljük meg az empirikus átlagnak és a standard szórásnak a megfelelő elméleti értékekez való nyilvánvaló konvergenciáját.

Számítsuk ki $Y 5$ sűrűségfüggvényét, várható értékét és szórásnégyzetét, amikor $a 6$ , $b 4$ , és $c 1012310$ következő értékeire. Vázoljuk fel mindegyik esetben a sűrűségfüggvény grafikonját!

Rögzítsük le $a$ , $b$ , és $n$ , értékét és legyen $c$ . Mutassuk meg, hogy

$Y n 0 b a b$
$Y n n a a b$
$Y n k 0$ $k 12 n 1$ -re.

Így

Y n

határeloszlása 0-ra és

n

-re koncentrálódik. A határvalószínűségek éppen a zöld és piros golyók kezdeti hányadosai. Interpretáljuk ezt az eredményt a Pólya féle urna elrendezés dinamikájával kapcsolatban.

A piros golyók aránya

Tételezzük fel, hogy

c

nemnegatív, így a folyamat korlátlanul folytatódik. Az első

n

kísérletben a kiválasztott piros golyók aránya

Ez egy érdekes változó, mivel egy kis elmélkedés azt a látszatot kelti, hogy lehet határéték ha

n

növekedik. Valóban, ha

c 0

, akkor

M n

épp az

n

Bernoulli kísérletnek megfelelő mintaátlag. Így, a nagy számok törvénye miatt

M n

a a b

-hez tart, ha

n

1 valószínűséggel.

Amikor

c 0

, akkor természetesen

Z n a a b

úgy, hogy

Z n

és

M n

határértékei hasonlóan viselkednek.

Tételezzük fel, hogy $c 0$ . Mutassuk meg, hogy $M n$ -nek akkor és csak akkor van határértéke, ha $Z n$ -nek van határértéke és ebben az esetben a határértékek ugyanazok.

Ha a határértékek léteznek, akkor 1 valószínűséggel léteznek.
Ha a határértékek léteznek, akkor eloszlásban léteznek.

Tételezzük fel, hogy $a b c$ . Mutassuk meg, hogy $M n$ eloszlása a $01$ intervallumon egyenletes eloszlású valsózínűségi változóhoz konvergál, ha $n$ .

Még általánosabban igaz ez, amikor

c 0

M n

és

Z n

1 valószínűséggel konvergál egy

U

valószínűségi változóhoz, ami beta eloszlású

a c

bal és

b c

jobb paraméterekkel. Szükségünk lesz a martingálok elméletére, hogy levezessük és megértsük ezeket az eredményeket.

k

-adik piros golyó kísérletszáma

Tételezzük fel újra, hogy

c

nemnegatív, úgy, hogy a folyamat korlátlanul folytatódik.

k

-re legyen

Ekkor a $V$ és $Y$ véletlen folyamatok bizonyos értelemben egymás inverzei. Mutassuk meg, hogy $V k n$ akkor és csak akkor, ha $Y n 1 k 1$ és $X n 1$ , $k$ -re és $n$ -re.

Tételezzük fel, hogy $n$ és $k 01 n 1$ . Mutassuk meg, hogy

X n 1 Y n 1 k a k c a b n 1 c

Speciálisan, ha $a b c 1$ akkor

$X n 1 Y n 1 k k 1 n 1$
$X n 1 Y n 1 n 1 n n 1$

Ez utóbbi valószínűségek kielégítik a Laplace féle öröklési szabályt, egy másik érdekes összefüggést. A szabály Pierre Simon Laplaceról van elnvezve és a Függetlenség részben külömböző szempontok alapján tanulmányozni fogjuk.

Felhasználva a 7. gyakorlatot, a 17. gyakorlatot, a 18. gyakorlatot, és a feltételes valószínűség szorzási szabályát mutassuk meg, hogy

V k n n 1 k 1 a c k b c n k a b c n, n k k 1 k 2

Természetesen, ez a sűrűségfüggvény negatív binomiális

k

kísérleti paraméterrel és

p a a b

valószínűségparaméterrel, amikor

c 0

(visszatevéses mintavétel).

Tételezzük fel, hogy $a b c$ . Mutassuk meg, hogy

V k n k n n 1, n k k 1 k 2

Fix $a$ , $b$ , és $k$ -ra tegyük fel, hogy $c$ . Mutassuk meg, hogy

$V k k a a b$
$V k n 0$ $n k 1 k 2$ -ra.

Így

V k

határeloszlása 0-ra és

-re koncentrálódik. Ebben a két pontban a határvalószínűségek a piros és zöld golyók kezdeti aránya. Interpretáljuk ezt az eredményt a Pólya féle urnalrendezés dinamikájával kapcsolatban.

A béta-Bernoulli folyamat

Egy érdekes dolog majdnem minden parametrikus modellben az, hogyanrandomizáljunk egy vagy több paramétert. Bizonyos tekintetben ez gyakran vezet érdekes, új modellekhez és a modellek között nem várt kapcsolatokhoz.Ebben a részfejezetben a Bernoulli kísérleti modellben randomizálni fogjuk a siker paramétert.

Tételezzük fel, hogy

W

béta eloszlású a

01

intervallumban

a 0

bal és

b 0

jobb paraméterrel. Így

W

g

sűrűségfüggvénye

A következőben tételezzük fel, hogy

X X 1 X 2 X 3

indikátor valószínűségi változóknak egy olyan sorozata, mely olyan tulajdonságú, hogy

X

egy

W p

által adott feltétetles független sorozat.

Röviden, adott

W p

X

p

paraméterű Bernoulli kísérleteknek egy sorozata. Az

X

-re úgy fogunk hivatkozni, mint egy

a

és

b

paraméterű béta-Bernoulli folyamatra.

Statisztikai alkalmazásoknál feltételezzük, hogy egy Bernoulli kísérlet folyamatunk van (például pénzfeldobások) ismeretlen valószínűséggel. A valószínűséget béta eloszlással modellezzük; az

a

és

b

paramétereket úgy választjuk ki, hogy tartalmazzák erről a valószínűségről ismereteinket (ha van valami).

Eloszlások

Mi az első lépésünk? Nos, természetesen szükséges kiszámolnunk

X

végse dimenziós eloszlásait.

Legyen $x 1 x 2 x n 01 n$ és legyen $k x 1 x 2 x n$ A $W$ -vel kapcsoaltos feltétel mellett mutassuk meg, hogy

X 1 x 1 X 2 x x X n x n a k b n k a b a 1 k b 1 n k a b 1 n

Így, ha

a

és

b

egészek, akkor az

X

béta-Bernoulli folyamat ekvivalens az

a

b

, és

c 1

paraméterű Pólya féle urna folyamattal, ez egy szép eredmény. Általában, a folyamatok nem ekvivalensek. A béta-Bernoulli folyamat egy kicsit korlátozó abban az értelemben, hogy az

a

és

b

paramétereknek nem kell egésznek lenni; inkább megszorító abban az értelemben, hogy

c

-nek 1-nek kell lennie.

Ellenőrizzük, hogy azok az alapvető matematikai eredmények a Pólya folyamat esetén is érvényesek, amelyek a béta-Bernoulli folyamat esetén érvényesek, kivéve természetesen azt, amikor $a$ és $b$ tetszőleges pozitív szám (nem feltétlenül egész) lehet és hogy $c$ -nek 1-nek kell lennie.

Felhasználva a Bayes tételt mutassuk meg, hogy $W$ $Y n k$ feltétel melletti feltételes eloszlása béta eloszlású $a k$ bal és $b n k$ jobb paraméterekkel.

Így a bal paraméter növekedik a sikeres kísérletek számával, míg a jobb paraméter növekszik a sikertelen kísérletek számával. A Bayes statisztika nyelvén ez azt jelenti, hogy

W

eredeti eloszlása apriori eloszlás, és

W

Y n k

feltétel melletti feltételes eloszlása aposteriori eloszlás. A tény, hogy a posteriori eloszlás béta eloszlás, valahányszor az apriori eloszlás béta eloszlás, azt jelenti, hogy a béta eloszlások családja konjugált család. Ezeket a fogalmakat altalánosabban tanulmányozzuk a Bayes becslésekről és Pontbecslésekről szóló fejezetekben.

Futtassuk le a béta érme kísérlet szimulációját a paraméter különböző értékeire. Figyeljük meg az apriori sűrűségfüggvényből a posterior sűrűségfüggvénybe történő változást a fejek adott száma mellett.

8. A Pólya féle urna és a béta-Bernoulli folyamat

A Pólya féle urnafolyamat

Az eredményváltozók

A piros golyók száma

A piros golyók aránya

A $k$ -adik piros golyó kísérletszáma

A béta-Bernoulli folyamat

Eloszlások

8. A Pólya féle urna és a béta-Bernoulli folyamat

A Pólya féle urnafolyamat

Az eredményváltozók

A piros golyók száma

A piros golyók aránya

A k -adik piros golyó kísérletszáma

A béta-Bernoulli folyamat

Eloszlások

A $k$ -adik piros golyó kísérletszáma