]>
A bevezetőben említettük, hogy egy valószínűségi változó különböző függvényeinek várható értéke révén a valószínűségi változó sok fontos tulajdonságát jellemezhetjük. Ebben a fejezetben ezzel a módszerrel többek között az eloszlás elkentségét, ferdeségét fogjuk vizsgálni.
Mint általában, tekintsünk egy eseménytéren egy véletlen kísérletet és egy valószínűségi mértéket. Tegyük fel, hogy egy értékű, a kísérlettől függő valószínűségi változó. Emlékezzünk vissza arra, hogy várható értéke vagy átlaga nem más, mint az eloszlásának középértéke. szórásnégyzete pedig egy olyan mennyiség, amely azt méri, hogy az eloszlás mennyire elkent a várható érték körül. A formális definíció:
A szórásnégyzetet szokás varianciának is nevezni, erre utal a fenti jelölés is. Szerepelt korábban az is, hogy -nek az középpontú második momentuma . Tehát a szórásnégyzet épp középpontú második momentuma, vagy más szóval második centrált momentuma. A második momentumnak van egy érdekes fizikai interpretációja. Ehhez képzeljük el, hogy eloszlása egy tömegeloszlás -en. Ekkor az középpontú második momentuma épp a tömegeloszlás középpontú tehetetlenségi nyomatéka. Intuitívan ez nem más, mint a tömegeloszlás ellenállása az középpontú forgatásokkal szemben. Speciálisan, szórásnégyzete épp a tömegközéppontú tehetetlenségi nyomaték.
Tegyük fel, hogy diszkrét eloszlású, és a súlyfüggvénye . A változócserére vonatkozó tétellel igazoljuk, hogy
Tegyük fel, hogy folytonos eloszlású, és a sűrűségfüggvénye . A változócserére vonatkozó tétellel igazoljuk, hogy
Az változó szórása a szórásnégyzetének gyöke. Ez a mennyiség is az eloszlás elkentségét méri, viszont a mértékegysége ugyanaz, mint mértékegysége:
A következő feladatok a szórásnégyzet néhány alapvető tulajdonságára világítanak rá. A megoldásuk természetesen a várható érték tulajdonságain múlnak:
Igazoljuk, hogy .
Igazoljuk, hogy
Igazoljuk, hogy pontosan akkor, ha valamilyen konstanssal.
Lássuk be, hogy ha és konstansok, akkor .
Igazoljuk, hogy az alábbi valószínűségi változónak 0 a várható értéke és 1 a szórásnégyzete:
A 7. feladatban szereplő valószínűségi változót nevezik az változó standardizáltjának. Mivel , a várható értéke és a szórása mind azonos mértékegységű mennyiségek, ezért a standardizált dimenzió nélküli mennyiség. Ez a mennyiség igazából -nek az -től mért előjeles távolsága, a szóráshoz viszonyítva.
Ha , a szórás és a várható érték hányadosa a variációs együttható. Értelemszerűen ez is dimenziómentes mérőszám.
A Csebisev egyenlőtlenség (nevét Pafnutyij Csebisev-ről kapta) felső becslést ad annak a valószínűségére, hogy a valószínűségi változó értéke egy bizonyos távolságnál messzebb esik a várható értékétől. Igen hasznos gyakorlati feladatokban, hiszen alkalmazható akkor is, ha nem ismerjük az eloszlást, elég, ha a várható értékre és a szórásnégyzetre van egy jó becslésünk. A következő két feladatban tegyük fel, hogy egy valós értékű valószínűségi változó várható értékkel és szórással.
A Markov egyenlőtlenség felhasználásával igazoljuk a Csebisev egyenlőtlenséget:
Igazoljuk a Csebisev egyenlőtlenség következő, az előzővel ekvivalens alakját:
A Csebisev egyenlőtlenség nagy előnye, hogy az eloszlástól függetlenül igaz (feltéve, hogy létezik a várható érték és a szórásnégyzet). Ugyanakkor hátránya, hogy meglehetősen durva becslést ad. Például vegyük észre, hogy az utóbbi feladatban a becslés semmitmondó, ha , hiszen az 1 felső becslés bármilyen esemény valószínűségére.
Tegyük fel, hogy egy indikátor változó, és .
Vegyük észre, hogy legkisebb értéke 0, melyet a és a esetekben vesz fel. A legnagyobb értéke pedig , a paraméterérték esetén.
Tegyük fel, hogy diszkrét egyenletes eloszlású az halmazon (ahol ).
Tegyük fel, hogy folytonos egyenletes eloszlású az intervallumon.
Vegyük észre, hogy mind a diszkrét, mind a folytonos esetben a szórásnégyzet csak az intervallum hosszától függ.
Egy hagyományos kocka alatt hat oldalú dobókockát értünk. Az igazságos kocka olyan, hogy ha feldobjuk, minden oldalára azonos valószínűséggel esik. Az egy-hat irányban lapos kocka egy hagyományos kocka, ami feldobás után az 1 és 6 értékeket , a 2, 3, 4 és 5 értékeket valószínűséggel mutatja.
Egy hagyományos, igazságos kockát feldobtunk. Határozzuk meg a dobott érték várható értékét, szórásnégyzetét és szórását!
A kockadobálós kísérletben válasszunk egy igazságos kockát. Szimuláljunk 1000 kísérletet, és figyeljük meg, hogyan konvergál az empirikus várható érték és szórás a valódi várható értékhez és a valódi szóráshoz.
Feldobtunk egy egy-hat irányban lapos kockát. Határozzuk meg a dobott érték várható értékét, szórásnégyzetét és szórását.
A kockadobálós kísérletben válasszunk egy egy-hat irányban lapos kockát. Szimuláljunk 1000 kísérletet (frissítsük az ábrát minden tizedik után), és figyeljük meg, hogyan konvergál az empirikus várható érték és szórás a valódi várható értékhez és a valódi szóráshoz.
A Poisson eloszlás súlyfüggvénye
ahol
paraméter (nevét Simeon Poisson-ról kapta). Gyakran használják egy adott halmazba eső véletlen pontok
számának leírására, ekkor nyilván az
paraméter arányos a halmaz méretével. A Poisson eloszlás részletes tárgyalása a Poisson folyamat fejezetben található.
Tegyük fel, hogy Poisson eloszlású paraméterrel.
Tehát azt kaptuk, hogy a paraméter az eloszlás várható értéke és szórásnégyzete is egyben.
A Poisson kísérletben a paraméter . Változtassuk a paraméterértéket, és figyeljük meg, hogyan változik az empirikus várható értéket és empirikus szórást jelölő intervallum. Néhány kiválasztott paraméterértékre szimuláljunk 1000 kísérletet (frissítsük az ábrát minden tizedik után), és figyeljük meg, hogyan konvergál az empirikus várható érték és szórás a valódi várható értékhez és a valódi szóráshoz.
A geometriai eloszlás egy -en értelmezett eloszlás, melynek súlyfüggvénye
ahol paraméter. A geometriai eloszlás az első sikeres kísérlet sorszáma egy Bernoulli kísérletsorozatban, ahol a siker valószínűsége .
Tegyük fel, hogy geometriai eloszlású, és a siker valószínűsége .
A negatív binomiális kísérletben állítsuk be a paraméterértéket, hogy visszakapjuk a geometriai eloszlást. Változtassuk értékét, és figyeljük meg, hogyan változik az empirikus várható értéket és empirikus szórást jelölő intervallum. Néhány kiválasztott paraméterértékre szimuláljunk 1000 kísérletet (frissítsük az ábrát minden tizedik után), és figyeljük meg, hogyan konvergál az empirikus várható érték és szórás a valódi várható értékhez és a valódi szóráshoz.
Tegyük fel, hogy geometriai eloszlású paraméterrel. Számítsuk ki a valódi értékét és a Csebisev egyenlőtlenségből kapott becslését azon esemény valószínűségének, hogy -nak a várható értékétől való távolsága nem kisebb, mint a szórásának kétszerese.
Az exponenciális eloszlás egy folytonos eloszlás, melynek sűrűségfüggvénye
ahol
egy paraméter, melyet gyakran rátának neveznek. Ez az eloszlás jól modellezi bizonyos gépek, alkatrészek meghibásodásáig eltelt időt, vagy egyes érkezési időpontokat
. Az exponenciális eloszlás részletes tárgyalása a Poisson folyamat fejezetben található.
Tegyük fel, hogy exponenciális eloszlású paraméterrel.
Tehát azt kaptuk, hogy az exponenciális eloszlás várható értéke és szórása azonos.
A gamma eloszlás kísérletében állítsuk be a paraméterértéket, hogy megkapjuk az exponenciális eloszlást. Változtassuk az értékét, és figyeljük meg, hogyan változik az empirikus várható értéket és empirikus szórást jelölő intervallum. Néhány kiválasztott paraméterértékre szimuláljunk 1000 kísérletet (frissítsük az ábrát minden tizedik után), és figyeljük meg, hogyan konvergál az empirikus várható érték és szórás a valódi várható értékhez és a valódi szóráshoz.
Tegyük fel, hogy exponenciális eloszlású paraméterrel. Számítsuk ki a valódi értékét és a Csebisev egyenlőtlenségből kapott becslését azon esemény valószínűségének, hogy -nek a várható értékétől való távolsága nem kisebb, mint a szórásának -szorosa.
A Pareto eloszlás egy folytonos eloszlás, melynek sűrűségfüggvénye
ahol paraméter. Az eloszlás Vilfredo Pareto-ról kapta a nevét. Ez egy lassan lecsengő eloszlás, melyet gyakran alkalmaznak különböző pénzügyi mennyiségek (pl. bevétel) modellezésére. A Pareto eloszlást részletesen a Nevezetes eloszlások fejezetben tárgyaljuk.
Tegyük fel, hogy Pareto eloszlású paraméterrel.
A valószínűségi változók kísérletében válasszuk ki a Pareto eloszlást. Változtassuk az értékét, és figyeljük meg, hogyan változik az empirikus várható értéket és empirikus szórást jelölő intervallum. A következő paraméterértékre szimuláljunk 1000 kísérletet (frissítsük az ábrát minden tizedik után), és vizsgáljuk meg az empirikus várható érték és szórás viselkedését.
A standard normális eloszlás egy folytonos eloszlás, melynek sűrűségfüggvénye:
A Normális eloszlás rendkívül széles körben alkalmazható, például hibával terhelt mérési eredmények modellezésére. Részletes tárgyalása a Nevezetes eloszlások fejezetben található.
Tegyük fel, hogy standard normális eloszlású.
Legyen ismét standard normális eloszlású és , . Ekkor normális eloszlású hely- és skála-paraméterrel .
Tehát, ahogy az elnevezés sugallja is, a hely-paraméter egyben a várható érték, a skála-paraméter pedig a szórás.
A valószínűségi változók kísérletében válasszuk ki a normális eloszlást. Változtassuk a paramétereket, és figyeljük meg, hogyan változik az empirikus várható értéket és empirikus szórást jelölő intervallum. Néhány kiválasztott paraméterértékre szimuláljunk 1000 kísérletet (frissítsük az ábrát minden tizedik után), és figyeljük meg, hogyan konvergál az empirikus várható érték és szórás a valódi várható értékhez és a valódi szóráshoz.
A következő eloszlások a béta eloszlások családjába tartoznak, melyek alkalmazhatók például véletlenszerűen kialakuló arányok modellezésére. A béta eloszlás részletes tárgyalása a Nevezetes eloszlások fejezetben található.
Rajzoljuk le az alábbi sűrűségfüggvényeket, és mindegyiknek határozzuk meg a várható értékét és a szórását.
A (d) részfeladatban lévő béta eloszlást nevezik arkusz szinusz eloszlásnak.
Tegyük fel, hogy valós értékű valószínűségi változó, továbbá és . Határozzuk meg a következő mennyiségeket:
Tegyük fel, hogy és független valós értékű valószínűségi változók, melyekre és amint . Igazoljuk, hogy
Marilyn Vos Savant IQ-ja 228. Tegyük fel, hogy az IQ pontok eloszlásának 100 a várható értéke és 15 a szórása. Határozzuk meg Marilyn intelligencia hányadosának standardizáltját!
Tegyük fel, hogy egy valós értékű valószínűségi változó. Az előbb definiált szórásnégyzet nem más, mint várható értéke körüli második momentuma, ami eloszlásának a várható értéke körüli elkentségét méri. Ugyanakkor harmadik és negyedik momentuma is érdekes mennyiségeket mér. A harmadik momentum a ferdeséget méri, azaz, hogy az eloszlás mennyire nem szimmetrikus. A negyedik momentum a lapultságot méri, azaz, hogy mennyire csúcsos az eloszlás. Pontosabban ahhoz, hogy ezeket a mennyiségeket mérjük, a szórás megfelelő hatványával leosztunk, hogy mértékegység nélküli mérőszámot kapjunk. Mint mindig, a következőkben is feltesszük, hogy a megfelelő várható értékek léteznek, és bevezetjük a és a jelöléseket.
Az valószínűségi változó ferdesége (vagy ferdeségi együtthatója) a standardizáltjának a harmadik momentuma, azaz:
eloszlását pozitív ferdeségűnek, negatív ferdeségűnek, illetve szimmetrikusnak nevezzük, attól függően, hogy pozitív, negatív, vagy 0. Durván szólva azt mondhatjuk, hogy ha pozitív a ferdeség, akkor a súly-, vagy sűrűségfüggvénynek lassabb a lecsengése a pozitív irányban. Következésképpen több súly esik a negatív irányba. Analóg módon, ha negatív a ferdeség, akkor a súly-, vagy sűrűségfüggvénynek lassabb a lecsengése a negatív irányban, következésképpen több súly esik a pozitív irányba.
Tegyük fel, hogy folytonos eloszlású sűrűségfüggvénnyel, amely szimmetrikus az pont körül: .
Igazoljuk, hogy
Az valószínűségi változó lapultsága a standardizáltjának negyedik momentuma:
Minél nagyobb egy eloszlás lapultsága, annál "hegyesebb a csúcsa" és annál "lassabb a lecsengése".
Igazoljuk, hogy
Rajzoljuk le a következő sűrűségfüggvények gráfját, és minden esetben határozzuk meg a várható értéket, a szórásnégyzetet, a ferdeséget és a lapultságot! (A feladatban szereplő összes eloszlás a béta eloszláscsalád tagja).
A szórásnégyzet és a magasabb momentumok szoros kapcsolatban állnak a vektorterek norma és távolság fogalmaival. Ha megértjük ezt az összefüggést, jobban átláthatjuk a momentumok jelentését.
Tekintsünk egy vektorteret, amely az valószínűségi mezőn értelmezett valós értékű valószínűségi változókból áll (azaz minden valószínűségi változó ugyanattól a véletlen kísérlettől függ). Két valószínűségi változót ekvivalensnek nevezünk, ha 1 valószínűséggel megegyeznek. Két ilyen valószínűségi változóhoz rendeljük ugyanazt a vektort, így precízen a vektorterünk a fenti ekvivalencia reláció szerinti ekvivalencia osztályokból áll. Az összeadás legyen a valószínűségi változók, mint függvények összeadása, a skalárral való szorzás pedig a valószínűségi változó, mint függvény, adott (determinisztikus) számmal való szorzása.
Legyen valós értékű valószínűségi változó. Minden -re definiáljuk a -normát a következő képlettel:
Tehát valamilyen értelemben nagyságát méri. A következő feladat az alapvető tulajdonságokra világít rá.
Igazoljuk, hogy bármely -re.
Igazoljuk, hogy pontosan akkor, ha (azaz, ha ekvivalens a 0 valószínűségi változóval).
Igazoljuk, hogy bármely konstansra.
A következő feladatban a Minkowski egyenlőtlenséget bizonyíthatjuk be (amely a nevét Hermann Minkowski-ról kapta). Ezt az összefüggést háromszög egyenlőtlenségnek is hívják.
Igazoljuk, hogy minden és esetén.
A 42.-45. Feladatokból következik, hogy azon valószínűségi változók, melyeknek véges a -adik momentuma, az eredeti vektorterünk egy alterét alkotják, és a -norma valóban norma ezen a vektortéren:
A következő feladatban a Lyapunov egyenlőtlenséget bizonyíthatjuk (amely nevét Aleksandr Lyapunov-ról kapta). Az egyenlőtlenség azt mutatja, hogy a -norma növekvő -ban.
Igazoljuk, hogy ha akkor .
A Lyapunov egyenlőtlenség következménye, hogy ha és -adik momentuma véges, akkor -edik momentuma is véges. Tehát altere.
Tegyük fel, hogy egyenletes eloszlású a intervallumon.
Tegyük fel, hogy sűrűségfüggvénye , ahol paraméter, azaz Pareto eloszlású paraméterrel.
Tegyük fel, hogy sűrűségfüggvénye . Igazoljuk a Minkowski egyenlőtlenséget ebben a speciális esetben.
A -norma, mint minden vektortéren értelmezett norma, használható távolság mérésére: egyszerűen a két vektor különbségének a normája a távolságuk. Tehát definiáljuk a -távolságot (vagy -metrikát) két valós értékű valószínűségi változó, és között a következő módon:
A következő feladatokban bizonyítandó tulajdonságok a analógak a 42.-45. feladatokban bizonyítottakkal (és csak egy kevés új számolás szükséges a megoldásukhoz). Azt látjuk be, hogy a -metrika valóban metrika.
Igazoljuk, hogy tetszőleges , esetén.
Igazoljuk, hogy pontosan akkor, ha (azaz ha és ekvivalensek).
Igazoljuk, hogy bármely , , esetén (ez a háromszög egyenlőtlenség).
Tehát a szórás nem más, mint -nek és a várható értékének 2-távolsága:
és a szórásnégyzet ennek a kifejezésnek a négyzete. Általánosabban, körüli -adik momentuma nem más, mint és -távolságának -adik hatványa. A 2-távolság különösen fontos, hogy miért, azt nemsokára meglátjuk. A fontossága indokolja, hogy külön elnevezést kapjon: ez a átlagos négyzetes távolság.
Az, hogy mit értünk egy eloszlás középértékén és elkentségén, nagyban függ attól, hogy melyik távolságfogalmat használjuk. Egy valószínűségi változóra először megkeressük azt a konstanst, amely a legközelebb van -hez. Itt persze használnunk kell a választott metrikánkat. Az ilyen -t az adott metrikára vonatkozó középértéknek nevezhetjük. Az ezen -vel elért minimális távolság pedig a metrikánkra vonatkozó elkentség mértéke.
Alkalmazzuk a fenti eljárást a 2-távolságra! Ezáltal definiáljuk a átlagos négyzetes hiba gyökét:
Igazoljuk, hogy akkor minimális, ha és ez a minimális érték épp .
Fizikus megfogalmazással élve az előző feladat eredménye azt mutatja, hogy egy tömegeloszlás középpontú tehetetlenségi nyomatéka akkor minimális, ha , azaz a forgatási középpont egybeesik a tömegközépponttal.
A hisztogram applet-ben konstruáljunk az alábbiakban megadott eloszlású diszkrét valószínűségi változókat. Figyeljük meg a várható érték ± szórást jelölő intervallum pozícióját, méretét és az átlagos négyzetes hibafüggvény alakját.
Ezután alkalmazzuk a fenti eljárást az 1-távolságra. Ezáltal definiáljuk az átlagos abszolút hiba függvényt:
Belátjuk, hogy minimális, ha az eloszlás mediánja. A diszkrét esetet tárgyaljuk először, egyrészt mert könnyebb, másrészt mert különösen fontos.
Tegyük fel, hogy egy véges halmazban veszi fel a helyettesítési értékeit.
Az legutóbbi feladat rávilágít az átlagos abszolút hiba függvény lényeges hátrányaira:
Valóban, ha mediánja nem egyértelmű, nincs okunk arra, hogy valamelyik medián értéket a többitől megkülönböztetve az eloszlás közepének tekintsük.
A hisztogram applet-ben konstruáljunk az alábbiakban megadott eloszlású diszkrét valószínűségi változókat. Figyeljük meg a várható értéket és a szórást jelölő intervallum pozícióját, méretét és az átlagos abszolút hibafüggvény alakját.
Legyen indikátor valószínűségi változó, és . Vázoljuk a -et, mint függvényét az alábbi esetekben. Keressük meg a függvény minimumhelyét és minimum értékét!
Legyen most tetszőleges valós értékű eloszlás. Igazoljuk, hogy pontosan akkor minimális, ha az eloszlás mediánja.
Ha van egy távolságfogalmunk, akkor konvergenciát is tudunk definiálni. Legyenek és azonos valószínűségi mezőn definiált valós értékű valószínűségi változók (azaz ugyanattól a véletlen kísérlettől függenek). Azt mondjuk, hogy középben amint ha
vagy ami ezzel ekvivalens:A esetben azt mondjuk, hogy amint átlagban; pedig azt mondjuk, hogy amint négyzetes középben. Ezek a legfontosabb speciális esetek.
A Lyapunov egyenlőtlenség segítségével igazoljuk, hogy ha , akkor ha amint középben, akkor amint középben is.
A következő feladatokban azt igazoljuk, hogy az átlagban való konvergencia erősebb, mint a valószínűségben való konvergencia.
A Markov egyenlőtlenség segítségével igazoljuk, hogy ha amint átlagban, akkor amint valószínűségben.
Az állítás megfordítottja nem igaz. Sőt, a majdnem biztos konvergenciából sem következik a középben való konvergencia, és megfordítva, a középben való konvergenciából nem következik a majdnem biztos konvergencia. A következő két feladatban ezekre adunk ellenpéldát.
Tegyük fel, hogy független valószínűségi változók, hogy
Tegyük fel, hogy független indikátor valószínűségi változók sorozata, továbbá
Az alábbiakban összefoglaljuk, hogy milyen konvergencia típusok implikálják egymást. Semmilyen itt nem szereplő implikáció nem igaz általában.
Egy hasonló statisztikai téma a Minta szórásnégyzete rész a Véletlen minták fejezetben. Valószínűségi változók összegének szórásnégyzeténél alapfogalom a kovariancia, amit részleteiben a következő részben tárgyalunk.