]> Bevezetés
  1. Virtuális Laboratóriumok
  2. 5. Véletlen minták
  3. 1
  4. 2
  5. 3
  6. 4
  7. 5
  8. 6
  9. 7

1. Bevezetés

A statisztikai modell

Szokás szerint kiinduló pontunk egy véletlen kísérlet a valószínűségi mezőn, amely egy mintatéren van értelmezve. Az alap statisztikai modellben van egy megfigyelhető valószínűségi változónk X (amelyet adatváltozónak) hívunk és értékeit az S halmazból veszi. Általában, X egy teljesen bonyolult struktúra is lehet. Páldául, ha egy kísérlet egy populációból vett mintavételből áll és a minket érdeklő méréseket rögzítjük, akor az eredmény(mért) változó

X X 1 X 2 X n

ahol az X i az i -edik objektumra vonatkozó mérésekből álló vektor. Az alábbiakban néhány speciális pédát említünk.

  1. Az M&M adathalmazban egy 30 M&M zacskóból álló mintát vizsgálunk. Ehhez, X i jelöli az i -edik zacskóban lévő piros, zöld, kék, narancs, barna színű cukorkáknak a számát és a zacskó (netto) súlyát.
  2. A Fisher féle nőszirom adathalmazban 150 nőszirmot vizsgáltunk. Ehhez a vizsgálathoz X i jelöli az i -edik nőszirom típusát, a sziromlevél hosszát, szélességét, a csészelevél hosszát és szélességét.
  3. A kabóca adathalmazban, 104 kabóca adatait gyüjtöttük össze. Ehhez X i jelöli az i -edik kabóca testsúlyát, testhosszát, szárnyszélességét, szárnyhosszát, nemét és fajtáját.

Másrészt, a matematikai absztrakciót éppen az a képesség jelzi, hogy figyelmen kívül hagyhatjuk azokat a tulajdonságokat, amelyek az adott esetben nem lényegesek, s ezáltal egyetlen objektumként kezeljük a komplex struktúrát. Így, bár a X vektort tekinthetjük, mint vektorok vektorát, ebben a szituációban az a döntő, hogy az egy kísérletben csak egy véletlen változó.

A statisztikának két átfogó ága van. A leíró statisztika kifejezés az x adatok összegzésére és bemutatására vonatkozik. A következtető statisztika kifejezés az X eloszlásáról ad információt, amelyet az x megfigyelt értékből nyerünk. Így, egy bizonyos értelemben, a következtető statisztika a valószínűség duálisa. A valószínűségelméletben megpróbáljuk előrejelezni X értékét, feltételezve a eloszlás ismeretét. A statisztikában megfigyeljük X értékét és megpróbálunk következtetni az alapeloszlásból.

A statisztikának ezek a módszerei roppant eredményesnek bizonyultak; ezek a tecnikák széles körben használtak minden területen, ami mennyiséggel foglalkozik - természettudományok, társadalomtudományok, jog és orvostudomány. Másrészt, a statisztika nagy mennyiségű, és a jogi nyelvezethez hasonló bonyolultságú szakkifejezést használ, ami először egy kicsit ijesztőnek tűnik. Ebben a részben néhány alapvető definíciót fejtünk ki.

Véletlen minták

Ennek a statisztikai modellnek a leggyakoribb és legfontosabb speciális esete, amikor a

X X 1 X 2 X n

megfigyelt változó független és azonos eloszlású változóknak egy sorozata. A standard mintavételi modellben X i maga is vektor, az i -edik objektumhoz tartozó mérési eredmények vektora és így a X 1 X 2 X n vektorra úgy tekintünk, mint az X mérési eredmények vektorának független másolataira. Ebben az esetben X 1 X 2 X n vektorról azt mondjuk, hogy az X eloszlásából vett n elemű véletlen minta.

Változók típusai

Diszkrét és folytonos

Emlékeztetünk arra, hogy egy valós változó folytonos, ha lehetséges értékeit valós számoknak egy intervallumából veszi. Például az M&M adathalmazban a súlyváltozó, a Fisher féle nőszirom adathalmazban a hossz és a szélesség változók folytonosak. Ezzel szemben, diszkrét változó az, amikor a lehetséges értékek halmaza egy diszkrét halmaz. Például az M&M adathalmazban a számláló változók, a Fisher féle nőszirom adathalmazban a változó típusa, kártyakísérletben a kártya színe és értéke diszkrét. A folytonos változók mennyiségeket reprezentálnak, amit gyakorlatilag valamilyen pontossággal mérhetünk. A gyakorlatban természetesen a mérési eszközök korlátozott pontosságúak, így egy folytonos változóból vett adatok szükségszerűen diszkrétek. Azaz, a lehetséges értékeknek csak egy véges (bár esetleg nagyon nagy) halmazával állunk szemben, amit aktuálisan mértünk.

A változók típusainak másik megközelítése

A valós változókat a mérési skála alapján is megkülönböztetjük, ami meghatározza, hogy milyen matematikai műveleteket végezhetünk a változóval. A kvalitatív változók egyszerű típuskódok, és így semmilyen matematikai művelet nem végezhető velük, még akkor sem, ha számok. Ilyen változók a nominális változók. Például a Fisher féle nőszirom adathalmazban a "nőszirom típusa" változó egy kvalitatív változó. Egy változót ordinális típusúnak nevezünk, ha csak az értékeinek a sorrendje a lényeges; a változó értékeinek a különbsége ilyenkor nem számít, még akkor sem, ha a változók számok. Például sok kártyajátékban a színeknek van erő-sorrendje, ezért a színváltozó ordinális típusú (Két szín különbségét azonban nem tudjuk képezni.) Azokat a kvantitatív változókat, amelyeknél csak a változó két értékének különbsége lényeges, de a hányadosa nem, intervallum típusú változónak nevezzük. Ezzel egyenértékű, ha azt mondjuk, hogy a változónak van relatív zérus értéke. (A skála 0 pontja önkényesen van megválasztva). Tipikus példa a hőmérséklet értéke (Fahrenheit vagy Celsius fokban), vagy az idő (órában vagy dátumként). Végül azt a kvantitatív változót, amelynél két érték arányának is van jelentősége, hányados típusú (vagy arány típusú) változónak nevezzük. Ennek a változónak van abszolut zérus értéke (a skála nulla pontja természetes módon adott). Az M&M adathalmazban a "cukorkák száma" változó, vagy a zacskó súlya, mint változó; a Fisher féle nőszirom adathalmazban a sziromlevél hossza és a sziromlevél szélessége változó hányados típusú.

Paraméterek és statisztikák

Paraméterek

A paraméter kifejezés a modell nem véletlen változójára vonatkozik, ami, miután kiválasztottuk, konstans marad. Majdnem minden valószínűséges modell valójában modelleknek egy paramétercsaládja, azaz ezek a modellek egy, vagy több paraméter által vannak vezérelve, ami hozzáilleszthető egy alkalmas létező véletlen modellhez. A szó szoros értelmében egy paraméter az X megfigyelhető változó eloszlásának egy jellemzője. Szokás szerint, általában a paraméterek vektorértékűek is lehetnek.

Azonosítsuk a paramétereket a következő kísérleteknél:

  1. Buffon féle pénzérme kísérlet
  2. Buffon féle tűkísérlet
  3. Binomiális kísérlet

Statisztikák

Statisztika alatt egy W W X véletlen változót értünk, amely a kísérlet eredményényváltozójának egy (megfigyelhető) függvénye. A megfigyelhető kifejezés azt jelenti, hogy a függvény nem tartalmaz ismeretlen paramétert. Végtére is a megfigyelt adatokból ki kell tudnunk számolni a statisztika értékét. A döntő pont az, hogy egy statisztika véletlen változó, ennélfogva a véletlen változókhoz hasonlóan, van valószínűségeloszlása. Végül, amit megfigyelünk, az ennek a véletlen változónak egy értéke. Ahogy az X adat, egy W statisztika is lehet bonyolult struktúra, tipikusan pl. W lehet vektorértékű. Megjegyezzük, hogy X az eredeti megfigyelt adatváltozó is maga egy statisztika; az összes statisztika az X változóból van származtatva.

Az U és V statisztikák ekvivelensek, ha létezik egy egy-egy értelmű r függvény az U tartományból a V a tarományba, amelyre V r U . Ekvivalens statisztikák ekvivalens információkat adnak a következtetésekkel kapcsolatban.

Mutassuk meg, hogy a U és V statisztikák akkor és csak akkor ekvivalensek, ha a következő feltételek teljesülnek: tetszőleges x S és y S esetén U x U y akkor és csak akkor, ha V x V y .

Mutassuk meg, hogy az ekvivalencia valóban ekvivalecia reláció adott véletlen kísérlet esetén statisztikáknak egy halmazára. Azaz, ha U , V , és W tetszőleges statisztikák, akkor

  1. U ekvivalens U -val (reflexív tulajdonság).
  2. Ha U ekvivalens V -vel, akkor V ekvivalens U -val (szimmetrikus tulajdonság).
  3. Ha U ekvivalens V -vel és V ekvivalens W -vel, akkor U ekvivalens W -vel (tranzitív tulajdonság).