Bevezetés

Szokás szerint kiinduló pontunk egy véletlen kísérlet a

valószínűségi mezőn, amely egy mintatéren van értelmezve. Az alap statisztikai modellben van egy megfigyelhető valószínűségi változónk

X

(amelyet adatváltozónak) hívunk és értékeit az

S

halmazból veszi. Általában,

X

egy teljesen bonyolult struktúra is lehet. Páldául, ha egy kísérlet egy populációból vett mintavételből áll és a minket érdeklő méréseket rögzítjük, akor az eredmény(mért) változó

ahol az

X i

i

-edik objektumra vonatkozó mérésekből álló vektor. Az alábbiakban néhány speciális pédát említünk.

Másrészt, a matematikai absztrakciót éppen az a képesség jelzi, hogy figyelmen kívül hagyhatjuk azokat a tulajdonságokat, amelyek az adott esetben nem lényegesek, s ezáltal egyetlen objektumként kezeljük a komplex struktúrát. Így, bár a

X

vektort tekinthetjük, mint vektorok vektorát, ebben a szituációban az a döntő, hogy az egy kísérletben csak egy véletlen változó.

A statisztikának két átfogó ága van. A leíró statisztika kifejezés az

x

adatok összegzésére és bemutatására vonatkozik. A következtető statisztika kifejezés az

X

eloszlásáról ad információt, amelyet az

x

megfigyelt értékből nyerünk. Így, egy bizonyos értelemben, a következtető statisztika a valószínűség duálisa. A valószínűségelméletben megpróbáljuk előrejelezni

X

értékét, feltételezve a eloszlás ismeretét. A statisztikában megfigyeljük

X

értékét és megpróbálunk következtetni az alapeloszlásból.

A statisztikának ezek a módszerei roppant eredményesnek bizonyultak; ezek a tecnikák széles körben használtak minden területen, ami mennyiséggel foglalkozik - természettudományok, társadalomtudományok, jog és orvostudomány. Másrészt, a statisztika nagy mennyiségű, és a jogi nyelvezethez hasonló bonyolultságú szakkifejezést használ, ami először egy kicsit ijesztőnek tűnik. Ebben a részben néhány alapvető definíciót fejtünk ki.

Véletlen minták

Ennek a statisztikai modellnek a leggyakoribb és legfontosabb speciális esete, amikor a

megfigyelt változó független és azonos eloszlású változóknak egy sorozata. A standard mintavételi modellben

X i

maga is vektor, az

i

-edik objektumhoz tartozó mérési eredmények vektora és így a

X 1 X 2 X n

vektorra úgy tekintünk, mint az

X

mérési eredmények vektorának független másolataira. Ebben az esetben

X 1 X 2 X n

vektorról azt mondjuk, hogy az

X

eloszlásából vett

n

elemű véletlen minta.

Változók típusai

Diszkrét és folytonos

Emlékeztetünk arra, hogy egy valós változó folytonos, ha lehetséges értékeit valós számoknak egy intervallumából veszi. Például az M&M adathalmazban a súlyváltozó, a Fisher féle nőszirom adathalmazban a hossz és a szélesség változók folytonosak. Ezzel szemben, diszkrét változó az, amikor a lehetséges értékek halmaza egy diszkrét halmaz. Például az M&M adathalmazban a számláló változók, a Fisher féle nőszirom adathalmazban a változó típusa, kártyakísérletben a kártya színe és értéke diszkrét. A folytonos változók mennyiségeket reprezentálnak, amit gyakorlatilag valamilyen pontossággal mérhetünk. A gyakorlatban természetesen a mérési eszközök korlátozott pontosságúak, így egy folytonos változóból vett adatok szükségszerűen diszkrétek. Azaz, a lehetséges értékeknek csak egy véges (bár esetleg nagyon nagy) halmazával állunk szemben, amit aktuálisan mértünk.

A változók típusainak másik megközelítése

A valós változókat a mérési skála alapján is megkülönböztetjük, ami meghatározza, hogy milyen matematikai műveleteket végezhetünk a változóval. A kvalitatív változók egyszerű típuskódok, és így semmilyen matematikai művelet nem végezhető velük, még akkor sem, ha számok. Ilyen változók a nominális változók. Például a Fisher féle nőszirom adathalmazban a "nőszirom típusa" változó egy kvalitatív változó. Egy változót ordinális típusúnak nevezünk, ha csak az értékeinek a sorrendje a lényeges; a változó értékeinek a különbsége ilyenkor nem számít, még akkor sem, ha a változók számok. Például sok kártyajátékban a színeknek van erő-sorrendje, ezért a színváltozó ordinális típusú (Két szín különbségét azonban nem tudjuk képezni.) Azokat a kvantitatív változókat, amelyeknél csak a változó két értékének különbsége lényeges, de a hányadosa nem, intervallum típusú változónak nevezzük. Ezzel egyenértékű, ha azt mondjuk, hogy a változónak van relatív zérus értéke. (A skála 0 pontja önkényesen van megválasztva). Tipikus példa a hőmérséklet értéke (Fahrenheit vagy Celsius fokban), vagy az idő (órában vagy dátumként). Végül azt a kvantitatív változót, amelynél két érték arányának is van jelentősége, hányados típusú (vagy arány típusú) változónak nevezzük. Ennek a változónak van abszolut zérus értéke (a skála nulla pontja természetes módon adott). Az M&M adathalmazban a "cukorkák száma" változó, vagy a zacskó súlya, mint változó; a Fisher féle nőszirom adathalmazban a sziromlevél hossza és a sziromlevél szélessége változó hányados típusú.

Paraméterek és statisztikák

Paraméterek

A paraméter kifejezés a modell nem véletlen változójára vonatkozik, ami, miután kiválasztottuk, konstans marad. Majdnem minden valószínűséges modell valójában modelleknek egy paramétercsaládja, azaz ezek a modellek egy, vagy több paraméter által vannak vezérelve, ami hozzáilleszthető egy alkalmas létező véletlen modellhez. A szó szoros értelmében egy paraméter az

X

megfigyelhető változó eloszlásának egy jellemzője. Szokás szerint, általában a paraméterek vektorértékűek is lehetnek.

Azonosítsuk a paramétereket a következő kísérleteknél:

Statisztikák

Statisztika alatt egy

W W X

véletlen változót értünk, amely a kísérlet eredményényváltozójának egy (megfigyelhető) függvénye. A megfigyelhető kifejezés azt jelenti, hogy a függvény nem tartalmaz ismeretlen paramétert. Végtére is a megfigyelt adatokból ki kell tudnunk számolni a statisztika értékét. A döntő pont az, hogy egy statisztika véletlen változó, ennélfogva a véletlen változókhoz hasonlóan, van valószínűségeloszlása. Végül, amit megfigyelünk, az ennek a véletlen változónak egy értéke. Ahogy az

X

adat, egy

W

statisztika is lehet bonyolult struktúra, tipikusan pl.

W

lehet vektorértékű. Megjegyezzük, hogy

X

az eredeti megfigyelt adatváltozó is maga egy statisztika; az összes statisztika az

X

változóból van származtatva.

U

és

V

statisztikák ekvivelensek, ha létezik egy egy-egy értelmű

r

függvény az

U

tartományból a

V

a tarományba, amelyre

V r U

. Ekvivalens statisztikák ekvivalens információkat adnak a következtetésekkel kapcsolatban.

Mutassuk meg, hogy a $U$ és $V$ statisztikák akkor és csak akkor ekvivalensek, ha a következő feltételek teljesülnek: tetszőleges $x S$ és $y S$ esetén $U x U y$ akkor és csak akkor, ha $V x V y$ .

Mutassuk meg, hogy az ekvivalencia valóban ekvivalecia reláció adott véletlen kísérlet esetén statisztikáknak egy halmazára. Azaz, ha $U$ , $V$ , és $W$ tetszőleges statisztikák, akkor

$U$ ekvivalens $U$ -val (reflexív tulajdonság).
Ha $U$ ekvivalens $V$ -vel, akkor $V$ ekvivalens $U$ -val (szimmetrikus tulajdonság).
Ha $U$ ekvivalens $V$ -vel és $V$ ekvivalens $W$ -vel, akkor $U$ ekvivalens $W$ -vel (tranzitív tulajdonság).

1. Bevezetés

A statisztikai modell