]>
Szokás szerint kiinduló pontunk egy véletlen kísérlet a valószínűségi mezőn, amely egy mintatéren van értelmezve. Az alap statisztikai modellben van egy megfigyelhető valószínűségi változónk (amelyet adatváltozónak) hívunk és értékeit az halmazból veszi. Általában, egy teljesen bonyolult struktúra is lehet. Páldául, ha egy kísérlet egy populációból vett mintavételből áll és a minket érdeklő méréseket rögzítjük, akor az eredmény(mért) változó
ahol az az -edik objektumra vonatkozó mérésekből álló vektor. Az alábbiakban néhány speciális pédát említünk.
Másrészt, a matematikai absztrakciót éppen az a képesség jelzi, hogy figyelmen kívül hagyhatjuk azokat a tulajdonságokat, amelyek az adott esetben nem lényegesek, s ezáltal egyetlen objektumként kezeljük a komplex struktúrát. Így, bár a vektort tekinthetjük, mint vektorok vektorát, ebben a szituációban az a döntő, hogy az egy kísérletben csak egy véletlen változó.
A statisztikának két átfogó ága van. A leíró statisztika kifejezés az adatok összegzésére és bemutatására vonatkozik. A következtető statisztika kifejezés az eloszlásáról ad információt, amelyet az megfigyelt értékből nyerünk. Így, egy bizonyos értelemben, a következtető statisztika a valószínűség duálisa. A valószínűségelméletben megpróbáljuk előrejelezni értékét, feltételezve a eloszlás ismeretét. A statisztikában megfigyeljük értékét és megpróbálunk következtetni az alapeloszlásból.
A statisztikának ezek a módszerei roppant eredményesnek bizonyultak; ezek a tecnikák széles körben használtak minden területen, ami mennyiséggel foglalkozik - természettudományok, társadalomtudományok, jog és orvostudomány. Másrészt, a statisztika nagy mennyiségű, és a jogi nyelvezethez hasonló bonyolultságú szakkifejezést használ, ami először egy kicsit ijesztőnek tűnik. Ebben a részben néhány alapvető definíciót fejtünk ki.
Ennek a statisztikai modellnek a leggyakoribb és legfontosabb speciális esete, amikor a
megfigyelt változó független és azonos eloszlású változóknak egy sorozata. A standard mintavételi modellben maga is vektor, az -edik objektumhoz tartozó mérési eredmények vektora és így a vektorra úgy tekintünk, mint az mérési eredmények vektorának független másolataira. Ebben az esetben vektorról azt mondjuk, hogy az eloszlásából vett elemű véletlen minta.
Emlékeztetünk arra, hogy egy valós változó folytonos, ha lehetséges értékeit valós számoknak egy intervallumából veszi. Például az M&M adathalmazban a súlyváltozó, a Fisher féle nőszirom adathalmazban a hossz és a szélesség változók folytonosak. Ezzel szemben, diszkrét változó az, amikor a lehetséges értékek halmaza egy diszkrét halmaz. Például az M&M adathalmazban a számláló változók, a Fisher féle nőszirom adathalmazban a változó típusa, kártyakísérletben a kártya színe és értéke diszkrét. A folytonos változók mennyiségeket reprezentálnak, amit gyakorlatilag valamilyen pontossággal mérhetünk. A gyakorlatban természetesen a mérési eszközök korlátozott pontosságúak, így egy folytonos változóból vett adatok szükségszerűen diszkrétek. Azaz, a lehetséges értékeknek csak egy véges (bár esetleg nagyon nagy) halmazával állunk szemben, amit aktuálisan mértünk.
A valós változókat a mérési skála alapján is megkülönböztetjük, ami meghatározza, hogy milyen matematikai műveleteket végezhetünk a változóval. A kvalitatív változók egyszerű típuskódok, és így semmilyen matematikai művelet nem végezhető velük, még akkor sem, ha számok. Ilyen változók a nominális változók. Például a Fisher féle nőszirom adathalmazban a "nőszirom típusa" változó egy kvalitatív változó. Egy változót ordinális típusúnak nevezünk, ha csak az értékeinek a sorrendje a lényeges; a változó értékeinek a különbsége ilyenkor nem számít, még akkor sem, ha a változók számok. Például sok kártyajátékban a színeknek van erő-sorrendje, ezért a színváltozó ordinális típusú (Két szín különbségét azonban nem tudjuk képezni.) Azokat a kvantitatív változókat, amelyeknél csak a változó két értékének különbsége lényeges, de a hányadosa nem, intervallum típusú változónak nevezzük. Ezzel egyenértékű, ha azt mondjuk, hogy a változónak van relatív zérus értéke. (A skála 0 pontja önkényesen van megválasztva). Tipikus példa a hőmérséklet értéke (Fahrenheit vagy Celsius fokban), vagy az idő (órában vagy dátumként). Végül azt a kvantitatív változót, amelynél két érték arányának is van jelentősége, hányados típusú (vagy arány típusú) változónak nevezzük. Ennek a változónak van abszolut zérus értéke (a skála nulla pontja természetes módon adott). Az M&M adathalmazban a "cukorkák száma" változó, vagy a zacskó súlya, mint változó; a Fisher féle nőszirom adathalmazban a sziromlevél hossza és a sziromlevél szélessége változó hányados típusú.
A paraméter kifejezés a modell nem véletlen változójára vonatkozik, ami, miután kiválasztottuk, konstans marad. Majdnem minden valószínűséges modell valójában modelleknek egy paramétercsaládja, azaz ezek a modellek egy, vagy több paraméter által vannak vezérelve, ami hozzáilleszthető egy alkalmas létező véletlen modellhez. A szó szoros értelmében egy paraméter az megfigyelhető változó eloszlásának egy jellemzője. Szokás szerint, általában a paraméterek vektorértékűek is lehetnek.
Azonosítsuk a paramétereket a következő kísérleteknél:
Statisztika alatt egy véletlen változót értünk, amely a kísérlet eredményényváltozójának egy (megfigyelhető) függvénye. A megfigyelhető kifejezés azt jelenti, hogy a függvény nem tartalmaz ismeretlen paramétert. Végtére is a megfigyelt adatokból ki kell tudnunk számolni a statisztika értékét. A döntő pont az, hogy egy statisztika véletlen változó, ennélfogva a véletlen változókhoz hasonlóan, van valószínűségeloszlása. Végül, amit megfigyelünk, az ennek a véletlen változónak egy értéke. Ahogy az adat, egy statisztika is lehet bonyolult struktúra, tipikusan pl. lehet vektorértékű. Megjegyezzük, hogy az eredeti megfigyelt adatváltozó is maga egy statisztika; az összes statisztika az változóból van származtatva.
Az és statisztikák ekvivelensek, ha létezik egy egy-egy értelmű függvény az tartományból a a tarományba, amelyre . Ekvivalens statisztikák ekvivalens információkat adnak a következtetésekkel kapcsolatban.
Mutassuk meg, hogy a és statisztikák akkor és csak akkor ekvivalensek, ha a következő feltételek teljesülnek: tetszőleges és esetén akkor és csak akkor, ha .
Mutassuk meg, hogy az ekvivalencia valóban ekvivalecia reláció adott véletlen kísérlet esetén statisztikáknak egy halmazára. Azaz, ha , , és tetszőleges statisztikák, akkor