Tapasztalati eloszlásfüggvény


Konfidencia intervallum a normális eloszlás várható értékére ismert szórás esetén


Diszkrét eloszlás szimulációja


Először a múltkori koleszterines file első változójának építettük fel az empirikus eloszlásfüggvényét (lásd Bolla-Krámli statisztika könyv 67. oldal). Techinikailag az adatsort mégegyszer a meglévő alá másoltuk majd a Kicsi() függénnyel rendeztük. Ezután az ábrázolandó pontok második koordinátáját értelemszerűen kitöltöttük. Majd szakaszokkal összekötött pontfelhő ábrát kértünk. Végül az (átlag, empirikus szórás) paraméterű normális eloszlás eloszlásfüggvényével kiegészítettük az ábrát. A látottak is alátámasztják a minta normaliátást.

Ezután megtanultunk konfidencia intervallumot szerkeszteni a normális eloszlás várható értékére ismert szórás esetén (lásd Bolla-Krámli statisztika könyv 127-128. oldalai). A második Excel file-ban 10 elemű szimulált mintán fel is vettük a konfidenciaintervallumot (a szimuláció sokszor segíti a megértést). Fontos megérteni, hogy itt egy véletlen intervallumról van szó, ami 1-Epsilon valószínűséggel tartalmazza a háttérváltozó várható értékét. A megértést segíti ha ezt a kijelentést relatív gyakorisággal mondjuk el. Ha sokszor veszünk fel 10 elemű mintát, akkor a mintafelvételek kb (1-Epszilon)-ad részében fogja tartalmazni a kapott determinisztikus intervallum a háttérváltozó várható értékét. Ezt a kijelentést vizualizáltuk pontfelhő ábra segítségével nem túl sok (15) mintafelvétellel. Végül megjegyeztem, hogy ha a szórás nem ismert akkor is tudunk konfidencia intervallumot szerkeszteni csak a normális kvantilist a megfelelő szabadsági fokú Student t-eloszlás kvantilisére kell cserélni és az ismert szórást korrigált empirikus szórással kell helyettesíteni. Azt is mondtam, hogy nagy minta esetén a háttérváltozó eloszlásától függetlenül alkalmazható az eredeti képlet a korrigált empirikus szórással (maradhat a normális kvantilis).

Végül (harmadik Excel file) diszkrét eloszlást szimuláltunk. Ennek az a lényege, hogy a valószínűségek arányában felosztjuk a [0,1] intervallumot, felveszünk egy [0,1]-en egyenletes eloszlású valószínűségi változót és megnézzük, hogy hova esik. Technikailag ehhez a valószínűségi súlyok kumulált változatát kell elkészíteni majd a vkeres() függvényt kell használni (megkeresi, hogy az adott értéktől balra melyik a legközelebbi első sorbeli bejegyzés az adott táblában, majd a megfelelő megadott másik sorbeli értékkel tér vissza).