Kói Tamás honlapja

elsohazivaz2016.R

Alul olvashatjátok az első leckét. Bármi kérdésetek van írjatok emailt! A beadási határidő a következő gyakorlat előtti nap 20 óra.

Házi

Fontos!!! A leckét a samatiok@gmail.com -ra küldjétek (math-os tárhely sajnos véges)!!!

Leíró statisztikák script

T sűsűrség függvény script

Khi-négyzet próba script

Az óra elején eloszlások elméleti paramétereiről és azok mintából való becsléséről volt szó. Többek között szó volt a standard error of mean-ről (vagyis az átlag statisztika szórásának mintából való becsléséről), ferdeségről, csúcsosságról, továbbá szerepelt, hogy a korrigált emprikus szórásnégyzet ad torzítatlan becslést a szórásnégyzetre. A fenti Leíró statisztikák script-ben standard normális, 1 paraméterű exponenciális illetve (0,1)-en egyenletes eloszlásból vettünk véletlen mintát, majd lekértük róluk a tanult leíró statisztikákat. Igyekeztem hangsúlyozni a háttérváltozó elméleti paramétere és annak mintából való becslése közti különbséget. Az egyenletes és normális eloszlás ferdesége 0-nak adódott (szóban mondtam, hogy kb mennyi a standard error), míg az exponenciálisé pozitív lett. Mindez nem meglepő ha figyelembe vesszük, hogy a ferdeség pont azt méri, hogy mennyire szimmetrikus az eloszlás. A csúcsosságra pedig a normális eloszlásnál 0, az egyenletesnél negatív, míg az exponenciálisnál pozitív érték adódott.

Ezután függvényt írtunk, amely ábrázolta és kimentette a munkakönyvtárba az 1-10 szabadsági fokú Student t-eloszlások sűrűséggfüggvényét (mindegyik ábrára ráraktuk a standard normális sűrűségfüggvényét is). A részletek megtalálhatóak a fent belinkelt T sűsűrség függvény script-ben.

Ezután újra lefuttattuk a múlt órai kockadobást szimuláló parancsokat. Majd feltettük újra azt a kérdést, hogy vajon mennyi egyenletlenséget írhatunk a véletlen rovására, mikortól kell gyanakodnunk arra, hogy esetleg a kokcadobás szimuláló algoritmusunk nem működik tökéletesen. Ezt követően bevezettelek titeket a hipotézisvizsgálatba, amellyel matematikai választ adhatunk a feltett kérdésre. Kicsit konkrétabban, elmagyaráztam a diszkrét illeszkedésvizsgálatra használt chi-négyzet tesztet. Volt szó elsőfajú és másodfajú hibáról. Általánosabb nézőpontból a teszt működése a következő. A független minták függvényeként kiszámolunk egy S statisztikát (S csak egy jelölés). Ez egy valószínűségi változó. A nullhipotézis teljesülése esetén ennek ismerjük az eloszlását (legalább aszimptotikusan). Ezt az eloszlást felhasználva felveszünk egy olyan intervallumot, hogy annak a valószínűsége, hogy S odaesik 95% legyen (ha 95%-os szignifikancia szinten dolgozva). Ezzel az elsőfajú hibát 5%-ra állítottuk be. Az intervallumot úgy vesszük fel, hogy a legjobb legyen a másodfajú hiba szempontjából, de azt pontosan kontrollálni nem tudjuk. Ez utóbbi megjegyzés a konkrét chi-négyzet tesztnél azt jelenti, hogy a felvett intervallum bal végpontja a 0. Ekkor a tesztünk a következő: ha S beleesik az intervallumba akkor elfogadjuk a nullhipotézist, ha nem esik bele elutasítjuk. Két fontos tulajdonságra hívtam fel a figyelmeteket. Rögzített mintaszámnál ha csökkentjük az elsőfajú hibát, akkor nő a másodfajú és viszont. A másik fontos dolog, hogy rögzített elsőfajú hiba mellett, tetszőleges ellenhipotézisbeli eloszlás esetén a másodfajú hiba 0-hoz tart ha a mintaelemszám végtelenhez tart (konzisztens a teszt). Ezt követően rátértem arra, hogy hogyan kell kiértékelni R-ben. Az R azt csinálja, hogy egy konkrét statisztikára megkeresi azt az elsőfajú hibát, amelyen épp határon van a nullhipotézis elfogadása és elutasítása, ezt hívjuk p értéknek.

!!!Így ha 5%-os elsőfajú hibával dolgozunk (95%-os szignifikanciával), akkor 0,05 alatti p-érték esetén utasítjuk el a nullhipotézist. !!!

A fentiek alapján (és az órai bővebb magyarázat alapján) ha egy statisztikai tesztről megmondom, hogy milyen feltételek mellett lehet használni, mi a nullhipotézis és mi az ellenhipotézis, akkor az elég információ ahhoz, hogy ezt a tesztet lefuttassátok és kiértékeljétek.

Ezt követően a kockadobás szimulációra a chi-négyzet teszttel (chisq.test(table(kocka)) igazoltuk, hogy a gyakoriság táblázatban látott kis egyenletlenséget okozhatja a véletlen, vagyis nincs okunk abban kételkedni, hogy jó a szimulátorunk (tényleg egyforma az egyes értékek valószínűsége). Technikailag a függvény egy listával tér vissza, aminek harmadik koordinátája a p-érték. Megjegyeztem azt is, hogy a függvény argumentumába meg lehet adni, hogy milyen eloszláshoz való illeszkedést teszteljen a program (ahogy láttuk az egyenletes a default).

Dohányzás adatok

Dohányzás zh verzió