Kói Tamás honlapja

elsohazivaz.R

Alul olvashatjátok az első leckét. Bármi kérdésetek van írjatok emailt! A beadási határidő a következő gyakorlat előtti nap 20 óra.

Házi (már olvasható)

Fontos!!! A leckét a samatiok@gmail.com -ra küldjétek (math-os tárhely sajnos véges)!!!

Órai anyagot tartalmazó script

Röviden bevezettelek titeket az R-be. Az ingyenes letölthető Rstudio-val dolgoztunk. Többek között szó volt a munkakönyvtárról, értékadásról, objektumokról és indexelésükről, package betöltésről, függvények dokumentációjáról, csv formátumba való mentésről. Kiemelem, hogy a kocka<-round(runif(500,0.5,6.5)) paranccsal létrehoztunk egy 500 független kockadobásból álló vektort. Ehhez kötődően a hist(kocka) függvénnyel hisztogrammot rajzoltunk. Feltettük azt a kérdést, hogy vajon mennyi egyenletlenséget írhatunk a véletlen rovására, mikortól kell gyanakodnunk arra, hogy esetleg a kokcadobás szimuláló algoritmusunk nem működik tökéletesen.

Ezt követően bevezettelek titeket a hipotézisvizsgálatba, amellyel matematikai választ adhatunk a feltett kérdésre. Kicsit konkrétabban, elmagyaráztam a diszkrét illeszkedésvizsgálatra használt chi-négyzet tesztet. Volt szó elsőfajú és másodfajú hibáról. Általánosabb nézőpontból a teszt működése a következő. A független minták függvényeként kiszámolunk egy S statisztikát (S csak egy jelölés). Ez egy valószínűségi változó. A nullhipotézis teljesülése esetén ennek ismerjük az eloszlását (legalább aszimptotikusan). Ezt az eloszlást felhasználva felveszünk egy olyan intervallumot, hogy annak a valószínűsége, hogy S odaesik 95% legyen (ha 95%-os szignifikancia szinten dolgozva). Ezzel az elsőfajú hibát 5%-ra állítottuk be. Az intervallumot úgy vesszük fel, hogy a legjobb legyen a másodfajú hiba szempontjából, de azt pontosan kontrollálni nem tudjuk. Ez utóbbi megjegyzés a konkrét chi-négyzet tesztnél azt jelenti, hogy a felvett intervallum bal végpontja a 0. Ekkor a tesztünk a következő: ha S beleesik az intervallumba akkor elfogadjuk a nullhipotézist, ha nem esik bele elutasítjuk. Két fontos tulajdonságra hívtam fel a figyelmeteket. Rögzített mintaszámnál ha csökkentjük az elsőfajú hibát, akkor nő a másodfajú és viszont. A másik fontos dolog, hogy rögzített elsőfajú hiba mellett, tetszőleges ellenhipotézisbeli eloszlás esetén a másodfajú hiba 0-hoz tart ha a mintaelemszám végtelenhez tart (konzisztens a teszt). Ezt követően rátértem arra, hogy hogyan kell kiértékelni R-ben. Az R azt csinálja, hogy egy konkrét statisztikára megkeresi azt az elsőfajú hibát, amelyen épp határon van a nullhipotézis elfogadása és elutasítása, ezt hívjuk p értéknek.

!!!Így ha 5%-os elsőfajú hibával dolgozunk (95%-os szignifikanciával), akkor 0,05 alatti p-érték esetén utasítjuk el a nullhipotézist. !!!

A fentiek alapján (és az órai bővebb magyarázat alapján) ha egy statisztikai tesztről megmondom, hogy milyen feltételek mellett lehet használni, mi a nullhipotézis és mi az ellenhipotézis, akkor az elég információ ahhoz, hogy ezt a tesztet lefuttassátok és kiértékeljétek.

Ezt követően a kockadobás szimulációra a chi-négyzet teszttel (chisq.test(table(kocka)) igazoltuk, hogy a gyakoriság táblázatban látott kis egyenletlenséget okozhatja a véletlen, vagyis nincs okunk abban kételkedni, hogy jó a szimulátorunk (tényleg egyforma az egyes értékek valószínűsége). Technikailag a függvény egy listával tér vissza, aminek harmadik koordinátája a p-érték. Megjegyeztem azt is, hogy a függvény argumentumába meg lehet adni, hogy milyen eloszláshoz való illeszkedést teszteljen a program (ahogy láttuk az egyenletes a default).