Kói Tamás honlapja

kolegyes.RData

McnNmar teszthez adatok

Használt autók adatfile (kuiper.xls-t kell keresni)

kuiper.RData

Órai anyag

Faktor az R-ben (később kerül sorra, nem zh anyag)

Az óra elején illeszkedésvizsgálatra, homogenitásvizsgálatra (összetartozó ill. független) és függetlenségvizsgálatra osztottuk a hipotézisvizsgálati eszközöket.

Ezután illeszkedésvizsgálattal foglalkoztunk. Először szimulált kockadobásokból álló vektoron chi-négyzet tesztet csináltunk. Majd a múltkori koleszterines file-ban néztünk normalitást Kolmogorov-Szmirnov prábával. Megjegyeztük, hogy mivel a mintából becsüljük a várható értéket és a szórást ezért kicsit torzít a teszt. Ez analóg azzal, hogy a chi-négyzet próbánál is le kell vonni a szabadsági fokból a becsült paraméterek számát. Megjegyeztem, hogy Shapiro-Wilk teszttel is lehet normalitást ellenőrizni.

Ezután függetlenségvizsgálatról volt szó (chi-négyzet teszt, diszkretizálás, korreláció 0 voltát tesztelő teszt). Újra hangsúlyoztam, hogy a függetlenségből következik a korrelálatlanság (0 korreláció), de a korrelálatlanságból általában nem következik a függetlenség (de normális együttes eloszlás esetén következik). Megvizsgáltuk a fenti kuiper.RDATA-ban (journal of statistical education honlapjáról elérhető), hogy a bőrülés és a hangrendszer megléte független változók-e. Ezután korrelációt kértünk az ár és a megtett mérföld változók között. Nullától ugyan szignifikánsan különböző negatív korrelációt tapasztaltunk (emiatt a két változó nem független), de az abszolút érték nem volt túl nagy. Ezt azzal magyaráztuk, hogy az adatbázisban viszonylag új autók vannak, ezért nem befolyásolja a megtett mérföld annyira az árat (természetesen az is szóba jön, hogy a kapcsolat összetettebb a lineárisnál). Végül a diszkretizáló chi-négyzet próbával is kimutattuk a két változó összefüggését. Megbeszéltük, hogy a diszkrét változók összefüggéséből következik az eredeti változók összefüggősége (itt ez volt a helyzet), de ez fordítva nem igaz, a diszkrét változók függetlensége esetén csak (erősen) gyaníthatjuk az eredeti változók függetlenségét. Annál jobban gyaníthatjuk minél több kategóriát hoztunk létre, de vigyázni kell arra, hogy ne legyen sok üres vagy kevés elemet tartalmazó cella a kereszttáblában, mert ilyenkor a chi-négyzet mögötti határeloszlástétel még nem érvényesül elég jól.

Végül bináris (X,Y) együttes valószínűségi változóhoz kapcsolódóan átgondoltuk a különbséget a (összetartozó) homogenitásvizsgálat és a függetlenségvizsgálat között. Betöltöttük a fenti mcnemar.csv-t. Megtanultuk, hogy ha X és Y is csak két értéket vesz fel, akkor McNemar teszttel (mcnemar.tets()) vizsgálhatjuk a homogenitást (az előteszten való átmenés és az utóteszten való átmenés eloszlása azonosnak tekinthető-e). A mean() függvénnyel láttuk, hogy arányaiban többen mentek át (átlag staisztika pont ezt mutatja) az utóteszten, mint az előteszten. Ezt követően McNemar tesztel láttuk, hogy az eltérés az átmeneti arányok között szignifikáns. Fontos, hogy itt a függetlenségvizsgálatot felesleges elvégezni, mert nyílvánvalóan nem teljesül a függetlenség: aki az előteszten jót írt az az utóteszten nagyobb eséllyel szerepel jól.