Használt autók adatfile (kuiper.xls-t kell keresni)


kuiper.RData



McnNmar teszthez adatok



Alul olvashatjátok a harmadik leckét. Bármi kérdésetek van írjatok emailt! A beadási határidő az ötödik gyakorlat előtti nap 18 óra (hétfői csoportnak a zh előtti nap 18 óra).

Házi (Megjegyzés: ha betöltitek a megadott file-t, akkor a keletkező data.frame neve kruiser lesz (eltér a betöltendő file nevétől))


Fontos!!! A leckét a samatiok@gmail.com -ra küldjétek (math-os tárhely sajnos véges)!!!



Órai anyag



Az óra elején megbeszéltük az előző óra végén rosszul lefuttatott független kétmintás t-próbát. Ezután Kolmogov Szmirnov próbával megvizsgáltuk a cholest14 változó normalitását. Megbeszéltük, hogy a várható értéket és a szórást a mintából kell becsülnünk, ami okoz némi torzítást. Megjegyeztem, hogy a Shapiro-Wilk teszttel is lehet normalitást vizsgálni. Azt is megjegyeztem, hogy mivel azt a kérdést jártuk körül, hogy a 14. napi beteg koleszterin megegyezik-e az egészséges koleszterinnel, ezért jobb lett volna külön megvizsgálni a betegek és az egészségekeses koleszter szintjének normalitását.

Ezután megtanítottam a független kétmintás t-próba nemparaméteres megfelelőjét a Mann-Whitney tesztet. Ha feltehető, hogy a két csoporthoz tartozó eloszlások egymás eltoltjai, akkor azt teszteli a próba, hogy a két eloszlás ugyanaz-e. Feltétel nélkül "nagyjából" azt a nullhipotézist teszteli a teszt, hogy az egyik nagyobb, mint a másik változó valószínűsége (független generálás esetén) 1/2-e. Vagyis ez a teszt is a nagyságrendi viszonyokat teszteli (a kétmintás független t-próba a várható értékek egyezését vizsgálja, ami nagyságrendi tesztnek tekinthető). R-ben a wilcox.test() függvénnyel lehet futtatni.

Ezt követően megtanítottam az összetartozó kétmintás t próba nemparaméteres megfelelőit, a Wilcoxon és Sign-Rank teszteket (wilcox.test()-el lehet lekérni a paired=TRUE beállítással). Ezeknek a teszteknek az a nullhipotézise, hogy a két változó különbségének mediánja 0, vagyis annak a valószínűsége, hogy egyik nagyobb, mint a másik épp 1/2. Így a nagyságrendi viszonyokat jól tesztelik ezek a próbák. Megjegyzem, hogy a Wilcoxon próbának feltétele, hogy a különbség változó szimmetrikus legyen. A Sign-Rank tesztnek semmilyen feltétele nincs.

Megjegyeztem, hogy a fenti nemparaméteres tesztek elsődlegesen folytonos változókra működnek, mindazonáltal az ütközések megfelelő kezelésével érvényben maradhatnak nem folytonos változóknál is. Fontos, hogy a Mann-Whitney teszt ordinális mérési szintű változón is működik.

Ezt követően bináris (X,Y) együttes valószínűségi változóhoz kapcsolódóan átgondoltuk a különbséget az (igazi) homogenitásvizsgálat és a függetlenségvizsgálat között. Megtanultuk, hogy ha X és Y is csak két értéket vesz fel, akkor McNemar teszttel (mcnemar.tets()) vizsgálhatjuk a homogenitást (az előteszten való átmenés és az utóteszten való átmenés eloszlása azonosnak tekinthető-e). A mean() függvénnyel láttuk, hogy arányaiban többen mentek át (átlag staisztika pont ezt mutatja) az utóteszten, mint az előteszten. Ezt követően McNemar tesztel láttuk, hogy az eltérés az átmeneti arányok között szignifikáns. Fontos, hogy itt a függetlenségvizsgálatot felesleges elvégezni, mert nyílvánvalóan nem teljesül a függetlenség: aki az előteszten jót írt az az utóteszten nagyobb eséllyel szerepel jól. Megjegyeztem, hogy diszkrét változók függetlenségét Chi-négyzet teszttel vizsgálhatjuk (a chisq.test() függvénnyel lehet elvégezni).

Az érdeklődöknek néhány további információ. Először is két kapcsolódó cikk:

MANN és WHITNEY eredeti cikke

D. VAN DANTZIG írása a Mann-Whitney tesztről

Megjegyzem azt is, hogy a Mann-Whitney próba helyett kétmintás Kolmogorov-Szmirnov próbával és Wald-Wolfomitz teszttel is vizsgálhatjuk, hogy a két független csoport változója azonos eloszlást követ-e. Nekem úgy tűnik, hogy a Mann-Whitney teszttel nagyságrendi viszonyokat jobban lehet vizsgálni (ezt a kijelentést lehet kritizálni).
Fontos az is, hogy a t-próba (párosított és a független t-próba Welch verzióját gondoltam végig) ha nagy a mintaelemszám, akkor határeloszlás tételeknek köszönhetően akkor is alkalmazható ha normalitás nem teljesül abban az esetben ha a vizsgált változók szórásai végesek (illetve a független t-próba esetén szükséges feltevés, hogy a két csoport létszámának aránya konstanshoz tartson). Továbbá bizonyos esetekben akkor is lehet használni nem normális eloszlásokra ha nem olyan nagy a mintaelemszám (robosztus próba). Természetesen az is igaz, hogy rangstatisztikán alapuló Mann-Whitney, Wilcoxon és sign-rank próbákat lehet használni normális eloszlás esetén is. Meglehetősen nagy a szakirodalma a két lehetőség összehasonlításának.