kolegyesit.RData


elsohazivaz2017.R (a lenti régi hf-hez kötődő script)


Régi hf

Táblaképek


Órai munka



Először a múlt órán feltett két kérdést meg is válaszoltuk velük (0.05 elsőfajú hiba mellett). Az első kérdést összetartozó kétmintás kétoldali t-próbával míg a másodikat független kétmintás kétoldali t-próbával tudjuk megválaszolni első körben (feltettük az adatok normalitását). Kiemelem a második kérdésre adott válaszunkat. 95%-os szignifikanciával dolgozva (5% elsőfajú hibával) elutasítottuk a várható értékek azonosságát állító nullhipotézist. Az átlagokat is megvizsgálva kijelentettünk, hogy a betegek koleszterin értéke a 14. napon szignifikánsan nagyobb az egészségesek koleszterinjénél. Fontos, hogy az R-ben a default beállítás szerint a t-próba Welch által módosított verziója fut le, amelynek nem feltétele a szórások egyezősége. Elég sok egyéb programban a független kétmintás t-próbánál automatikusan előbb egy F-próba fut le, amelynek nullhipozézise a szórások egyezősége. Ezután a szórások egyezőségének elfogadásától függően kell kiértékelni a klasszikus illetve a Welch által módosított t-próbát. Ennek a hozzáállásnak a hátránya az, hogy itt összességében egy összetett hipotézisvizsgálatról van szó, ami torzítja a próbákra vonatkozó klasszikus eredményeket (például a Welch próba csak az olyan realizációkon hajtódik végre, amelyek empirikus szórása eléggé különbözik). Emiatt én pozitív dolognak tartom, hogy az R-ben az alapbeállítással automatikusan a Welch-féle t-próba hajtódik végre.

Ezután megtanítottam a független kétmintás t-próba nemparaméteres megfelelőjét a Mann-Whitney tesztet. Ha feltehető, hogy a két csoporthoz tartozó eloszlások egymás eltoltjai, akkor azt teszteli a próba, hogy a két eloszlás ugyanaz-e. Feltétel nélkül "nagyjából" azt a nullhipotézist teszteli a teszt, hogy az egyik nagyobb, mint a másik változó valószínűsége (független generálás esetén) 1/2-e. Vagyis ez a teszt is a nagyságrendi viszonyokat teszteli (a kétmintás független t-próba a várható értékek egyezését vizsgálja, ami nagyságrendi tesztnek tekinthető). R-ben a wilcox.test() függvénnyel lehet futtatni.

Ezt követően megtanítottam az összetartozó kétmintás t próba nemparaméteres megfelelőit, a Wilcoxon és Sign-Rank teszteket (előbbit a wilcox.test()-el lehet lekérni a paired=TRUE beállítással). Ezeknek a teszteknek az a nullhipotézise, hogy a két változó különbségének mediánja 0, vagyis annak a valószínűsége, hogy egyik nagyobb, mint a másik épp 1/2. Így a nagyságrendi viszonyokat jól tesztelik ezek a próbák. Megjegyzem, hogy a Wilcoxon próbának feltétele, hogy a különbség változó szimmetrikus legyen. A Sign-Rank tesztnek semmilyen feltétele nincs.

Ezután ezekkel a nemparaméteres eszközökkel is válaszoltunk az előző órán feltett kérdéseket. Kiemelem, hogy a Mann-Whitney teszthez saját függvényt írtunk (az egyik csoportnál a függvény megírása a következő órára csúszott át), ami kiírta a két csoport átagos rangját és a p-értéket. Ezzel szignifikáns eltérés esetén könnyen le tudjuk olvasni, hogy melyik csoport a nagyobb.

Megjegyeztem azt is, hogy a fenti nemparaméteres tesztek elsődlegesen folytonos változókra működnek, mindazonáltal az ütközések megfelelő kezelésével érvényben maradhatnak nem folytonos változóknál is.

Végül megoldottuk a fenti régi házit.

Az érdeklődöknek néhány további információ. Először is két kapcsolódó cikk:

MANN és WHITNEY eredeti cikke

D. VAN DANTZIG írása a Mann-Whitney tesztről

Megjegyzem azt is, hogy a Mann-Whitney próba helyett kétmintás Kolmogorov-Szmirnov próbával és Wald-Wolfomitz teszttel is vizsgálhatjuk, hogy a két független csoport változója azonos eloszlást követ-e. Nekem úgy tűnik, hogy a Mann-Whitney teszttel nagyságrendi viszonyokat jobban lehet vizsgálni (ezt a kijelentést lehet kritizálni).
Fontos az is, hogy a t-próba (párosított és a független t-próba Welch verzióját gondoltam végig) ha nagy a mintaelemszám, akkor határeloszlás tételeknek köszönhetően akkor is alkalmazható ha normalitás nem teljesül abban az esetben ha a vizsgált változók szórásai végesek (illetve a független t-próba esetén szükséges feltevés, hogy a két csoport létszámának aránya konstanshoz tartson). Továbbá bizonyos esetekben akkor is lehet használni nem normális eloszlásokra ha nem olyan nagy a mintaelemszám (robosztus próba). Természetesen az is igaz, hogy rangstatisztikán alapuló Mann-Whitney, Wilcoxon és sign-rank próbákat lehet használni normális eloszlás esetén is. Meglehetősen nagy a szakirodalma a két lehetőség összehasonlításának.