Kói Tamás honlapja

Stroke

Második házi adatfile

Harmadik házi adatfile

Alul olvashatjátok a leckét. Bármi kérdésetek van írjatok emailt! Kicsit későn raktam fel a leckét, ezért a következő a javaslatom. Akinek nem okoz gondot a lecke megszokott időre való megoldása az küldje el időben, mert egy nagyon kicsit épülni fog a következő gyakorlat a leckére. Akinek gondot okoz, az küldheti péntek estig.

Házi

Fontos!!! A leckét a samatiok@gmail.com -ra küldjétek (math-os tárhely sajnos véges)!!!

Az óra első felében megtanítottam a független kétmintás t-próba nemparaméteres megfelelőjét a Mann-Whitney tesztet. Ha feltehető, hogy a két csoporthoz tartozó eloszlások egymás eltoltjai, akkor azt teszteli a próba, hogy a két eloszlás ugyanaz-e. Feltétel nélkül "nagyjából" azt a nullhipotézist teszteli a teszt, hogy az egyik nagyobb, mint a másik változó valószínűsége (független generálás esetén) 1/2-e. Vagyis ez a teszt is a nagyságrendi viszonyokat teszteli (a kétmintás független t-próba a várható értékek egyezését vizsgálja, ami nagyságrendi tesztnek tekinthető). A PSPP-ben való megvalósítása sajnos csak a Command syntacs-ból lehetséges (a pontos parancs a harmadik házi szövegében olvasható).
Majd megtanítottam az összetartozó kétmintás t próba nemparaméteres megfelelőit, a Wilcoxon és Sign-Rank teszteket. Ezeknek a teszteknek az a nullhipotézise, hogy a két változó különbségének mediánja 0, vagyis annak a valószínűsége, hogy egyik nagyobb, mint a másik épp 1/2. Így a nagyságrendi viszonyokat jól tesztelik ezek a próbák. Megjegyzem, hogy a Wilcoxon próbának feltétele, hogy a különbség változó szimmetrikus legyen. A Sign-Rank tesztnek semmilyen feltétele nincs.
Megjegyeztem, hogy a fenti nemparaméteres tesztek elsődlegesen folytonos változókra működnek, mindazonáltal az ütközések megfelelő kezelésével érvényben maradhatnak nem folytonos változóknál is. Fontos, hogy a Mann-Whitney teszt ordinális mérési szintű változón is működik.
Az elméleti bevezető után megvizsgáltuk a második házi kérdéseit t-próbák helyett azok nemparaméteres megfelelőikkel. Így a Wilcoxon teszt alapján nincs szignifikáns különbség a 4. és 14. napi koleszterin értékek között, a Mann-Whitney teszt szerint pedig a betegek 14. napi és a kontroll csoport koleszterinje szignfikánsan különbözik.
Megjegyeztem, hogy elterjedt, de matematikailag kritizálható lehetőség, hogy normalitásvizsgálat eredményétől függően használunk t-próbákat vagy azok nemparaméteres megfelelőit.
Ezt követően megtanítottam a chi-négyzet függetlenségvizsgálatot, amivel megvizsgáltuk a fenti stroke adatokon, hogy a nem összefügg-e azzal, hogy melyik agyfélteken alakul ki a stroke. Azt tapasztaltuk, hogy a két változó függetlennek tekinthető. Ezután a Barthel és Kenny rehabilitációs indexek függetlenségét vizsgáltuk diszkretizálással. A harmadik házinál részletesen le van írva a használt módszer. Láttuk, hogy a diszkrét változók nem voltak függetlenek, így az eredeti folytonos változók sem azok (vigyázat a diszkrét függetlenségből nem következik az eredeti változók függetlensége - de azért lehet gyanítani!). Megjegyeztem, hogy a chi-négyzet függetlenségvizsgálat akkor működik jól, ha az egyes cellákba esés nullhipotézis melletti várható gyakorisága elég nagy. Emiatt képeztünk csak két csoportot. Nagyobb mintaelemszám esetén lehetőségünk lett volna több csoportot létrehozni. Az óra végén volt szó korrelációról, mint a lineáris összefüggés mérőszámáról. Megbeszéltük, hogy a függetlenségből következik a korrelálatlanság (0 korreláció), de a korrelálatlanságból általában nem következik a függetlenség (normális együttes eloszlás esetén következik).
Az érdeklődöknek néhány további információ. Először is két kapcsolódó cikk:

MANN és WHITNEY eredeti cikke

D. VAN DANTZIG írása a Mann-Whitney tesztről

Megjegyzem azt is, hogy a Mann-Whitney próba helyett kétmintás Kolmogorov-Szmirnov próbával és Wald-Wolfomitz teszttel is vizsgálhatjuk, hogy a két független csoport változója azonos eloszlást követ-e. Nekem úgy tűnik, hogy a Mann-Whitney teszttel nagyságrendi viszonyokat jobban lehet vizsgálni (ezt a kijelentést lehet kritizálni).
Fontos az is, hogy a t-próba (párosított és a független t-próba Welch verzióját gondoltam végig) ha nagy a mintaelemszám, akkor határeloszlás tételeknek köszönhetően akkor is alkalmazható ha normalitás nem teljesül abban az esetben ha a vizsgált változók szórásai végesek (illetve a független t-próba esetén szükséges feltevés, hogy a két csoport létszámának aránya konstanshoz tartson). Továbbá bizonyos esetekben akkor is lehet használni nem normális eloszlásokra ha nem olyan nagy a mintaelemszám (robosztus próba). Természetesen az is igaz, hogy rangstatisztikán alapuló Mann-Whitney, Wilcoxon és sign-rank próbákat lehet használni normális eloszlás esetén is. Meglehetősen nagy a szakirodalma a két lehetőség összehasonlításának.