Koleszterin átalakítva

Dohányzás


Alul olvashatjátok a második leckét. Bármi kérdésetek van írjatok emailt! A beadási határidő a IV.26 szombat.

Házi


Fontos!!! A leckét a samatiok@gmail.com -ra küldjétek (math-os tárhely sajnos véges)!!!



Az előző órai koleszterines file-al dolgoztunk. Felül letölthetitek a statisztikai elemzésre kialakított verziót. Három kérdést tettünk fel ehhez az adatfile-hoz kötődően. Egy általunk gondolt konkrét értéknek (nem emlékszem, hogy pontosan melyik értéket teszteltük) tekinthető-e a szívrohamon átesettek koleszterin szintjének várható értéke a szívroham után 2 nappal? Különbözik a szívrohamon átesettek 2. és 14. napi koleszterintje? Különbözik a szívrohamon átesettek 14. napi és az egészségesek koleszterinszintje?

Az első kérdést egymintás kétoldali t-próbával, a másodikat összetartozó kétmintás kétoldali t-próbával míg a harmadikat független kétmintás kétoldali t-próbával válaszoltuk meg első körben.

Mint látjátok laboron többnyire kétoldali próbákat végzünk. De ezen a ponton kitértem az egyoldali verziókra is. Matematikailag precízek mindazonáltal az, hogy mikor érdemes őket használni nem annyira egyszerű kérdés. Én akkor javaslom a használatukat ha a nem vizsgált alternatíva szóba sem jön, illetve ha tényleg semmilyen következményekkel nem jár a nem vizsgált irányú eltérés. Megjegyzem, hogy ilyenkor érdemes őket használni. Azt mindenképpen javaslom, hogy pontosan dokumentáljátok az elvégzett teszteket. Labor szempontjából fontos, hogy a program által kiírt kétoldali p-értéket osztani kell 2-vel, ahhoz, hogy megkapjátok az egyoldali p-értéket.

Ezután az Analyze/Compare Means/One Sample t-test paranccsal megvizsgáltuk, hogy a betegek 2. napi koleszterinjének átlaga tekinthető-e az általunk gondoltnak. Fontos volt, hogy a Data/Select Cases menüjével rá kellett fókuszálnunk a betegek csoportjára.

Ezt követően elmondtam nektek az összetartozó és független kétmintás t-próbákat. Fontos, hogy az összetartozó kétmintás t-próba egyszerűen a különbségváltozóra futtatott, annak 0 várható értékűségét tesztelő egymintás kétoldali t-próba. Majd az Analyze/Compare means fülön belül a Paired Sample t-test menüvel megvizsgáltuk, hogy a betegek 2. és 14. napi koleszterinje különbözik-e. A laboron 99%-os szignifikanciával dolgoztunk ami oktatási szempontból szerencsétlen választás volt, mert nagyon sok p érték kerekítve épp 0,01 lett. Órán ezt úgy oldottuk meg, hogy én hasra ütve több tizedesjegyre kiírtam a p-értéket és azt értékeltük ki. A jobb megértés érdekében a következő mondatot ajánlom a figyelmetekbe. Ha 95%-os szignifikanciával dolgoztunk volna akkor elutasítottuk volna a várható értékek azonosságát állító nullhipotézist. Az átlagokat is megvizsgálva mondhattuk volna, hogy csökkent a betegek koleszterin értéke a 14. napra. Fontos volt, hogy itt is kellett használnunk a Data/Select Cases parancsot. Ezután az Independent sample t test paranccsal megnéztük, hogy az egészégesek koleszterin értékei különböznek-e a szívrohamon átesettek 14. napi koleszterinjétől (itt vissza kellett kapcsolni a Data/Select Cases-ben az összes esetet). Mondtam, hogy a tesztet úgy kell kiértékelni, hogy először meg kell nézni az F próbát, aminek az a nullhipotézise, hogy a két csoport szórása azonos, ha a nullhipotézis elfogadható, akkor az első sort kell továbbnézni, ha nem akkor a második sor a releváns (Welch által módosított t-próba aminem nem feltétele a szórások egyezősége). Megjegyeztem, hogy ez az F-próbával kombinált t-próba kiértékelés kritizálható matematikailag.

Ezután megtanítottam a független kétmintás t-próba nemparaméteres megfelelőjét a Mann-Whitney tesztet. Ha feltehető, hogy a két csoporthoz tartozó eloszlások egymás eltoltjai, akkor azt teszteli a próba, hogy a két eloszlás ugyanaz-e. Feltétel nélkül "nagyjából" azt a nullhipotézist teszteli a teszt, hogy az egyik nagyobb, mint a másik változó valószínűsége (független generálás esetén) 1/2-e. Vagyis ez a teszt is a nagyságrendi viszonyokat teszteli (a kétmintás független t-próba a várható értékek egyezését vizsgálja, ami nagyságrendi tesztnek tekinthető). A PSPP-ben való megvalósítása sajnos csak a Command syntacs-ból lehetséges (két soros parancs, első sor: "NPAR TESTS", második sor: " /MANN-WHITNEY=tesztelendovaltozo BY csoportositovaltozo(egyikertek,masikertek).").

Ezt követően megtanítottam az összetartozó kétmintás t próba nemparaméteres megfelelőit, a Wilcoxon és Sign-Rank teszteket (Analyze/Nonparametric tests/Two related samples). Ezeknek a teszteknek az a nullhipotézise, hogy a két változó különbségének mediánja 0, vagyis annak a valószínűsége, hogy egyik nagyobb, mint a másik épp 1/2. Így a nagyságrendi viszonyokat jól tesztelik ezek a próbák. Megjegyzem, hogy a Wilcoxon próbának feltétele, hogy a különbség változó szimmetrikus legyen. A Sign-Rank tesztnek semmilyen feltétele nincs.

Megjegyeztem, hogy a fenti nemparaméteres tesztek elsődlegesen folytonos változókra működnek, mindazonáltal az ütközések megfelelő kezelésével érvényben maradhatnak nem folytonos változóknál is. Fontos, hogy a Mann-Whitney teszt ordinális mérési szintű változón is működik.

Megjegyeztem, hogy elterjedt, de matematikailag kritizálható lehetőség, hogy normalitásvizsgálat eredményétől függően használunk t-próbákat vagy azok nemparaméteres megfelelőit.

Ezután röviden belekezdtem a McNemar tesztbe, amit majd a következő órán lefuttatunk.

Az érdeklődöknek néhány további információ. Először is két kapcsolódó cikk:

MANN és WHITNEY eredeti cikke

D. VAN DANTZIG írása a Mann-Whitney tesztről

Megjegyzem azt is, hogy a Mann-Whitney próba helyett kétmintás Kolmogorov-Szmirnov próbával és Wald-Wolfomitz teszttel is vizsgálhatjuk, hogy a két független csoport változója azonos eloszlást követ-e. Nekem úgy tűnik, hogy a Mann-Whitney teszttel nagyságrendi viszonyokat jobban lehet vizsgálni (ezt a kijelentést lehet kritizálni).
Fontos az is, hogy a t-próba (párosított és a független t-próba Welch verzióját gondoltam végig) ha nagy a mintaelemszám, akkor határeloszlás tételeknek köszönhetően akkor is alkalmazható ha normalitás nem teljesül abban az esetben ha a vizsgált változók szórásai végesek (illetve a független t-próba esetén szükséges feltevés, hogy a két csoport létszámának aránya konstanshoz tartson). Továbbá bizonyos esetekben akkor is lehet használni nem normális eloszlásokra ha nem olyan nagy a mintaelemszám (robosztus próba). Természetesen az is igaz, hogy rangstatisztikán alapuló Mann-Whitney, Wilcoxon és sign-rank próbákat lehet használni normális eloszlás esetén is. Meglehetősen nagy a szakirodalma a két lehetőség összehasonlításának.