Koleszterin


Alul olvashatjátok az első leckét. Bármi kérdésetek van írjatok emailt! A beadási határidő következő általában gyakorlat előtti nap 20 óra. Most kivételesen elküldhetitek péntek estig.

Házi (már olvasható)


Fontos!!! A leckét a samatiok@gmail.com -ra küldjétek (math-os tárhely sajnos véges)!!!



Az előző gyakorlaton is használt index változót létrehozó command syntacs file futtatása után kockadobást szimuláltunk (Transform/Compute Variable -ön belül az RV.Uniform(0,1) és a kerekítést végző RND() függvények segítségével). Megnéztük, hogy az 1000 kockadobásból mennyi lett az egyes értékek gyakorisága (Analyze/Descriptives/Frequencies). Feltettük azt a kérdést, hogy vajon mennyi egyenletlenséget írhatunk a véletlen rovására, mikortól kell gyanakodnunk arra, hogy esetleg a kokcadobás szimuláló algoritmusunk nem működik tökéletesen.

Ezt követően bevezettelek titeket a hipotézisvizsgálatba, amellyel matematikai választ adhatunk a feltett kérdésre. Kicsit konkrétabban, elmagyaráztam a diszkrét illeszkedésvizsgálatra használt chi-négyzet tesztet. Volt szó elsőfajú és másodfajú hibáról. Általánosabb nézőpontból a teszt működése a következő. A független minták függvényeként kiszámolunk egy S statisztikát (S csak egy jelölés). Ez egy valószínűségi változó. A nullhipotézis teljesülése esetén ennek ismerjük az eloszlását (legalább aszimptotikusan). Ezt az eloszlást felhasználva felveszünk egy olyan intervallumot, hogy annak a valószínűsége, hogy S odaesik 95% legyen (ha 95%-os szignifikancia szinten dolgozva). Ezzel az elsőfajú hibát 5%-ra állítottuk be. Az intervallumot úgy vesszük fel, hogy a legjobb legyen a másodfajú hiba szempontjából, de azt pontosan kontrollálni nem tudjuk. Ez utóbbi megjegyzés a konkrét chi-négyzet tesztnél azt jelenti, hogy a felvett intervallum bal végpontja a 0. Ekkor a tesztünk a következő: ha S beleesik az intervallumba akkor elfogadjuk a nullhipotézist, ha nem esik bele elutasítjuk. Két fontos tulajdonságra hívtam fel a figyelmeteket. Rögzített mintaszámnál ha csökkentjük az elsőfajú hibát, akkor nő a másodfajú és viszont. A másik fontos dolog, hogy rögzített elsőfajú hiba mellett, tetszőleges ellenhipotézisbeli eloszlás esetén a másodfajú hiba 0-hoz tart ha a mintaelemszám végtelenhez tart (konzisztens a teszt). Ezt követően rátértem arra, hogy hogyan kell kiértékelni PSPP-ben. A PSPP azt csinálja, hogy egy konkrét statisztikára megkeresi azt az elsőfajú hibát, amelyen épp határon van a nullhipotézis elfogadása és elutasítása, ezt én p értéknek nevezem, a PSPP sig. jelzés alá írja ki.

!!!Így ha 5%-os elsőfajú hibával dolgozunk (95%-os szignifikanciával), akkor ha a PSPP 0,05 alatti p-értéket ír ki, akkor elutasítjuk a nullhipotézist, ha nagyobbat akkor elfogadjuk. !!!

A fentiek alapján (és az órai bővebb magyarázat alapján) ha egy statisztikai tesztről megmondom, hogy milyen feltételek mellett lehet használni, mi a nullhipotézis és mi az ellenhipotézis, akkor az elég információ ahhoz, hogy az PSPP-ben ezt a tesztet lefuttassátok és kiértékeljétek.

Ezt követően a kockadobás szimulációra a chi-négyzet teszttel igazoltuk, hogy a gyakoriság táblázatban látott kis egyenletlenséget okozhatja a véletlen, vagyis nincs okunk abban kételkedni, hogy jó a szimulátorunk.

Ezt követően a fent belinkelt koleszterin szintes adatfile-al foglalkoztunk. Két letölthető verzió is van, az elsőt töltöttük le, és a második formátumára alakítottuk (így a kontroll csoport eredményeit is meg tudtuk tartani). Az átalakítást a command syntacs-ban használható "If valtozo1=valami ujvaltozo=valamimas." parancs használatával és aggregálással oldottuk meg. A következő órán majd különböző kérdéseket válaszolunk meg ehhez kötödően hipotézisvizsgálat segítségével.