Kói Tamás honlapja

Excel segédanyag

Excel segédanyag átkonvertálva

Index PSPP-ben

Command syntacs

Az adminisztratív tudnivalók megbeszélése után a fenti Excel segédanyagot importáltuk a PSPP-be. A Libreoffice calc programmal megnyitottuk az excel fájlt, majd csv formátumba mentettük el, amit a PSPP File/Import parancsával be tudtunk olvasni. Ezt követően megbeszéltük, hogy két ablakon lehet nézni az adathalmazt. Röviden áttekintettük a Variable view néhány lehetőségét. Egyenletes véletlent generáltunk a Transform/Compute Variable segítségével. Eszerint sorba rendeztünk. Majd kereszttáblákat készítettünk az Analyze/Descriptive statistics/Crosstabs segítségével, ahol is a Simpson paradoxonnal találkoztunk. Megtanultuk, hogy az outputablakot exportálni lehet többek között odt formátumba, ami a Libreoffice writer programmal szerkeszthető és pdf-be is elmenthető. Fontos az is, hogy az adatfájl sav formátumban elmenthető.
Az óra második felében megismerkedtünk a Command syntacs PSPP fájlal. A fenti sps kiterjesztésű fájlt megnyitottuk, a Run/All paranccsal lefuttattuk, aminek hatására egy 1-től 1000-ig egyesével lépdelő index változó keletkezett. Ezt követően a Transform/Compute Variable parancsával kockadobást szimuláltunk (RV.Uniform() és RND() függvények használatával). Megjegyezem, hogy a főoldalon belinklet PSPP manual-ban részletes információt találtok a beépített függvényekről. Fontos volt, hogy ha a paste gombra kattintunk az ok helyett parancsok kiadásánál, akkor egy command syntacs fájlba másolódik a parancs végrehajtódás helyett. Ezáltal lehetőség van archiválni az elvégzett munkát. Ezután az Analyze/Descriptive statistics/Frequencies paranccsal megnéztük, hogy az 1000 kockadobásból mennyi lett az egyes értékek gyakorisága. Feltettük azt a kérdést, hogy vajon mennyi egyenletlenséget írhatunk a véletlen rovására, mikortól kell gyanakodnunk arra, hogy esetleg a kokcadobás szimuláló algoritmusunk nem működik tökéletesen. Ezt követően bevezettelek titeket a hipotézisvizsgálatba, amellyel matematikai választ adhatunk a feltett kérdésre. Kicsit konkrétabban, elmagyaráztam a diszkrét illeszkedésvizsgálatra használt chi-négyzet tesztet. Volt szó elsőfajú és másodfajú hibáról. Általánosabb nézőpontból a teszt működése a következő. A független minták függvényeként kiszámolunk egy S statisztikát (S csak egy jelölés). Ez egy valószínűségi változó. A nullhipotézis teljesülése esetén ennek ismerjük az eloszlását (legalább aszimptotikusan). Ezt az eloszlást felhasználva felveszünk egy olyan intervallumot, hogy annak a valószínűsége, hogy S odaesik 95% legyen (ha 95%-os szignifikancia szinten dolgozva). Ezzel az elsőfajú hibát 5%-ra állítottuk be. Az intervallumot úgy vesszük fel, hogy a legjobb legyen a másodfajú hiba szempontjából, de azt pontosan kontrollálni nem tudjuk. Ez utóbbi megjegyzés a konkrét chi-négyzet tesztnél azt jelenti, hogy a felvett intervallum bal végpontja a 0. Ekkor a tesztünk a következő: ha S beleesik az intervallumba akkor elfogadjuk a nullhipotézist, ha nem esik bele elutasítjuk. Két fontos tulajdonságra hívtam fel a figyelmeteket. Rögzített mintaszámnál ha csökkentjük az elsőfajú hibát, akkor nő a másodfajú és viszont. A másik fontos dolog, hogy rögzített elsőfajú hiba mellett, tetszőleges ellenhipotézisbeli eloszlás esetén a másodfajú hiba 0-hoz tart ha a mintaelemszám végtelenhez tart (konzisztens a teszt). A következő órán használni fogjuk ezt a tesztet.