Kói Tamás honlapja

Employeedata.sav

Command syntacs - indexbeszur randommal

Alul olvashatjátok a második leckét. Az SPSS súgója, a főoldalon belinkelt Brief Guide és az óravázlat sokat segít. Bármi kérdésetek van írjatok emailt (koitomi@math.bme.hu)! A beadási határidő a szokásos: gyakorlatot megelőző nap 20 óra. Továbbra is a samatiok@gmail.com-ra várom a megoldásokat.

Második házi

Kaptam egy leckét, ami rámutatott, hogy az exponenciális eloszlás tesztelésénél a grafikus ablak nem működik tökéletesen. Command syntacsban orvosolni lehet a hibát. Mindenesetre az exponenciális eloszlást ki lehet hagyni, úgy is teljes értékű a lecke.

Alul olvashatjátok az első házi eredményét. Meg voltam elégedve. Tipikusan egy ok miatt vontam le pontot: sok exportált fájl az ábrák (lényeg) mellett sok egyebet tartalmazott. Tekintve, hogy ez volt az első házi, így nem tudtátok pontosan mit várok el, ezért hétfő reggelig mindenki küldhet javított verziót. Az új pont felülírja a régit.

Első hf eredmények

Az óra elején elmagyaráztam a diszkrét illeszkedésvizsgálatra használt chi-négyzet tesztet. A konkrét teszt kapcsán megértettük az elsőfajú hiba és a másodfajú hiba egymáshoz való viszonyát, és azt, hogy az elsőfajú hibát tudjuk pontosan kontrollálni. Ehhez kapcsolódóan beszéltünk a teszt konzisztenciájáról is. Általánosabb nézőpontból a teszt működése a következő. A független minták függvényeként kiszámolunk egy T statisztikát. Ez egy valószínűségi változó. A nullhipotézis teljesülése esetén ennek ismerjük az eloszlását (legalább aszimptotikusan). Ezt az eloszlást felhasználva felveszünk egy olyan intervallumot, hogy annak a valószínűsége, hogy T odaesik 95% legyen (ha 95%-os szignifikancia szinten dolgozunk). Ezzel az elsőfajú hibát 5%-ra állítottuk be. Az intervallumot úgy vesszük fel, hogy a legjobb legyen a másodfajú hiba szempontjából, de azt pontosan kontrollálni nem tudjuk. Ez utóbbi megjegyzés a konkrét chi-négyzet tesztnél azt jelenti, hogy a felvett intervallum bal végpontja a 0. Ekkor a tesztünk a következő: ha T beleesik az intervallumba akkor elfogadjuk a nullhipotézist, ha nem esik bele elutasítjuk.
Fontos, hogy az SPSS kicsit megcsavarva működik. Vegyük észre, hogy ha 99%-os szinten dolgozunk, akkor az elfogadási intervallum nő. Az SPSS azt csinálja, hogy egy konkrét statisztikára megkeresi azt a szignifikancia szintet, amelyen épp határon van a nullhipotézis elfogadása és elutasítása, és 1-ből kivonja ezt a szignifikanciaszintet, ezt én p értéknek nevezem, az SPSS sig. jelzés alá írja ki. Így ha 95%-os szinten dolgozunk, akkor ha az SPSS 0,05 alatti p-értéket ír ki, akkor elutasítjuk a nullhipotézist, ha nagyobbat akkor elfogadjuk.
A felső két bekezdés alapján (és az órai bővebb magyarázat alapján) így ha egy statisztikai tesztről megmondom, hogy milyen feltételek mellett lehet használni, mi a nullhipotézis és mi az ellenhipotézis, akkor az elég információ ahhoz, hogy az SPSS-ben ezt a tesztet lefuttassátok és kiértékeljétek.
A fenti elméleti okfejtések után a gyakorlat vizeire eveztünk. Megismertük a Command syntacsot, mint harmadik fajta SPSS ablakot. Az előre elkészített command syntacs fájlt lefuttatuk a Run/All paranccsal, aminek hatására létre jött egy 2 változós 1000 megfigyeléses adathalmaz. Az első változó az indexeket tartalmazta 1-től 1000-ig, míg a második változó 1000 darab kockadobás szimulálást tartalmazott. Ezt követően lefuttatuk a kockadobás változóra a chi-négyzet tesztet (Analyze/Nonparametric tests/one sample): megvizsgáltuk, hogy az egyes értékek felvételnének valószínűsége valóban 1/6-e. Eközben új dolgot tanultunk: a parancsok kiadásánál a Paste gombot nyomva az Ok gomb helyett a parancs nem hajtódik végre, hanem a Command Syntacsba kerül. Ezt az utat követtük, mert így lehetőségünk volt a Command Syntacs futtatásával újra és újra elvégezni a teljes kísérletet: újra szimuláltuk a kockadobást és chi-négyzet tesztet végeztünk. Minden kísérletnél más más p értéket kaptunk, de többségében jóval 0,05 felettieket. Így nem volt okunk abban kételkedni, hogy rossz szimuláló algoritmust használtunk: szinte minden esetben elfogadtuk azt a nullhipotézist, hogy a kockadobás változó eloszlása egyenletes az 1-6 közötti egészeken. Külön érdekesség, hogy egyszer azt tapasztaltuk, hogy a p-érték 0,05 alatti. Ez demonstrálta azt, hogy a statisztikai döntések valószínűségi döntések: igenis előfordulhat az, hogy igaz a nullhipotézis mégis elutasítjuk (lásd elsőfajú hiba).
Ezt követően beszéltünk az SPSS véletlen generátoráról, amiről a Help-ben kerestünk információt. A Transform/Random Number Generators menüvel lehet különböző beállításokat eszközölni.
Később rátértünk az Employee.sav példafájlra, ami banki alkalmazottak adatait tartalmazta. Azt mondtam, hogy tekintsük úgy rá, mintha az amerikai bankszektorban dolgozók köréből vett mintavételezés eredménye lenne. Feltehetőleg fiktívek az adatok. Megismerkedtünk az adatokkal a Variable view-ben. Volt szó hiányzó adatokról, illetve mérési szintekről. Végül az Analyze/Descriptive statistics lehetőségeit próbálgattuk: Explore-t, Descriptive és Frequency parancsokat. Különböző ábrákról és statisztikákról beszélgettünk. Néhány dolgot kiemelek. Az Explore jobb oldali menüben külön kérve végez Kolmogorov-Szmirnov tesztet annak eldöntésére, hogy a vizsgált változó normális elloszlást követ-e. Ennek a tesztnek az a nullhipotézise, hogy a változó normális eloszlást követ, az ellenhipotézis pedig az, hogy nem azt követi. Kiértékelés a szokásos módon történik. A másik kiemelendő dolog, hogy megbeszéltük, hogy az átlaghoz skála változó kell, míg a mediánhoz elég ordinális szintű. Továbbá volt arról szó, hogy a medián az elírásokkal szemben robosztusabb.