Command syntacs - indexbeszur


Employeedata.sav


health_funding.sav


Pótzhhoz


Cars.sav


Alul olvashatjátok a második leckét. Az SPSS súgója, a főoldalon belinkelt Brief Guide és az óravázlat sokat segít. Bármi kérdésetek van írjatok emailt (koitomi@math.bme.hu)! A beadási határidő gyakorlat előtti nap 20 óra.

Második házi


Fontos!!! A leckét a samatiok@gmail.com -ra küldjétek (math-os tárhely sajnos véges)!!!



Az óra elején áttekintettük a diszkrét valószínűségi változók függetlenségét vizsgáló chi-négyzet tesztet. Volt szó korrelációról, mint a lineáris összefüggés mérőszámáról. Megbeszéltük, hogy a függetlenségből következik a korrelálatlanság (0 korreláció), de a korrelálatlanságból általában nem következik a függetlenség (normális eloszlás esetén következik). Felírtam a mintából becsült korreláció képletét. Mindezeket a következő órán fogjuk felhasználni.
A fenti kis elmélet után megismertük a Command syntacsot, mint harmadik fajta SPSS ablakot. Az előre elkészített command syntacs fájlt lefuttatuk a Run/All paranccsal, aminek hatására létre jött egy index változót tartalmazó 1000 megfigyeléses adathalmaz. Ezt követően Tranform/Cmpute Variable paranccsal kockadobást szimuláltunk, majd a kockadobás változóra lefuttattuk a chi-négyzet tesztet (Analyze/Nonparametric tests/one sample): megvizsgáltuk, hogy az egyes értékek felvételnének valószínűsége valóban 1/6-e. Eközben új dolgot tanultunk: a parancsok kiadásánál a Paste gombot nyomva az Ok gomb helyett a parancs nem hajtódik végre, hanem a Command Syntacsba kerül. Ezt az utat követtük, mert így lehetőségünk volt a Command Syntacs futtatásával újra és újra elvégezni a teljes kísérletet: újra szimuláltuk a kockadobást és chi-négyzet tesztet végeztünk. Minden kísérletnél más más p értéket kaptunk, mindegyik 0,05 feletti lett. Így nem volt okunk abban kételkedni, hogy rossz szimuláló algoritmust használtunk: minden esetben elfogadtuk azt a nullhipotézist, hogy a kockadobás változó eloszlása egyenletes az 1-6 közötti egészeken. Megjegyzem, hogy előfordulhatott volna az is, hogy kapunk 0,05 alatti p-értéket is, annak ellenére, hogy jól szimuláltuk a kockadobást, hiszen a statisztikai döntések valószínűségi döntések: igenis előfordulhat az, hogy igaz a nullhipotézis mégis elutasítjuk (lásd elsőfajú hiba).
Később rátértünk az Employee.sav példafájlra, ami banki alkalmazottak adatait tartalmazta. Azt mondtam, hogy tekintsük úgy rá, mintha az amerikai bankszektorban dolgozók köréből vett mintavételezés eredménye lenne. Feltehetőleg fiktívek az adatok. Megismerkedtünk az adatokkal a Variable view-ben. Volt szó hiányzó adatokról, illetve mérési szintekről. Végül az Analyze/Descriptive statistics lehetőségeit próbálgattuk: Explore-t, Descriptive és Frequency parancsokat. Különböző ábrákról és statisztikákról beszélgettünk. Néhány dolgot kiemelek. Az Explore jobb oldali menüben külön kérve végez Kolmogorov-Szmirnov tesztet annak eldöntésére, hogy a vizsgált változó normális eloszlást követ-e. Ennek a tesztnek az a nullhipotézise, hogy a változó normális eloszlást követ, az ellenhipotézis pedig az, hogy nem azt követi. Megjegyeztem, hogy mivel az explore parancs az illesztendő normális eloszlás paramétereit a mintából becsli, ami okoz torzításokat a klasszikus Kolmogorov-Szmirnov teszthez képest, ezért egy korrekciós változat kerül itt lefuttatásra. A teszt kiértékelés a szokásos módon történik. Említettem még, hogy a medián az elírásokkal szemben robosztusabb.