Kói Tamás honlapja

Excel segédanyag

Command syntacs

Először röviden áttekintettünk a normális eloszlás szigma szabályait. Ezután a fenti Excel segédanyagot importáltuk a PSPP-be. Megnyitottuk az excel fájlt, majd csv formátumba mentettük el, amit a PSPP File/Import parancsával be tudtunk olvasni. Ezt követően megbeszéltük, hogy két ablakon lehet nézni az adathalmazt. Röviden áttekintettük a Variable view néhány lehetőségét. Majd kereszttáblákat készítettünk az Analyze/Descriptive statistics/Crosstabs segítségével, ahol is a Simpson paradoxonnal találkoztunk. Megtanultuk, hogy az outputablakot exportálni lehet többek között odt formátumba, ami sokféle szövegszerkesztővel (többek között Word-el) szerkeszthető és pdf-be is elmenthető. Fontos az is, hogy az adatfájl sav formátumban elmenthető.

Az óra második felében eloszlások elméleti paramétereiről és azok mintából való becsléséről volt szó. Többek között szó volt a standard error of mean-ről (vagyis az átlag statisztika szórásának mintából való becsléséről), ferdeségről, csúcsosságról, továbbá szerepelt, hogy a korrigált emprikus szórásnégyzet ad torzítatlan becslést a szórásnégyzetre. Ezután megismerkedtünk a Command syntacs PSPP fájlal. A fenti sps kiterjesztésű fájlt megnyitottuk, a Run/All paranccsal lefuttattuk, aminek hatására egy 1-től 1000-ig egyesével lépdelő index változó keletkezett. Ezt követően a Transform/Compute Variable parancsával (0,1)-en egyenletes, standard normális és 1 várható értékű exponenciális valószínűségi változókat szimuláltunk (RV.Megfelelő Eloszlás függvények használatával). Fontos volt, hogy ha a paste gombra kattintunk az ok helyett parancsok kiadásánál, akkor egy command syntacs fájlba másolódik a parancs végrehajtódás helyett. Ezáltal lehetőség van archiválni az elvégzett munkát. Ezután az Analyze/Descriptive statistics/Descriptives paranccsal leíró statisztikákat kértünk. Igyekeztem hangsúlyozni a háttérváltozó elméleti paramétere és annak mintából való becslése közti különbséget. Az egyenletes és normális eloszlás ferdesége 0-nak adódott (a becsült szórást figyelembe véve kicsi volt a 0-tól való eltérés), míg az egyenletesé pozitív lett. Mindez nem meglepő ha figyelembe vesszük, hogy a ferdeség pont azt méri, hogy mennyire szimmetrikus az eloszlás. A csúcsosságra pedig a normális eloszlásnál 0, az egyenletesnél negatív, míg az expoenciálisnak pozitív érték adódott.

Az óra vége felé röviden volt szó a parciális korrelációról (később újra el fogom magyarázni). Röviden arról van szó, hogy egy változóval lineáris regresszióval közelítünk két másik változót, elkészítjük a becslés és az igazi változók különbségét, majd a különbségek között kérünk korrelációt. Mindezt úgy lehet interpretálni, hogy kiszűrtük a regresszió alapjául szolgáló változó hatását, és így kérünk korrelációt a másik két változó között. Ezt követően egy fiktív adatokat tartalmazó fájlban kértünk korrelációt a pohár törések száma és a rendőri kiérkezések száma között. Pozitív korrelációt tapasztaltunk: így minél több a rendőri kiérkezés annál több az eltört pohár. Természetesen ez nem jelent ok okozati összefüggést. Azért pozitív a korreláció, mert mindkét változó erősen függ a verekedések száma változótól. Elkészítettük a pohártörés és rendőri jelenlét parciális korrelációját a verekedések számára nézve. Vagyis a verekedések száma változó hatását igyekeztünk kiszűrni. A vártnak megfelelően így már 0 körüli korrelációt kaptunk. Vagyis nem a rendőrök törik össze a poharakat.