mcnemarteszthez


parciális korrelációhoz


Employeedatahazihoz.sav


Alul olvashatjátok (majd) a negyedik leckét. Az SPSS súgója, a főoldalon belinkelt Brief Guide és az óravázlat sokat segít. Bármi kérdésetek van írjatok emailt (koitomi@math.bme.hu)! A beadási határidő gyakorlat előtti nap 20 óra.

Negyedik házi


Fontos!!! A leckét a samatiok@gmail.com -ra küldjétek (math-os tárhely sajnos véges)!!!



Röviden beszéltünk a Mann-Whitney U tesztről (lásd előző óra vége). Majd megtanítottam az összetartozó kétmintás t próba nemparaméteres megfelelőit, a Wilcoxon és Sign-Rank teszteket. Az employee.sav-ban megvizsgáltuk, hogy a kezdő fizetés és a jelenlegi fizetés szignifikánsan különbözik-e. A különbségváltozó nem normális, így a párosított t-próba helyett a nemparaméteres rangstatisztikára alapuló Wilcoxon tesztet és a sign rank tesztet futtattuk le (Nonparametric tests/Related Sample). Ezeknek a teszteknek az a nullhipotézise, hogy a két változó különbségének mediánja 0, vagyis annak a valószínűsége, hogy egyik nagyobb, mint a másik épp 1/2. Így a nagyságrendi viszonyokat jól tesztelik ezek a próbák. Mindkét próba azt adta, hogy a jelenlegi fizetés szignifikánsan más nagyságrendű, mint a kezdő fizetés. Megjegyzem, hogy a Wilcoxon próbának ugyan a normalitás nem feltétele, de az igen, hogy a különbség változó szimmetrikus legyen. A Sign-Rank tesztnek semmilyen feltétele nincs.
Ezt követően bináris (X,Y) együttes valószínűségi változóhoz kapcsolódóan átismételtük a különbséget a homogenitásvizsgálat és a függetlenségvizsgálata között. Megtanultuk, hogy ha X és Y is csak két értéket vesz fel, akkor McNemar teszttel (Crosstab-on belül lehet kérni a Statistics menüben) vizsgálhatjuk a homogenitást (az előteszten való átmenés és az utóteszten való átmenés eloszlása azonosnak tekinthető-e). Analyze/Descriptive Statistics/Frequency paranccsal láttuk, hogy arányaiban többen mentek át az utóteszten, mint az előteszten. Ezt követően McNemar tesztel láttuk, hogy az eltérés szignifikáns.
Ezután röviden bevezettelek benneteket a regresszió elméletébe. Itt most képletek nélkül összefoglalom a lényeget. Az Y függő változót szeretnénk az X_1,...,X_p független változók függvényével közelíteni úgy, hogy az Y és a becslés közötti várható négyeztes eltérés minimális legyen. Mondtam, hogy elméletileg a probléma megoldott, a feltételes várható érték, mint függvény (változók a feltételben) minimalizálja a várható négyzetes eltérést. Ezt követően lineáris regresszióval foglalkoztunk, ami annyiban különbözik az általános regressziótól, hogy csak lineáris függvények körében keressük az előbbi minimumot. Elméletileg ez a probléma is megoldott, a korrelációk és várható értékek segítségével könnyen ki lehet számolni a lineáris függvény együtthatóit és konstansát. Természetesen más a lineáristól eltérő függvényosztályokon is lehet vizsgálni a minimalizáló függvény kérdését. Fontos tény, hogy ha a vizsgált változók együttes eloszlása normális, akkor a legjobb közelítő függvény lineáris, vagyis ugyanaz az általános és lineáris regressziós probléma megoldása.
Fontos megérteni azt is, hogy még az elméleti regresszió sem ad mindig jó közelítést. Például ha Y független az (X_1, ..., X_p) változó vektortól, akkor a legjobb közelítés az E(Y).
A gyakorlatban nem ismerjük az elméleti eloszlást, csak az (Y, X_1, ... , X_p) valószínűségi vektorváltozóról vannak megfigyeléseink. Így az elmélet helyett a legkissebb négyzetek módszerével határozzuk meg a minimalizálandó függvényt (általában egy függvényosztály függvényei közül, nálunk most a lineáris függvények közül). Azt, hogy egy így kapott becslőmodell mennyire ad jó közelítést az R^2 statisztika alapján döntöttük el, amit az Y empirikus szórása és az Y és a becsült érték közötti eltérések segítségével számoltunk ki. Lineáris regressziónál, abban az esetben ha szerepel konstans a modellben, akkor az R^2 statisztika megegyezik az Y és a kapott legjobb lineáris közelítés empirikus korrelációjának a négyzetével (többszörös korrelációs együttható).
Ezután az employee.sav-ban a jelenlegi fizetést közelítettük másik három folytonos változó szerepeltetésével az Analyze/Regression/Linear menüvel. Megjegyeztem, hogy a regresszió folytonos változókra használható a legjobban, de kategorikus változót is lehet benne szerepeltetni kis transzformáció után, amit nem részleteztem. Beszéltünk az output R^2-t tartalamzó táblázatáról, illetve az együtthatókat tartalmazóról. Utóbbinál a tényleges együtthatókon kívül fontos a Beta oszlop, ami a sztenderdizált változókra lefuttatott regresszió együtthatóit tartalmazza. Ez az oszlop jobban segít összehasonlítani az együtthatókat, mert nem függ az egyes változók nagyságrendjétől. Az utolsó oszlopban láthatjuk annak a statisztikai vizsgálatnak az eredményét, ami azt vizsgálja, hogy igaz-e az, hogy a változó együtthatója 0. Ezzel óvatosan kell bánni normalitási feltételek miatt. Az előbbi regressziónál a save almenüben kértük, hogy mentse el a fizetés regresszió általi becsült értékeit. Lekértük a fizetés és a becsült fizetés változók közötti korrelációt, amely a regressziónál kiírt R-el megegyezett. Végül megjegyeztem, hogy a Linear menüben lehet kérni automatikus módszereket, amik ki-be rakosgatják a modellbe a változókat azért, hogy találjanak egy jól közelítő modellt, amiben viszonylag kevés változó van.
Megjegyzem, hogy a magyarázó változók közötti összefüggések befolyásolhatják a változók fontosságot, szignifikáns voltát és a kapott együtthatók előjelét (multikollinearitás vizsgálat foglalkozik ezzel a kérdéskörrel).
Az óra végén a fenti pohartores.sav fiktív adatokat tartalmazó fájlban kértünk korrelációt a pohár törések száma és a rendőri kiérkezések száma között. Pozitív korrelációt tapasztaltunk: így minél több a rendőri kiérkezés annál több az eltört pohár. Természetesen ez nem jelent ok okozati összefüggést. Azért pozitív a korreláció, mert mindkét változó erősen függ a verekedések száma változótól. Lekértük a pohártörés és rendőri jelenlét parciális korrelációját a verekedések számára nézve (Analyze/Correlate/Partial). Ez azt jelenti, hogy a verekedések száma változóval lineáris regresszióval közelítjük mindkét változót külön-külön. A közelítéseket kivonjuk az igazi értékekből, és a különbségek változók között számolunk korrelációt. Vagyis a verekedések száma változó hatását kiszűrve képez ez a parancs korrelációt. A vártnak megfelelően így már 0 körüli korrelációt kaptunk. Vagyis nem a rendőrök törik össze a poharakat.