parciális korrelációhoz


mcnemarteszthez


házihoz


Alul olvashatjátok a negyedik leckét. Az SPSS súgója, a főoldalon belinkelt Brief Guide és az óravázlat sokat segít. Bármi kérdésetek van írjatok emailt (koitomi@math.bme.hu)! A beadási határidő a szokásos: gyakorlatot megelőző nap 20 óra. Továbbra is a samatiok@gmail.com-ra várom a megoldásokat.

Negyedik házi


Alul olvashatjátok a harmadik házi eredményét. Páran összekevertétek a független homogenitásvizsgálat nullhipotéziseit. A t-próbánál a két csoport azonos várható értéke a nullhipotézis, míg a Mann-Whitney próbánál a nullhipotézis az azonos eloszlásúság (azonos nagyságrend). Ha valamit véletlenül nem javítottam ki szóljatok!

Harmadik hf eredmények


Az óra elején a harmadik házihoz kötődő voter.sav-val foglalkoztunk. Egy teszttel akartuk eldönteni, hogy az elnökjelöltek támogatóinak életkora azonosnak tekinthető-e. Ezt ha csoportonkénti normalitás teljesül a One-way Anovával (Compare Means/One-way Anova) tehetjük meg, ami a szórásanalízis speciális esete, egyben a független t próba általánosítása kettőnél több csoport esetére. A csoportonkénti normalitás nem teljesült, de azért tájékoztatás jelleggel lefuttattuk az Anova tesztet. Fontos volt, hogy a One-way Anova-hoz szükség van a csoportok szórásának egyezőségére. Így használata előtt ki kell adni a parancsablakán belüli Options/Homogenity test-et. Ha a csoportonkénti szórás nem azonos, akkor a Post_hoc-ban kérhetünk szórás azonosságot nem feltevő páronkénti összehasonlításokat. Nem teljesült a csoportok szórásának egyezősége sem, de azért tájékoztatásul megnéztük, hogy a teszt azt mutatja, ami a 3. háziból is látszik: nem azonos korúak az egyes elnökök támogatói. Ezután a One-way Anova nemparaméteres megfelelőjét, a Kruskal-Wallis tesztet (Nonparametric test/Independent Sample) futtattuk.

Az óra második részét úgy lehet összefoglalni, hogy bináris (X,Y) együttes valószínűségi változóhoz kapcsolódóan megértettük a különbséget a homogenitás vizsgálat és a függetlenség vizsgálata között. Megtanultuk, hogy ha X és Y is csak két értéket vesz fel, akkor McNemar teszttel (Crosstab-on belül lehet kérni az egyik menüben) vizsgálhatjuk a homogenitást (hatékony volt-e a tanítás, vagyis az előteszten való átmenés és az utóteszten való átmenés eloszlása különbözik-e egymástól).

Ezt követően a jól ismert salbegin és currentsalary változók közötti függetlenséget vizsgáltuk úgy, hogy a Visual-bining paranccsal (Make cutpoints/Equal Percentile) percentilisük alapján három ketegóriába soroltuk az értéküket. És az így kapott két diszkrét változó függetlenségét vizsgáltuk chi-négyzet próbával. Láttuk, hogy a diszkrét változók nem voltak függetlenek, így az eredeti folytonos változók sem azok (vigyázat a diszkrét függetlenségből nem következik az eredeti változók függetlensége - de azért lehet gyanítani!). Megjegyeztem, hogy a chi-négyzet függetlenségvizsgálat akkor működik jól, ha az egyes cellákba esés nullhipotézis melletti várható gyakorisága elég nagy. Emiatt képeztünk csak három csoportot.

Az óra harmadik részében röviden bevezettelek benneteket a regresszió elméletébe. Itt most képletek nélkül összefoglalom a lényeget. Az Y függő változót szeretnénk az X_1,...,X_p független változók függvényével közelíteni úgy, hogy az Y és a becslés közötti várható négyeztes eltérés minimális legyen. Mondtam, hogy elméletileg a probléma megoldott, a feltételes várható érték, mint függvény (változók a feltételben) minimalizálja a várható négyzetes eltérést. Ezt követően lineáris regresszióval foglalkoztunk, ami annyiban különbözik az általános regressziótól, hogy csak lineáris függvények körében keressük az előbbi minimumot. Elméletileg ez a probléma is megoldott, a korrelációk és várható értékek segítségével könnyen ki lehet számolni a lineáris függvény együtthatóit és konstansát. Természetesen más a lineáristól eltérő függvényosztályokon is lehet vizsgálni a minimalizáló függvény kérdését.
A gyakorlatban azonban nem ismerjük az elméleti eloszlást, csak az (Y, X_1, ... , X_p) valószínűségi vektorváltozóról vannak megfigyeléseink. Így az elmélet helyett a legkissebb négyzetek módszerével határozzuk meg a minimalizálandó függvényt (egy függvényosztály függvényei közül - pl lineáris függvények). Ez lineáris esetben szép eredményt ad, a kapott eredmény a mintaelemszám növekedésével egyre közelebb lesz az elméletileg legjobb lineáris függvényhez. Bizonyos függvényosztályokon a legkissebb négyzetek módszere bonyolult nemlineáris optimalizáláshoz vezet, mindazonáltal ennek numerikus megoldásával is érdemes lehet próbálkozni. Azt, hogy egy így kapott becslőmodell mennyire ad jó közelítést az R^2 statisztika alapján döntöttük el, amit az Y empirikus szórása és az Y és a becsült érték közötti eltérések segítségével számoltunk ki. Lineáris regressziónál, abban az esetben ha szerepel konstans a modellben, akkor az R^2 statisztika megegyezik az Y és a kapott legjobb lineáris közelítés empirikus korrelációjának a négyzetével (többszörös korrelációs együttható).
Fontos tény, hogy ha a vizsgált változók együttes eloszlása normális, akkor a legjobb közelítő függvény lineáris, vagyis ugyanaz az általános és lineáris regressziós probléma megoldása.
Fontos megérteni azt is, hogy még az elméleti regresszió sem ad mindig jó közelítést. Például ha Y független az (X_1, ..., X_p) változó vektortól, akkor a legjobb közelítés az E(Y). Továbbá ugyan a legkissebb négyzetek módszere lineáris függvényosztályon jól működik, azért nem biztos, hogy ez minden függvényosztályon így van.
Az elméleti bevezető után a jól ismert employee.sav-ban a jelenlegi fizetés változót közelítettük a kezdő fizetés változóval lineáris regresszióval (Analyze/Regression/Linear). Lekértük a közöttük levő korrelációt is (Analyze/Correlate/Bivariate). Láttuk, hogy megegyezik a regresszió jóságát mérő R statisztikával, ahogy az egyik fenti bekezdésben már utaltam rá.
Beszéltünk arról is, hogy ha két valószínűségi változó közötti korreláció különbözik 0-tól, akkor a két változó összefügg: bizonyos mértékű együttmozgást mutatnak. Arról is volt szó, hogy ez fordítva nem igaz: ha pl X eloszlása standard normális, akkor X és X^2-t korrelációja 0, miközben láthatóan nem függetlenek.
Az óra végén a fenti pohartores.sav fiktív adatokat tartalmazó fájlban kértünk korrelációt a pohár törések száma és a rendőri kiérkezések száma között. Pozitív korrelációt tapasztaltunk: így minél több a rendőri kiérkezés annál több az eltört pohár. Természetesen ez nem jelent ok okozati összefüggést. Azért pozitív a korreláció, mert mindkét változó erősen függ a verekedések száma változótól. Lekértük a pohártörés és rendőri jelenlét parciális korrelációját a verekedések számára nézve (Analyze/Correlate/Partial). Ez azt jelenti, hogy a verekedések száma változóval lineáris regresszióval közelítjük mindkét változót külön-külön. A közelítéseket kivonjuk az igazi értékekből, és a különbségek változók között számolunk korrelációt. Vagyis a verekedések száma változó hatását kiszűrve képez ez a parancs korrelációt. A vártnak megfelelően így már 0 körüli korrelációt kaptunk. Vagyis nem a rendőrök törik össze a poharakat.