dietstudy.sav


Employeedatamod.sav


voter.sav


Alul olvashatjátok a harmadik leckét. Az SPSS súgója, a főoldalon belinkelt Brief Guide és az óravázlat sokat segít. Bármi kérdésetek van írjatok emailt (koitomi@math.bme.hu)! A beadási határidő gyakorlat előtti nap 20 óra.

Harmadik házi


Fontos!!! A leckét a samatiok@gmail.com -ra küldjétek (math-os tárhely sajnos véges)!!!



A harmadik gyakorlat lényege a függetlenségviszgálat, korreláció, t-próbák gyakorlása és az a tény, hogy a t-próbának vannak nemparaméteres megfelelői. Megjegyzem, hogy csak kétoldali próbákkal foglalkozunk (nem vizsgálom azt, hogy mely kérdéseket lenne jobb egyoldali próbával vizsgálni).
Az óra elején függetlenségről és korrelációról volt szó. Bővebb információt találtok az előző gyakorlat leírásában. Ezt követően a diszkrét valószínűségi változók függetlenségét tesztelő chi-négyzet próbával megállapítottuk az employeedata.sav-ban, hogy a kisebbség és a betöltött munkakör nem független valószínűségi változók (Analyze/Descriptive Statistics/Crosstabs/Statistics/Chi-square). Majd a salbegin és currentsalary változók közötti függetlenséget vizsgáltuk úgy, hogy a Visual-bining paranccsal (Make cutpoints/Equal Percentile) percentilisük alapján három ketegóriába soroltuk az értéküket. És az így kapott két diszkrét változó függetlenségét vizsgáltuk chi-négyzet próbával. Láttuk, hogy a diszkrét változók nem voltak függetlenek, így az eredeti folytonos változók sem azok (vigyázat a diszkrét függetlenségből nem következik az eredeti változók függetlensége - de azért lehet gyanítani!). Megjegyeztem, hogy a chi-négyzet függetlenségvizsgálat akkor működik jól, ha az egyes cellákba esés nullhipotézis melletti várható gyakorisága elég nagy. Emiatt képeztünk csak három csoportot. Ezután a két változó Pearson-féle korrelációját kértük le az (Analyze/Bivariate) paranccsal. Szignifikáns pozitív korrelációt tapasztaltunk (az output tartalmaz egy normalitás feltevését felhasználó hipotézisvizsgálatot, amelynek a 0 korreláció a nullhipotézise).
Ezt követően röviden összefoglaltam az egymintás t-próbát, a párosított kétmintás t-próbát, és a független t-próbát. Majd a dietstudy.sav adathalmazzal foglalkoztunk. Vizsgálat nélkül feltettük, hogy a következő tesztekben a normalitás feltevése teljesül. Láttuk, hogy a diéta utáni súlyok átlaga kisebb, mint a diáta előtti súlyok átlaga. Ezt követően párosított kétmintás t-próbával (Analyze/Compare means/Paired-Sample t test) megállapítottuk, hogy az eltérés szignifikáns (elvetettük azt a nullhipotézist, hogy a diéta utáni és előtti súlyok várható értéke azonos). Ezután Transform/Compute Variable paranccsal létrehoztuk azt a változót, amely a diéta alatti fogyásokat tartalmazta. Majd független t-próbával (Analyze/Compare means/Independent sample t test) döntöttünk arról, hogy különböznek-e a férfiak és a nők a lefogyott kilók tekintetében. Fontos, hogy a lekért teszt először tartalmazott egy a szórások egyezőségét vizsgáló F-próbát, aminek az a nullhipotézise, hogy a szórás a két csoportban megegyezik. Ha ennek a tesztnek a nullhipotézisét nem vetjük el, akkor az első sort kell nézni, ha elvetjük, akkor a másodikat, amely a Welch-féle módosított t-próbát tartalmazza (itt nem feltétel a szórások egyezősége). Az első sort kellett nézni, azt találtuk, hogy a férfiak és nők fogyásának mértéke nem különbözik szignifikánsan. Megjegyzem, hogy ez a szórást előtesztelő t-próba futtatás elterjedt, mindazonáltal az előtesztnek van egy kis torzító hatása, így matematikailag lehet kritizálni. Azt is megjegyeztem, hogy nem túl nagy a mintaelemszám.
Ezt követően újra az employee.sav-val foglalkoztunk. Megvizsgáltuk, hogy a kisebbséghez tartozók és a nem kisebbséghez tartozók jelenlegi fizetése szignikánsan eltér-e egymástól. Itt úgy jártunk el, hogy normalitástól függően t-próbát vagy a nemparaméteres “megfelelőjét” a Mann-Whitney tesztet futtattuk. Megjegyzem, hogy ez az eljárás is heurisztikus, szintén kritizálható matematikailag a fenti okok miatt. Az Analyze/Descriptive Statistics/Explore paranccsal vizsgáltunk csoportonkénti normalitást, úgy, hogy a Factor list alpont alá bevittük a kisebbség változót. Egyik csoportban sem teljesült a normalitás, ezért a független t-próba nemparaméteres megfelelőjét a Mann-Whitney tesztet futtattuk (Nonparametric tests/Independent Sample), ami mutatta, hogy a nem kisebbséghez tartozók szignifikánsan többet keresnek. Megjegyzem, hogy ebből nem feltétlenül következtethetünk arra, hogy a bankszektor diszkriminál (a kapott összefüggések nem feltétlenül ok-okozatiak).
A házifeladat jobb megértése végett utólagosan leírom mit tesztel a Mann-Whitney próba. Ha feltehető, hogy a két csoporthoz tartozó eloszlások egymás eltoltjai, akkor azt teszteli a próba, hogy a két eloszlás ugyanaz-e. Feltétel nélkül "nagyjából" azt a nullhipotézist teszteli a teszt, hogy az egyik nagyobb, mint a másik változó valószínűsége (független generálás esetén) 1/2-e. Vagyis ez a teszt is a nagyságrendi viszonyokat teszteli (a kétmintás független t-próba a várható értékek egyezését vizsgálja, ami nagyságrendi tesztnek tekinthető).
A fenti bekezdésben leírtak szó szerint akkor igazak ha folytonos változókat hasonlítunk össze. Nem folytonos, de ordinális változók esetén az ütközéseket (ugyanazt az értéket többször is felveszi a változó) kezelni kell. Eddig még nem mélyedtem el ebben a témában, de nekem úgy tűnik, hogy az ütközések kezelésével a Mann-Whitney teszt érvényben marad.
Az óra végén csoportosítottam az elvégzett teszteket. Foglalkoztunk illeszkedésvizsgálattal (chi-négyzet, Kolmogorov-Szmirnov), homogenitásvizsgálattal (t-próbák és nemparaméteres megfelelőik) és függetlenségvizsgálattal.


Az érdeklődöknek néhány további információ. Először is két kapcsolódó cikk:

MANN és WHITNEY eredeti cikke

D. VAN DANTZIG írása a Mann-Whitney tesztről

Megjegyzem azt is, hogy a Mann-Whitney próba helyett kétmintás Kolmogorov-Szmirnov próbával és Wald-Wolfomitz teszttel is vizsgálhatjuk, hogy a két független csoport változója azonos eloszlást követ-e. Nekem úgy tűnik, hogy a Mann-Whitney teszttel nagyságrendi viszonyokat jobban lehet vizsgálni (ezt a kijelentést lehet kritizálni).
Fontos az is, hogy a t-próba (párosított és a független t-próba Welch verzióját gondoltam végig) ha nagy a mintaelemszám, akkor határeloszlás tételeknek köszönhetően akkor is alkalmazható ha normalitás nem teljesül abban az esetben ha a vizsgált változók szórásai végesek (illetve a független t-próba esetén szükséges feltevés, hogy a két csoport létszámának aránya konstanshoz tartson). Továbbá bizonyos esetekben akkor is lehet használni nem normális eloszlásokra ha nem olyan nagy a mintaelemszám (robosztus próba). Természetesen az is igaz, hogy rangstatisztikán alapuló Mann-Whitney, Wilcoxon és sign-rank próbákat lehet használni normális eloszlás esetén is. Meglehetősen nagy a szakirodalma a két lehetőség összehasonlításának. Ami fontos: a Mann-Whitney-próba ordinális változókra is működhet (az ütközések megfelelő kezelelésvel), míg a t-próbához legalább intervallum szintű változóra van szükség.