Employeedata.sav


Employeedatamod.sav


dietstudy.sav


voter.sav


Alul olvashatjátok a harmadik leckét. Az SPSS súgója, a főoldalon belinkelt Brief Guide és az óravázlat sokat segít. Bármi kérdésetek van írjatok emailt (koitomi@math.bme.hu)! A beadási határidő a szokásos: gyakorlatot megelőző nap 20 óra. Továbbra is a samatiok@gmail.com-ra várom a megoldásokat.

Harmadik házi


Alul olvashatjátok a második házi eredményét. Sokan kevertétek a háttéreloszlás elméleti paraméterét a mintából számolt empirikus paraméterrel. Utóbbi egy valószínűségi változó, ami az elméleti értéket közelíti. Tipushiba volt az is, hogy az outputot még mindig nem szűritek. A bal oldali sávban lehet változtatni, hogy mi látszódjon és mi nem, továbbá az exportban lehet kérni, hogy csak a látható részeket exportálja. Sokan nem értékeltek szövegesen. Ha word-be exportáltok, akkor egyszerű a szöveg hozzáfűzése. Ha pdf-be, akkor még az SPSS output ablakában tudtok szöveget hozzáfűzni az Insert menü segítségével.
Könnyű elnézni valamit a sok házival kapcsolatban. Így ha bármi gond van szóljatok!
Összesen 5 darab házi lesz. Így 25 pont lesz kiosztva, 20 pont a 100%.

Második hf eredmények


Most a gyakorlat összefoglalója egy kicsit részletesebb a megszokottnál, a teljes megértés érdekében olyan dolgokat is tartalmaz amely nem szerepelt órán. A harmadik gyakorlat lényege az volt, hogy megértsétek a különbséget az összetartozó és a független t-próba között, továbbá tudatni akartam veletek, hogy a t-próbáknak vannak rangstatisztikára épülő nemparaméteres megfelelői (Wilcoxon és Sign Rank test, továbbá Mann-Whitney teszt). Ezenkívül fontos az elkezdett függetlenséget tesztelő chi-négyzet próba. Ha ezeket értitek, akkor a zh-n nem lesz nagy bajotok, nem várom el, hogy a leírt részletességgel tudjátok a dolgot.

A gyakorlat elején röviden összefoglaltam az egymintás t-próbát, a párosított kétmintás t-próbát, és a független t-próbát. Ezt követően a gyakorlat első felében a dietstudy.sav adathalmazzal foglalkoztunk. Először ellenőriztük Kolmogorov-Szmirnov próbával, hogy a diéta előtti és a diéta utáni súly normális eloszlást követ-e. Ezt az Analyze/Nonparametric test/One sample menüvel és az Analyze/Descriptive Statistics/Explore paranccsal is megtettük. Láttuk, hogy utóbbi esetben kicsit más a kimenet (korrekciós verzió). A lényeg mindkét esetben ugyanaz volt: mindkét változó normális eloszlást követett. Utólag megjegyzem, hogy helyesebb lett volna a különbség változó normalitását leellenőrizni a párosított kétmintás t-próba előtt. Ha megnézitek, akkor utóbbi is teljesül. Ezt követően párosított kétmintás t-próbával (Analyze/Compare means/Paired-Sample t test) megállapítottuk, hogy a diéta hatásos: elvetettük azt a nullhipotézist, hogy a diéta utáni és előtti súlyok várható értéke azonos. Ezután Transform/Compute Variable paranccsal létrehoztuk azt a változót, amely a diéta alatti fogyásokat tartalmazta. Megnéztük az Explore-t használva, hogy a férfiak és nők lefogyott kilói változó külön-külön normális eloszlást követ-e. A teszt alapján feltehető volt, hogy azt követ. Majd független t-próbával (Analyze/Compare means/Independent sample t test) döntöttünk arról, hogy különböznek-e a férfiak és a nők a lefogyott kilók tekintetében. Fontos, hogy a lekért teszt először tartalmazott egy a szórások egyezőségét vizsgáló F-próbát, aminek az a nullhipotézise, hogy a szórás a két csoportban megegyezik (ehhez is kell normalitás). Ha ennek a tesztnek a nullhipotézisét nem vetjük el, akkor az első sort kell nézni, ha elvetjük, akkor a másodikat, amely a Welch-féle módosított t-próbát tartalmazza (itt nem feltétel a szórások egyezősége). Az első sort kellett nézni, azt találtuk, hogy a férfiak és nők fogyásának mértéke nem különbözik szignifikánsan. Megjegyeztem, hogy nem túl nagy a mintaelemszám, így különösen a független t-próba eredményét érdemes egy kicsit szkeptikusan fogadni.

Ezt követően újra az employee.sav-val foglalkoztunk. Megvizsgáltuk, hogy a kezdő fizetés és a jelenlegi fizetés szignifikánsan különbözik-e. Normalitás nem teljesül, így a párosított t-próba helyett a nemparaméteres rangstatisztikára alapuló Wilcoxon tesztet és a sign rank tesztet futtattuk le (Nonparametric tests/Related Sample). Ezeknek a teszteknek az a nullhipotézise, hogy a két változó különbségének mediánja 0, vagyis annak a valószínűsége, hogy egyik nagyobb, mint a másik épp 1/2. Így a nagyságrendi viszonyokat jól tesztelik ezek a próbák. Mindkét próba azt adta, hogy a jelenlegi fizetés szignikánsan más nagyságrendű, mint a kezdő fizetés. Megjegyzem, hogy a Wilcoxon próbának ugyan a normalitás nem feltétele, de az igen, hogy a különbség változó szimmetrikus legyen. A sign rank tesztnek semmilyen feltétele nincs.

Ezután azt vizsgáltuk meg, hogy a kisebbséghez tartozók és a nem kisebbséghez tartozók jelenlegi fizetése szignikánsan eltér-e egymástól. Itt sem teljesült a normalitás, ezért a független t-próba nemparaméteres megfelelőjét a Mann-Whitney tesztet futtattuk (Nonparametric tests/Independent Sample). Ha feltehető, hogy a két csoporthoz tartozó eloszlások egymás eltoltjai, akkor azt teszteli a próba, hogy a két eloszlás ugyanaz-e. Feltétel nélkül "nagyjából" azt a nullhipotézist teszteli a teszt, hogy az egyik nagyobb, mint a másik változó valószínűsége (független generálás esetén) 1/2-e. Vagyis ez a teszt is a nagyságrendi viszonyokat teszteli. Eredményül azt kaptuk, hogy a kisebbséghez tartozók fizetésének nagyságrendje lényeges eltér a nem kisebbséghez tartozókétól. Megjegyeztem, hogy ez egy tény. De ez nem jelent feltétlenül ok-okozati összefüggést. Vagyis ha a feltehetőleg fiktív adataink igaziak lennének, akkor sem vonhatnánk le azt a következtetést, hogy az amerikai bankrendszer diszkriminál, csak azt, hogy a kisebbséghez tartozók kevesebbet keresnek.

A fenti két bekezdésben leírtak szó szerint akkor igazak ha folytonos változókat hasonlítunk össze. Nem folytonos változók esetén az ütközéseket (ugyanazt az értéket többször is felveszi a változó) kezelni kell. Eddig még nem mélyedtem el ebben a témában, de nekem úgy tűnik, hogy az ütközések kezelésével a tesztek érvényben maradnak.

Megjegyzem azt is, hogy a Mann-Whitney próba helyett kétmintás Kolmogorov-Szmirnov próbával és Wald-Wolfomitz teszttel is vizsgálhatjuk, hogy a két független csoport változója azonos eloszlást követ-e. Nekem úgy tűnik, hogy a Mann-Whitney teszttel nagyságrendi viszonyokat jobban lehet vizsgálni (ezt a kijelentést lehet kritizálni).

Az óra végén csoportosítottam az elvégzett teszteket. Foglalkoztunk illeszkedésvizsgálattal (chi-négyzet, Kolmogorov-Szmirnov), homogenitásvizsgálattal (t-próbák és nemparaméteres megfelelőik). Elkezdtünk foglalkozni függetlenségvizsgálattal. A diszkrét valószínűségi változók függetlenségét tesztelő chi-négyzet próbával megállapítottuk, hogy a kisebbség és a betöltött munkakör nem független valószínűségi változók (Analyze/Descriptive Statistics/Crosstabs/Statistics/Chi-square).

Fontos, hogy a t-próba (párosított és a független t-próba Welch verzióját gondoltam végig) ha nagy a mintaelemszám, akkor határeloszlás tételeknek köszönhetően akkor is alkalmazható ha normalitás nem teljesül abban az esetben ha a vizsgált változók szórásai végesek (korlátos változók szórása mindig véges). Továbbá bizonyos esetekben akkor is lehet használni nem normális eloszlásokra ha nem olyan nagy a mintaelemszám (robosztus próba). Természetesen az is igaz, hogy rangstatisztikán alapuló próbákat lehet használni normális eloszlás esetén is. Meglehetősen nagy a szakirodalma a két lehetőség összehasonlításának. Ami fontos: a rangstatisztikán alapuló próbák ordinális változókra is működnek, míg a t-próbához legalább intervallum szintű változóra van szükség.

A továbbiakban a fent is alkalmazott heurisztikát használjuk: ha a normalitás feltevése elfogadható, akkor t-próbát, egyébként pedig rangstatisztikákat használunk a nagyságrendi viszonyok tesztelésére (ennek a heurisztikának a helyességét lehet kritizálni).

Az érdeklődöknek belinkelek két cikket:
MANN és WHITNEY eredeti cikke

D. VAN DANTZIG írása a Mann-Whitney tesztről