Használt autók adatfile (kuiper.xls-t kell keresni)


Használt autók sav-ban



McnNmar teszthez adatok


Stroke (házihoz)


Alul olvashatjátok a leckét. Bármi kérdésetek van írjatok emailt! Beadási határidő május 2 péntek.

Házi


Fontos!!! A leckét a samatiok@gmail.com -ra küldjétek (math-os tárhely sajnos véges)!!!


Az óra elején arra mutattam rá, hogy a statisztikai képletgyűjteményen található képlet a homogenitásvizsgálatos chi-négyzet próbához kötődően felesleges. Árnyalatnyi különbséggel lényegében azt vizsgáljuk, hogy a csoportosító változó függeten-e a vizsgált dologtól, maga a képlet pedig megkapható a függetlenségvizsgálatos képlet speciális eseteként.

Ezt követően bináris (X,Y) együttes valószínűségi változóhoz kapcsolódóan átgondoltuk a különbséget az (igazi) homogenitásvizsgálat és a függetlenségvizsgálat között. Megtanultuk, hogy ha X és Y is csak két értéket vesz fel, akkor McNemar teszttel (Analyze/Nonparametric tests/2 relates samples -ön belül lehet kérni) vizsgálhatjuk a homogenitást (az előteszten való átmenés és az utóteszten való átmenés eloszlása azonosnak tekinthető-e). Analyze/Descriptive Statistics/Descriptives paranccsal láttuk, hogy arányaiban többen mentek át (átlag staisztika pont ezt mutatja) az utóteszten, mint az előteszten (nem volt triviális megtalálni a jó százalékokat, de azért sikerült). Ezt követően McNemar tesztel láttuk, hogy az eltérés az átmeneti arányok között szignifikáns. Fontos, hogy itt a függetlenségvizsgálatot felesleges elvégezni, mert nyílvánvalóan nem teljesül a függetlenség: aki az előteszten jót írt az az utóteszten nagyobb eséllyel szerepel jól.

Ezt követően korrelációról volt szó, mint a lineáris összefüggés mérőszámáról. Megbeszéltük, hogy a függetlenségből következik a korrelálatlanság (0 korreláció), de a korrelálatlanságból általában nem következik a függetlenség (de normális együttes eloszlás esetén következik). Említettem azt is, hogy a korreláció egy -1 és 1 közötti szám. Az előjele megmondja, hogy együtt vagy ellentétesen mozognak a változók, a nagysága pedig ennek a hatásnak az erősségét mutatja. Ezt követően a fent is elérhető harmadik házihoz kötődő adatfájlon korrelációt kértünk a használt kocsi ára és a megtett mérföldek száma változók között (egész pontosan empirikus korrelációt számoltunk, ami közelíti az igazit). Szignifikáns negatív korrelációt tapasztaltunk (az output tartalmaz egy hipotézisvizsgálatot, amelynek a 0 korreláció a nullhipotézise). Megjegyeztük azt is, hogy ugyan a korreláció szignifikánsan különbözik 0-tól, mégis elég kicsinek mondható. Ennek oka feltehetőleg az, hogy az adatbázisban 1 évnél fiatalabb autók szerepeltek, illetve az, hogy a kapcsolat a két változó között összetettebb a lineárisnál.
Ezt követően megvizsgáltuk chi-négyzet próbával, hogy a fenti használt autók adatfile alapján függetlennek tekinthető-e a bőrülés és a hangrendszer megléte. Azt tapasztaltuk, hogy a két változó nem tekinthető függetlennek. Ezenkívül a diszkretizáló chi-négyzet teszttel is megvizsgáltuk, hogy az ár és a megtett mérföldek változók függetlennek tekinthetőek-e. Lekértük a Transform/Rank cases paranccsal a két változó megfigyelésinek sorrendjét, majd a Recode into different variable parancs segítségével a rangok alapján kategorizáltuk az eseteket (megjegyzem, hogy jobb nem a realizációk alapján kialakítani a kategória határokat). Láttuk, hogy az így kapott diszkrét változók nem voltak függetlenek, így az eredeti folytonos változók sem azok (vigyázat a diszkrét függetlenségből nem következik az eredeti változók függetlensége - de azért lehet gyanítani!). Megjegyeztem, hogy a chi-négyzet függetlenségvizsgálat akkor működik jól, ha az egyes cellákba esés nullhipotézis melletti várható gyakorisága elég nagy. Emiatt képeztünk csak néhány csoportot. Nagyobb mintaelemszám esetén lehetőségünk lett volna több csoportot létrehozni.


hsb2zhhoz



health_funding