Fontos!!! A leckét a samatiok@gmail.com -ra küldjétek (math-os tárhely sajnos véges)!!!
Az óra elején arra mutattam rá, hogy a statisztikai képletgyűjteményen található képlet a homogenitásvizsgálatos chi-négyzet próbához kötődően felesleges. Árnyalatnyi különbséggel lényegében azt vizsgáljuk, hogy a csoportosító változó függeten-e a vizsgált dologtól, maga a képlet pedig megkapható a függetlenségvizsgálatos képlet speciális eseteként.
Ezt követően bináris (X,Y) együttes valószínűségi változóhoz kapcsolódóan átgondoltuk a különbséget az (igazi) homogenitásvizsgálat és a függetlenségvizsgálat között. Megtanultuk, hogy ha X és Y is csak két értéket vesz fel, akkor McNemar teszttel (Analyze/Nonparametric tests/2 relates samples -ön belül lehet kérni) vizsgálhatjuk a homogenitást (az előteszten való átmenés és az utóteszten való átmenés eloszlása azonosnak tekinthető-e). Analyze/Descriptive Statistics/Descriptives paranccsal láttuk, hogy arányaiban többen mentek át (átlag staisztika pont ezt mutatja) az utóteszten, mint az előteszten (nem volt triviális megtalálni a jó százalékokat, de azért sikerült). Ezt követően McNemar tesztel láttuk, hogy az eltérés az átmeneti arányok között szignifikáns. Fontos, hogy itt a függetlenségvizsgálatot felesleges elvégezni, mert nyílvánvalóan nem teljesül a függetlenség: aki az előteszten jót írt az az utóteszten nagyobb eséllyel szerepel jól.
Ezt követően korrelációról volt szó, mint a lineáris összefüggés mérőszámáról. Megbeszéltük, hogy a függetlenségből következik a korrelálatlanság (0 korreláció), de a korrelálatlanságból általában nem következik a függetlenség (de normális együttes eloszlás esetén következik). Említettem azt is, hogy a korreláció egy -1 és 1 közötti szám. Az előjele megmondja, hogy együtt vagy ellentétesen mozognak a változók, a nagysága pedig ennek a hatásnak az erősségét mutatja. Ezt követően a fent is elérhető harmadik házihoz kötődő adatfájlon korrelációt kértünk a használt kocsi ára és a megtett mérföldek száma változók között (egész pontosan empirikus korrelációt számoltunk, ami közelíti az igazit). Szignifikáns negatív korrelációt tapasztaltunk (az output tartalmaz egy hipotézisvizsgálatot, amelynek a 0 korreláció a nullhipotézise). Megjegyeztük azt is, hogy ugyan a korreláció szignifikánsan különbözik 0-tól, mégis elég kicsinek mondható. Ennek oka feltehetőleg az, hogy az adatbázisban 1 évnél fiatalabb autók szerepeltek, illetve az, hogy a kapcsolat a két változó között összetettebb a lineárisnál.
Ezt követően megvizsgáltuk chi-négyzet próbával, hogy a fenti használt autók adatfile alapján függetlennek tekinthető-e a bőrülés és a hangrendszer megléte. Azt tapasztaltuk, hogy a két változó nem tekinthető függetlennek. Ezenkívül a diszkretizáló chi-négyzet teszttel is megvizsgáltuk, hogy az ár és a megtett mérföldek változók függetlennek tekinthetőek-e. Lekértük a Transform/Rank cases paranccsal a két változó megfigyelésinek sorrendjét, majd a Recode into different variable parancs segítségével a rangok alapján kategorizáltuk az eseteket (megjegyzem, hogy jobb nem a realizációk alapján kialakítani a kategória határokat). Láttuk, hogy az így kapott diszkrét változók nem voltak függetlenek, így az eredeti folytonos változók sem azok (vigyázat a diszkrét függetlenségből nem következik az eredeti változók függetlensége - de azért lehet gyanítani!). Megjegyeztem, hogy a chi-négyzet függetlenségvizsgálat akkor működik jól, ha az egyes cellákba esés nullhipotézis melletti várható gyakorisága elég nagy. Emiatt képeztünk csak néhány csoportot. Nagyobb mintaelemszám esetén lehetőségünk lett volna több csoportot létrehozni.