Használt autók adatfile (kuiper.xls-t kell keresni)


A fenti adatfile-hoz kötődő cikk (a jse honlapon található link hibás)


kruiser.RData


McnNmar teszthez adatok


Táblaképek


Órai munka



Először függetlenségvizsgálatról volt szó (chi-négyzet teszt, diszkretizálás, korreláció 0 voltát tesztelő teszt). Újra hangsúlyoztam, hogy a függetlenségből következik a korrelálatlanság (0 korreláció), de a korrelálatlanságból általában nem következik a függetlenség (de normális együttes eloszlás esetén következik). Megvizsgáltuk a fenti kuiper.RDATA-ban (journal of statistical education honlapjáról elérhető), hogy a bőrülés és a hangrendszer megléte független változók-e. Ezután korrelációt kértünk az ár és a megtett mérföld változók között. Nullától ugyan szignifikánsan különböző negatív korrelációt tapasztaltunk (emiatt a két változó nem független), de az abszolút érték nem volt túl nagy. Ezt azzal magyaráztuk, hogy az adatbázisban viszonylag új autók vannak, ezért nem befolyásolja a megtett mérföld annyira az árat (természetesen az is szóba jön, hogy a kapcsolat összetettebb a lineárisnál). Végül a diszkretizáló chi-négyzet próbával is kimutattuk a két változó összefüggését. Megbeszéltük, hogy a diszkrét változók összefüggéséből következik az eredeti változók összefüggősége (itt ez volt a helyzet), de ez fordítva nem igaz, a diszkrét változók függetlensége esetén csak (erősen) gyaníthatjuk az eredeti változók függetlenségét. Annál jobban gyaníthatjuk minél több kategóriát hoztunk létre, de vigyázni kell arra, hogy ne legyen sok üres vagy kevés elemet tartalmazó cella a kereszttáblában, mert ilyenkor a chi-négyzet mögötti határeloszlástétel még nem érvényesül elég jól.

Ezután illeszkedésvizsgálatra, homogenitásvizsgálatra (összetartozó ill. független) és függetlenségvizsgálatra osztottuk a hipotézisvizsgálati eszközöket (lásd a másik kurzushoz kötődő táblaképek egyikét).

Végül bináris (X,Y) együttes valószínűségi változóhoz kapcsolódóan átgondoltuk a különbséget a (összetartozó) homogenitásvizsgálat és a függetlenségvizsgálat között. Betöltöttük a fenti mcnemar.csv-t. Megtanultuk, hogy ha X és Y is csak két értéket vesz fel, akkor McNemar teszttel (mcnemar.tets()) vizsgálhatjuk a homogenitást (az előteszten való átmenés és az utóteszten való átmenés eloszlása azonosnak tekinthető-e). A mean() függvénnyel láttuk, hogy arányaiban többen mentek át (átlag staisztika pont ezt mutatja) az utóteszten, mint az előteszten. Ezt követően McNemar tesztel láttuk, hogy az eltérés az átmeneti arányok között szignifikáns. Fontos, hogy itt a függetlenségvizsgálatot felesleges elvégezni, mert nyílvánvalóan nem teljesül a függetlenség: aki az előteszten jót írt az az utóteszten nagyobb eséllyel szerepel jól.