Használt autók adatfile (kuiper.xls-t kell keresni)


kuiper.RData



McnNmar teszthez adatok



Alul olvashatjátok a harmadik leckét. Bármi kérdésetek van írjatok emailt! A beadási határidő a gyakorlat előtti nap 20 óra.

Házi (kicsit könnyebb az eddigieknél, a negyedik házi kicsit nehezebb lesz)

Fontos!!! A leckét a samatiok@gmail.com -ra küldjétek (math-os tárhely sajnos véges)!!!



Órai anyag



Az előző óra anyag befejezése után illeszkedésvizsgálatra, homogenitásvizsgálatra (összetartozó ill. független) és függetlenségvizsgálatra osztottuk a hipotézisvizsgálati eszközöket. Ezután tanítottam néhány függetlenségvizsgálati eszközt (chi-négyzet teszt, diszkretizálás, korreláció 0 voltát tesztelő teszt). A diszkretizáló chi-négyzet próbához kötődően megjegyeztem, hogy a diszkrét változók összefüggéséből következik az eredeti változók összefüggősége, de ez fordítva nem igaz, a diszkrét változók függetlensége esetén csak (erősen) gyaníthatjuk az eredeti változók függetlenségét. Annál jobban gyaníthatjuk minél több kategóriát hoztunk létre, de vigyázni kell arra, hogy ne legyen sok üres vagy kevés elemet tartalmazó cella a kereszttáblában, mert ilyenkor a chi-négyzet mögötti határeloszlástétel még nem érvényesül elég jól. Ezután megbeszéltük, hogy a függetlenségből következik a korrelálatlanság (0 korreláció), de a korrelálatlanságból általában nem következik a függetlenség (de normális együttes eloszlás esetén következik). Említettem azt is, hogy a korreláció egy -1 és 1 közötti szám. Az előjele megmondja, hogy együtt vagy ellentétesen mozognak a változók, a nagysága pedig ennek a hatásnak az erősségét mutatja.

Ezután bináris (X,Y) együttes valószínűségi változóhoz kapcsolódóan átgondoltuk a különbséget az (igazi) homogenitásvizsgálat és a függetlenségvizsgálat között. Betöltöttük a fenti mcnemar.csv-t. Megtanultuk, hogy ha X és Y is csak két értéket vesz fel, akkor McNemar teszttel (mcnemar.tets()) vizsgálhatjuk a homogenitást (az előteszten való átmenés és az utóteszten való átmenés eloszlása azonosnak tekinthető-e). A mean() függvénnyel láttuk, hogy arányaiban többen mentek át (átlag staisztika pont ezt mutatja) az utóteszten, mint az előteszten. Ezt követően McNemar tesztel láttuk, hogy az eltérés az átmeneti arányok között szignifikáns. Fontos, hogy itt a függetlenségvizsgálatot felesleges elvégezni, mert nyílvánvalóan nem teljesül a függetlenség: aki az előteszten jót írt az az utóteszten nagyobb eséllyel szerepel jól. Ennek ellenére lefuttattuk a chi-négyzet tesztet.

Ezután a fent elérhető kuiper.RDATA-val foglalkoztunk. Megvizsgáltuk, hogy a bőrülés és a hangrendszer megléte független változók-e. Ezután korrelációt kértünk az ár és a megtett mérföld változók között. Nullától ugyan szignifikánsan különböző negatív korrelációt tapasztaltunk (emiatt a két változó nem független), de az abszolút érték nem volt túl nagy. Ezt azzal magyaráztuk, hogy az adatbázisban viszonylag új autók vannak, ezért nem befolyásolja a megtett mérföld annyira az árat (természetesen az is szóba jön, hogy a kapcsolat összetettebb a lineárisnál).