elsohazivaz2017.R (a lenti régi hf-hez kötődő script)


Régi hf


Régi hf megoldás

Régi táblakép


Három lehetőség az egzakt kétoldali teszt p-érték definíciójára


McnNmar teszthez adatok


Excel segédanyag csv-ben


Használt autók adatfile (kuiper.xls-t kell keresni)


kuiper.RData


Táblakép (másik kurzushoz készítettem de Nektek is mutattam belőle képeket)


Órai munka R script (mindkettő egyben)



A két csoportban egy kicsit eltérő sorrendben haladtam. A következőkkel foglalkoztunk.

Megoldottuk a fenti Kolmogov-Szmirnov teszttel foglalkozó régi házit. Ezután a múltkori koleszterines file-ban néztünk normalitást Shapiro-Wilk teszttel és Kolmogorov-Szmirnov prábával. Megjegyeztük, hogy utóbbinál mivel a mintából becsüljük a várható értéket és a szórást ezért kicsit torzít a teszt. Ez analóg azzal, hogy a chi-négyzet próbánál is le kell vonni a szabadsági fokból a becsült paraméterek számát. Ezután szimulált kockadobásokból álló vektoron chi-négyzet tesztet csináltunk.

Átismételtük az egymintás teszteket a Bernoulli minta paraméterére (lásd fenti régi táblakép) majd saját függvényt írva megoldottuk a feladattár 42-es feladatot. Annyit szeretnék csak kiemelni, hogy az egzakt kétoldali teszt esetén a p-értéket csak a p_0 = 0.5 esetben definiáltam (a 42-es feladathoz ez kellett). Az egyik fenti linket találtok 3 lehetőséget is az általános definícióra.

Ezután függetlenségvizsgálatról volt szó (chi-négyzet teszt, diszkretizálás, korreláció 0 voltát tesztelő teszt). Újra hangsúlyoztam, hogy a függetlenségből következik a korrelálatlanság (0 korreláció), de a korrelálatlanságból általában nem következik a függetlenség (de normális együttes eloszlás esetén következik). Megvizsgáltuk a fenti kuiper.RDATA-ban (journal of statistical education honlapjáról elérhető), hogy a bőrülés és a hangrendszer megléte független változók-e. Ezután korrelációt kértünk az ár és a megtett mérföld változók között. Nullától ugyan szignifikánsan különböző negatív korrelációt tapasztaltunk (emiatt a két változó nem független), de az abszolút érték nem volt túl nagy. Ezt azzal magyaráztuk, hogy az adatbázisban viszonylag új autók vannak, ezért nem befolyásolja a megtett mérföld annyira az árat (természetesen az is szóba jön, hogy a kapcsolat összetettebb a lineárisnál). Végül a diszkretizáló chi-négyzet próbával is kimutattuk a két változó összefüggését. Megbeszéltük, hogy a diszkrét változók összefüggéséből következik az eredeti változók összefüggősége (itt ez volt a helyzet), de ez fordítva nem igaz, a diszkrét változók függetlensége esetén csak (erősen) gyaníthatjuk az eredeti változók függetlenségét. Annál jobban gyaníthatjuk minél több kategóriát hoztunk létre, de vigyázni kell arra, hogy ne legyen sok üres vagy kevés elemet tartalmazó cella a kereszttáblában, mert ilyenkor a chi-négyzet mögötti határeloszlástétel még nem érvényesül elég jól.

Ezután illeszkedésvizsgálatra, homogenitásvizsgálatra (összetartozó ill. független) és függetlenségvizsgálatra osztottuk a hipotézisvizsgálati eszközöket (lásd a másik kurzushoz kötődő táblaképek egyikét).

Végül bináris (X,Y) együttes valószínűségi változóhoz kapcsolódóan átgondoltuk a különbséget a (összetartozó) homogenitásvizsgálat és a függetlenségvizsgálat között. Betöltöttük a fenti mcnemar.csv-t. Megtanultuk, hogy ha X és Y is csak két értéket vesz fel, akkor McNemar teszttel (mcnemar.tets()) vizsgálhatjuk a homogenitást (az előteszten való átmenés és az utóteszten való átmenés eloszlása azonosnak tekinthető-e). A mean() függvénnyel láttuk, hogy arányaiban többen mentek át (átlag staisztika pont ezt mutatja) az utóteszten, mint az előteszten. Ezt követően McNemar tesztel láttuk, hogy az eltérés az átmeneti arányok között szignifikáns. Fontos, hogy itt a függetlenségvizsgálatot felesleges elvégezni, mert nyílvánvalóan nem teljesül a függetlenség: aki az előteszten jót írt az az utóteszten nagyobb eséllyel szerepel jól.