Használt autók adatfile (kuiper.xls-t kell keresni)


kuiper.RData



McnNmar teszthez adatok



Alul olvashatjátok a harmadik leckét. Bármi kérdésetek van írjatok emailt! A beadási határidő a gyakorlat előtti nap 20 óra.

Házi (kicsit könnyebb az eddigieknél, a negyedik házi kicsit nehezebb lesz)


Fontos!!! A leckét a samatiok@gmail.com -ra küldjétek (math-os tárhely sajnos véges)!!!



Órai anyag



Az óra első felében tanítottam néhány függetlenségvizsgálati eszközt (chi-négyzet teszt, diszkretizálás, korreláció). Megbeszéltük, hogy a függetlenségből következik a korrelálatlanság (0 korreláció), de a korrelálatlanságból általában nem következik a függetlenség (de normális együttes eloszlás esetén következik). Említettem azt is, hogy a korreláció egy -1 és 1 közötti szám. Az előjele megmondja, hogy együtt vagy ellentétesen mozognak a változók, a nagysága pedig ennek a hatásnak az erősségét mutatja.

Ezután bináris (X,Y) együttes valószínűségi változóhoz kapcsolódóan átgondoltuk a különbséget az (igazi) homogenitásvizsgálat és a függetlenségvizsgálat között. Betöltöttük a fenti mcnemar.csv-t. Megtanultuk, hogy ha X és Y is csak két értéket vesz fel, akkor McNemar teszttel (mcnemar.tets()) vizsgálhatjuk a homogenitást (az előteszten való átmenés és az utóteszten való átmenés eloszlása azonosnak tekinthető-e). A mean() függvénnyel láttuk, hogy arányaiban többen mentek át (átlag staisztika pont ezt mutatja) az utóteszten, mint az előteszten. Ezt követően McNemar tesztel láttuk, hogy az eltérés az átmeneti arányok között szignifikáns. Fontos, hogy itt a függetlenségvizsgálatot felesleges elvégezni, mert nyílvánvalóan nem teljesül a függetlenség: aki az előteszten jót írt az az utóteszten nagyobb eséllyel szerepel jól. Ennek ellenére lefuttattuk a chi-négyzet tesztet.

Ezután a fent elérhető kuiper.RDATA-val foglalkoztunk. Megvizsgáltuk, hogy a bőrülés és a hangrendszer megléte független változók-e. Ezután korrelációt kértünk az ár és a megtett mérföld változók között. Nullától ugyan szignifikánsan különböző negatív korrelációt tapasztaltunk (emiatt a két változó nem független), de az abszolút érték nem volt túl nagy. Ezt azzal magyaráztuk, hogy az adatbázisban viszonylag új autók vannak, ezért nem befolyásolja a megtett mérföld annyira az árat (természetesen az is szóba jön, hogy a kapcsolat összetettebb a lineárisnál).

Ezután bevezettelek benneteket a regresszió elméletébe. Itt most képletek nélkül összefoglalom a lényeget. Az Y függő változót szeretnénk az X_1,...,X_p változók függvényével közelíteni úgy, hogy az Y és a becslés közötti várható négyeztes eltérés minimális legyen. Mondtam, hogy elméletileg a probléma megoldott, a feltételes várható érték, mint függvény (változók a feltételben) minimalizálja a várható négyzetes eltérést. Ezt követően lineáris regresszióval foglalkoztunk, ami annyiban különbözik az általános regressziótól, hogy csak lineáris függvények körében keressük az előbbi minimumot. Elméletileg ez a probléma is megoldott, a korrelációk és várható értékek segítségével könnyen ki lehet számolni a lineáris függvény együtthatóit és konstansát. Természetesen más a lineáristól eltérő függvényosztályokon is lehet vizsgálni a minimalizáló függvény kérdését. Fontos tény, hogy ha a vizsgált változók együttes eloszlása normális, akkor a legjobb közelítő függvény lineáris, vagyis ugyanaz az általános és lineáris regressziós probléma megoldása. Fontos megérteni azt is, hogy még az elméleti regresszió sem ad mindig jó közelítést. Például ha Y független az (X_1, ..., X_p) változó vektortól, akkor a legjobb közelítés az E(Y).

Külön kiemelem, hogy idéztem a tankönyvből egy a többszörös korrelációs együttható négyzetet átíró tételt. Fontos, hogy egy magyarázó változóra felírva a tétel kvantitatívan alátámasztja, hogy a korreláció tényleg a lineáris összefüggőség mérőszáma.

A gyakorlatban nem ismerjük az elméleti eloszlást, csak az (Y, X_1, ... , X_p) valószínűségi vektorváltozóról vannak megfigyeléseink. Így az elmélet helyett a legkissebb négyzetek módszerével határozzuk meg a minimalizálandó függvényt (általában egy függvényosztály függvényei közül, nálunk most a lineáris függvények közül, ekkor ekvivalens hozzáállás ha az elméleti képletben az igazi helyett empirikus kovarianciákkal számolunk). Azt, hogy egy így kapott becslőmodell mennyire ad jó közelítést az R^2 statisztika alapján döntöttük el, amit az Y empirikus szórása és az Y és a becsült érték közötti eltérések segítségével számoltunk ki (a kiemelt tétel jobb oldalának mintából való közelítése). Lineáris regressziónál, abban az esetben ha szerepel konstans a modellben, akkor az R^2 statisztika megegyezik az Y és a kapott legjobb lineáris közelítés empirikus korrelációjának a négyzetével (empirikus többszörös korrelációs együttható, kiemelt tétel bal oldalának empirikus közelítése). Megjegyeztem, hogy az R inkább a tankönyv lineáris modell - determinisztikus változók esete fejezetének fogalomrendszerét használja (itt a magyarázóváltozók hivatalosan előre beállított determinisztikus értékek, erről jövő héten beszélünk majd részletesebben).

Ezután a fenti használt autók adathalmazon közelítettük a Price változót a Mileage, Cylinder, Sound és Leather változók segítségével. Többek között láttuk, hogy a summary függvénnyel különböző statisztikákat kaphatunk. Egyenlőre csak az R^2 statisztikát hangsúlyoztam. Az óra végén a Cylinder változót az as.factor() paranccsal faktorrá alakítottuk (a nominális és ordinális változók objektuma az R-ben). Majd újra felépítettük az előző modellt. Azt tapasztaltuk, hogy így, hogy a Cylinder változó faktor lett a lineáris regressziót végző lm() parancs kicsit mást adott végeredményül. Jövő héten ebbe is jobban belemegyünk.