Kói Tamás honlapja

Használt autók adatfile (kuiper.xls-t kell keresni)

kuiper.RData

Házihoz negyedikhazi.R

Alul olvashatjátok a negyedik leckét. Bármi kérdésetek van írjatok emailt! A beadási határidő a zh előtti nap 18 óra.

Házi

Fontos!!! A leckét a samatiok@gmail.com -ra küldjétek (math-os tárhely sajnos véges)!!!

Órai anyag

Az óra elején röviden elmondtam azt a lineáris regressziós modell változatot ahol is a magyarázó változóink előre beállított determinisztikus értékek. Ezt rögtön az általánosított lineáris modell nyelvezetén tettem. Így röviden meg tudtam említeni a logisztikus regressziót is. A programcsomagok általában ennek a változatnak a fogalomrendszerét használják, akkor is ha nem determinisztikusak a magyarázó változóink.

Ezután az inkább a múlt órai modellváltozathoz kötődő parciális korrelációról volt szó. Röviden arról van szó, hogy egy változóval lineáris regresszióval közelítünk két másik változót, elkészítjük a becslés és az igazi változók különbségét, majd a különbségek között kérünk korrelációt. Mindezt úgy lehet interpretálni, hogy kiszűrtük a regresszió alapjául szolgáló változó hatását, és így kérünk korrelációt a másik két változó között. Ezt követően egy fiktív adatokat tartalmazó fájlban kértünk empirikus korrelációt a pohár törések száma és a rendőri kiérkezések száma között. Pozitív korrelációt tapasztaltunk: így minél több a rendőri kiérkezés annál több az eltört pohár. Természetesen ez nem jelent ok okozati összefüggést. Azért pozitív a korreláció, mert mindkét változó erősen függ a verekedések száma változótól. Elkészítettük a pohártörés és rendőri jelenlét empirikus parciális korrelációját a verekedések számára nézve. Vagyis a verekedések száma változó hatását igyekeztünk kiszűrni. A vártnak megfelelően így már 0 körüli korrelációt kaptunk. Így megállapítottuk, hogy nem a rendőrök törik össze a poharakat.

Ezután a nominális, ordinális, intervallum és skála mérési szintekről beszéltünk. Ez a besorolás mutatja, hogy a valószínűségi változónk hogyan kötődik a valósághoz. Majd újra lefuttattuk a Cylinder változót faktorrá alakító as.factor() (a nominális és ordinális változók objektuma az R-ben) és újra felépítettük az előző órai modellt. Újra láttuk, hogy így, hogy a Cylinder változó faktor lett a lineáris regressziót végző lm() parancs kicsit mást adott végeredményül. Technikailag az történt, hogy létrejött két új bináris (0-1 értékű) változó (a Cylinder lehetséges értékei - 1 darab változó): Cylinder6 és Cylinder8. Ezek akkor 1-ek ha a Cylinder értéke 6 illetve 8 volt, egyébként 0-k. A regresszióba az eredeti Cylinder változó helyett ez a két új bináris változó került be. Azt mondhatjuk erre, hogy ez az átalakítás megengedi, hogy az eltérő Cylinder értékek esetén más legyen a lineáris regresszió konstans tagja. Nominális változókat mindig így érdemes szerepeltetni a lineáris regresszióban (és többnyire ordinálist is).

Ezután a summary() függvény outputjához hozzáadtuk a béta oszlopot majd néhány dologra felhívtam a figyelmet. Láttuk az R^2 statisztikát és annak a hipotézisvizsgálatnak a p-értékét, amely azt vizsgálja, hogy az egyes együtthatók 0-nak tekinthetőek-e (ezzel óvatosan kell bánni normalitási feltételek miatt). Szóba került az is, hogy nem a regressziós együtthatók nagysága a döntő abban, hogy melyik változó mennyire fontos, hiszen az a mértékegység függvénye. Ennek eldöntésében a külön hozzáadott béta oszlop nyújt hasznos segítséget (a standardizált változókra lefuttatott regresszió együtthatóiról van szó, így bizonyos értelemben mértékegységtől függetlenül hasonlíthatjuk össze az egyes változók szerepét). Azt is megjegyeztem, hogy a magyarázó változók közötti összefüggések befolyásolhatják a változók fontosságot, szignifikáns voltát és a kapott együtthatók előjelét (multikollinearitás vizsgálat foglalkozik ezzel a kérdéskörrel részletesebben).

Ezután szétválasztottuk a mintát tanuló és teszt részre. A tanuló részen építettük fel a modellünket, amivel aztán a predict() parancs segítségével a teszt mintán becsültük meg a használt kocsik eladási árát. Az eredeti és a becsült Price változót plotoltuk.

Ezután az elkezdett modellt több irányból is fejlesztettük. Egyrészt több változót vontunk be, másrészt bővítettük a Mileage és Cylinder iterakciójával. A program formálisan létrehozza a fenti bináris Cylinder6 és Cylinder8 változók és a Mileage szorzatát (hívjuk ezeket Cyl6Mileage és Cyl8Mileage-nek) és ezeket is berakja a regresszióba. Interakció nélkül a Mileage együtthatója azt mutatja, hogy minden mást rögzítve ha 1 egységgel megnöveljük a megtett mérföldet, akkor átlagosan mennyit változik az ár. Az interakciós változók jelenléte esetén ugyanez azt mutatja, hogy ha mindent rögzítünk, de úgy, hogy a Cylinder 4, akkor 1 egység megtett mérföld növekedés hogyan változtatja átlagosan az árat. Ha pedig összeadjuk, a Mileage és Cyl8Mileage együtthatóját, akkor az összeg mutatja azt, hogy ha mindent rögzítünk, de úgy, hogy a Cylinder 8, akkor 1 egység megtett mérföld növekedés hogyan változtatja átlagosan az árat.

hsb2zhhoz.csv

kruiserepit.Rdata

kruiserteszt.Rdata