Az óra elején röviden bevezettelek benneteket a regresszió elméletébe. Itt most képletek nélkül összefoglalom a lényeget. Az Y függő változót szeretnénk az X_1,...,X_p változók függvényével közelíteni úgy, hogy az Y és a becslés közötti várható négyeztes eltérés minimális legyen. Mondtam, hogy elméletileg a probléma megoldott, a feltételes várható érték, mint függvény (változók a feltételben) minimalizálja a várható négyzetes eltérést. Ezt követően lineáris regresszióval foglalkoztunk, ami annyiban különbözik az általános regressziótól, hogy csak lineáris függvények körében keressük az előbbi minimumot. Elméletileg ez a probléma is megoldott, a korrelációk és várható értékek segítségével könnyen ki lehet számolni a lineáris függvény együtthatóit és konstansát. Természetesen más a lineáristól eltérő függvényosztályokon is lehet vizsgálni a minimalizáló függvény kérdését. Fontos tény, hogy ha a vizsgált változók együttes eloszlása normális, akkor a legjobb közelítő függvény lineáris, vagyis ugyanaz az általános és lineáris regressziós probléma megoldása.
Fontos megérteni azt is, hogy még az elméleti regresszió sem ad mindig jó közelítést. Például ha Y független az (X_1, ..., X_p) változó vektortól, akkor a legjobb közelítés az E(Y).
A gyakorlatban nem ismerjük az elméleti eloszlást, csak az (Y, X_1, ... , X_p) valószínűségi vektorváltozóról vannak megfigyeléseink. Így az elmélet helyett a legkissebb négyzetek módszerével határozzuk meg a minimalizálandó függvényt (általában egy függvényosztály függvényei közül, nálunk most a lineáris függvények közül, ekkor ekvivalens hozzáállás ha az elméleti képletben az igazi helyett empirikus kovarianciákkal számolunk). Azt, hogy egy így kapott becslőmodell mennyire ad jó közelítést az R^2 statisztika alapján döntöttük el, amit az Y empirikus szórása és az Y és a becsült érték közötti eltérések segítségével számoltunk ki. Lineáris regressziónál, abban az esetben ha szerepel konstans a modellben, akkor az R^2 statisztika megegyezik az Y és a kapott legjobb lineáris közelítés empirikus korrelációjának a négyzetével (többszörös korrelációs együttható). Megjegyeztem, hogy az R inkább a tankönyv lineáris modell - determinisztikus változók esete fejezetének fogalomrendszerét használja (itt a magyarázóváltozók hivatalosan előre beállított determinisztikus értékek).
Ezután a fenti használt autók adathalmazon közelítettük a Price változót a Mileage, Cylinder, Sound és Leather változók segítségével. Többek között láttuk, hogy a summary függvénnyel különböző statisztikákat kaphatunk. Két dolgot emeltem ki. A fent említett R^2 statisztikát, és annak a hipotézisvizsgálatnak a p-értékét, amely azt vizsgálja, hogy az egyes együtthatók 0-nak tekinthetőek-e (ezzel óvatosan kell bánni normalitási feltételek miatt). Megjegyeztem, hogy bizonyos megszorításokkal állíthatjuk, hogy minél alacsonyabb a p-érték, annál fontosabb a változó szerepe a regresszióban. Szóba került ezen a ponton, hogy nem a regressziós együtthatók nagysága a döntő, hiszen az a mértékegység függvénye. Azt is megjegyeztem, hogy a magyarázó változók közötti összefüggések befolyásolhatják a változók fontosságot, szignifikáns voltát és a kapott együtthatók előjelét (multikollinearitás vizsgálat foglalkozik ezzel a kérdéskörrel részletesebben).
Ezután a Cylinder változót az as.factor() paranccsal faktorrá alakítottuk (a nominális és ordinális változók objektuma az R-ben). Majd újra felépítettük az előző modellt. Azt tapasztaltuk, hogy így, hogy a Cylinder változó faktor lett a lineáris regressziót végző lm() parancs kicsit mást adott végeredményül. Technikailag az történt, hogy létrejött két új bináris (0-1 értékű) változó (a Cylinder lehetséges értékei - 1 darab változó): Cylinder6 és Cylinder8. Ezek akkor 1-ek ha a Cylinder értéke 6 illetve 8 volt, egyébként 0-k. A regresszióba az eredeti Cylinder változó helyett ez a két új bináris változó került be. Azt mondhatjuk erre, hogy ez az átalakítás megengedi, hogy az eltérő Cylinder értékek esetén más legyen a lineáris regresszió konstans tagja. Nominális változókat mindig így érdemes szerepeltetni a lineáris regresszióban.
Ezután szétválasztottuk a mintát tanuló és teszt részre. A tanuló részen építettük fel a modellünket, amivel aztán a predict() parancs segítségével a teszt mintán becsültük meg a használt kocsik eladási árát. Az eredeti és a becsült Price változót plotoltuk.
Az óra végén felevenítettem az első órán bemutatott parciális korrelációt. Röviden arról van szó, hogy egy változóval lineáris regresszióval közelítünk két másik változót, elkészítjük a becslés és az igazi változók különbségét, majd a különbségek között kérünk korrelációt. Mindezt úgy lehet interpretálni, hogy kiszűrjük a regresszió alapjául szolgáló változó hatását, és így kérünk korrelációt a másik két változó között.
Az óra utolsó perceit néhány kiegészítő R parancs tanulmányozásával és ismétléssel töltöttük.