Harmadik házi adatfájl


Ház adatok elérhetősége


Ház adatok


McnNmar teszthez adatok


hazzarrendez.sav házihoz


Alul olvashatjátok a leckét. Bármi kérdésetek van írjatok emailt! Megváltozott beadási határidő: szombat este

Házi


Fontos!!! A leckét a samatiok@gmail.com -ra küldjétek (math-os tárhely sajnos véges)!!!


Az óra elején átismételtük az elméleti korrelációról tanultakat. Majd felírtam az empirikus korreláció képletét. Ezt követően a fent is elérhető harmadik házihoz kötődő adatfájlon korrelációt kértünk a használt kocsi ára és a megtett mérföldek száma változók között. Szignifikáns negatív korrelációt tapasztaltunk (az output tartalmaz egy normalitás feltevését felhasználó hipotézisvizsgálatot, amelynek a 0 korreláció a nullhipotézise). Megjegyeztük azt is, hogy ugyan a korreláció szignifikánsan különbözik 0-tól, mégis elég kicsinek mondható. Ennek oka feltehetőleg az, hogy az adatbázisban 1 évnél fiatalabb autók szerepeltek, illetve az, hogy a kapcsolat a két változó között összetettebb a lineárisnál.
Ezt követően bináris (X,Y) együttes valószínűségi változóhoz kapcsolódóan átismételtük a különbséget a homogenitásvizsgálat és a függetlenségvizsgálat között. Megtanultuk, hogy ha X és Y is csak két értéket vesz fel, akkor McNemar teszttel (Analyze/Nonparametric tests/2 relates samples -ön belül lehet kérni) vizsgálhatjuk a homogenitást (az előteszten való átmenés és az utóteszten való átmenés eloszlása azonosnak tekinthető-e). Analyze/Descriptive Statistics/Crosstabs paranccsal láttuk, hogy arányaiban többen mentek át az utóteszten, mint az előteszten (nem volt triviális megtalálni a jó százalékokat, de azért sikerült). Utólag megjegyzem, hogy az Analyze/Descriptive Statistics/Frequency paranccsal könnyebben leolvashattuk volna a megfelelő százalékokat, de az előző módszer megengedte, hogy jobban megértsük a különbséget homogenitás- és függetlenségvizsgálat között. Ezt követően McNemar tesztel láttuk, hogy az eltérés az átmeneti arányok között szignifikáns.
Ezután röviden bevezettelek benneteket a regresszió elméletébe. Itt most képletek nélkül összefoglalom a lényeget. Az Y függő változót szeretnénk az X_1,...,X_p független változók függvényével közelíteni úgy, hogy az Y és a becslés közötti várható négyeztes eltérés minimális legyen. Mondtam, hogy elméletileg a probléma megoldott, a feltételes várható érték, mint függvény (változók a feltételben) minimalizálja a várható négyzetes eltérést. Ezt követően lineáris regresszióval foglalkoztunk, ami annyiban különbözik az általános regressziótól, hogy csak lineáris függvények körében keressük az előbbi minimumot. Elméletileg ez a probléma is megoldott, a korrelációk és várható értékek segítségével könnyen ki lehet számolni a lineáris függvény együtthatóit és konstansát. Természetesen más a lineáristól eltérő függvényosztályokon is lehet vizsgálni a minimalizáló függvény kérdését. Fontos tény, hogy ha a vizsgált változók együttes eloszlása normális, akkor a legjobb közelítő függvény lineáris, vagyis ugyanaz az általános és lineáris regressziós probléma megoldása. Fontos megérteni azt is, hogy még az elméleti regresszió sem ad mindig jó közelítést. Például ha Y független az (X_1, ..., X_p) változó vektortól, akkor a legjobb közelítés az E(Y).
A gyakorlatban nem ismerjük az elméleti eloszlást, csak az (Y, X_1, ... , X_p) valószínűségi vektorváltozóról vannak megfigyeléseink. Így az elmélet helyett a legkissebb négyzetek módszerével határozzuk meg a minimalizálandó függvényt (általában egy függvényosztály függvényei közül, nálunk most a lineáris függvények közül). Azt, hogy egy így kapott becslőmodell mennyire ad jó közelítést az R^2 statisztika alapján döntöttük el, amit az Y empirikus szórása és az Y és a becsült érték közötti eltérések segítségével számoltunk ki. Lineáris regressziónál, abban az esetben ha szerepel konstans a modellben, akkor az R^2 statisztika megegyezik az Y és a kapott legjobb lineáris közelítés empirikus korrelációjának a négyzetével (többszörös korrelációs együttható).
Ezután a fenti hazar.sav-ban a házak eladási árát közelítettük a négyzetláb, műszaki cikkszám és adó változókkal. Beszéltünk az output R^2-t tartalamzó táblázatáról, illetve az együtthatókat tartalmazóról. Utóbbinál a tényleges együtthatókon kívül fontos a Beta oszlop, ami a sztenderdizált változókra lefuttatott regresszió együtthatóit tartalmazza. Ez az oszlop jobban segít összehasonlítani az együtthatókat, mert nem függ az egyes változók nagyságrendjétől. Az utolsó oszlopban láthatjuk annak a statisztikai vizsgálatnak az eredményét, ami azt vizsgálja, hogy igaz-e az, hogy a változó együtthatója 0. Ezzel óvatosan kell bánni normalitási feltételek miatt. Megjegyzem, hogy a magyarázó változók közötti összefüggések befolyásolhatják a változók fontosságot, szignifikáns voltát és a kapott együtthatók előjelét (multikollinearitás vizsgálat foglalkozik ezzel a kérdéskörrel részletesebben).