Használt autók adatfile (kuiper.xls-t kell keresni)


Használt autók sav-ban


A tantárgy honlapján elérhető gyakorló feladatsor 1,2,5-ös feladatait megoldottuk. Az 5-ös feladathoz és általában papíros hipotézisvizsgálathoz hasznos a szintén a tantárgy honlapján található képletgyűjtemény és kvantilis táblázat.

Megosztottam veletek a gondolataimat az egyoldali próbákhoz kötődően, továbbá az egymintás t-próba kapcsán át is vettem veletek. Matematikailag precízek mindazonáltal a használatuk a nem megfelelő dokumentáció miatt keveredésre adhat okot. Én akkor javaslom a használatukat ha a nem vizsgált alternatíva szóba sem jön, illetve ha tényleg semmilyen következményekkel nem jár a nem vizsgált irányú eltérés. Azt pedig mindenképpen javaslom, hogy pontosan dokumentáljátok az elvégzett teszteket. Labor szempontjából fontos, hogy a program által kiírt kétoldali p-értéket osztani kell 2-vel, ahhoz, hogy megkapjátok az egyoldali p-értéket.

Szó volt a függetlenség matematikai fogalmáról (az együttes valószínűségek a marginális valószínűségek szorzatai) illetve chi-négyzet függetlenségvizsgálatról (a függetlenség a nullhipotézis), amivel megvizsgáltuk, hogy a fenti használt autók adatfile alapján függetlennek tekinthető-e a bőrülés és a hangrendszer megléte. Azt tapasztaltuk, hogy a két változó nem tekinthető függetlennek. Ezenkívül a diszkretizáló chi-négyzet teszttel megvizsgáltuk, hogy az ár és a megtett mérföldek változók függetlennek tekinthetőek-e. Lekértük a Transform/Rank cases paranccsal a két változó megfigyelésinek sorrendjét, majd a Recode into different variable parancs segítségével a rangok alapján kategorizáltuk az eseteket. Láttuk, hogy az így kapott diszkrét változók nem voltak függetlenek, így az eredeti folytonos változók sem azok (vigyázat a diszkrét függetlenségből nem következik az eredeti változók függetlensége - de azért lehet gyanítani!). Megjegyeztem, hogy a chi-négyzet függetlenségvizsgálat akkor működik jól, ha az egyes cellákba esés nullhipotézis melletti várható gyakorisága elég nagy. Emiatt képeztünk csak néhány csoportot. Nagyobb mintaelemszám esetén lehetőségünk lett volna több csoportot létrehozni.

Korrelációról is volt szó, mint a lineáris összefüggés mérőszámáról. Megbeszéltük, hogy a függetlenségből következik a korrelálatlanság (0 korreláció), de a korrelálatlanságból általában nem következik a függetlenség (de normális együttes eloszlás esetén következik). Említettem azt is, hogy a korreláció egy -1 és 1 közötti szám. Az előjele megmondja, hogy együtt vagy ellentétesen mozognak a változók, a nagysága pedig ennek a hatásnak az erősségét mutatja. Ezt követően a fent is elérhető harmadik házihoz kötődő adatfájlon korrelációt kértünk a használt kocsi ára és a megtett mérföldek száma változók között (egész pontosan empirikus korrelációt számoltunk, ami közelíti az igazit). Szignifikáns negatív korrelációt tapasztaltunk (az output tartalmaz egy hipotézisvizsgálatot, amelynek a 0 korreláció a nullhipotézise). Megjegyeztük azt is, hogy ugyan a korreláció szignifikánsan különbözik 0-tól, mégis elég kicsinek mondható. Ennek oka feltehetőleg az, hogy az adatbázisban 1 évnél fiatalabb autók szerepeltek, illetve az, hogy a kapcsolat a két változó között összetettebb a lineárisnál.