Koleszterin


Excel segédanyag


Excel segédanyag csv-ben


Órai munka


Órai végén mutatott kereszttábla (az eredeti file a lentről számított második munkalapon van)


Először valószínűségi változók elméleti paramétereiről (átlag, szórás, korreláció) és azok mintából való közelítéséről volt szó. Megbeszéltük, hogy a függetlenségből következik a korrelálatlanság (0 korreláció), de a korrelálatlanságból általában nem következik a függetlenség. Említettem azt is, hogy a korreláció egy -1 és 1 közötti szám. Az előjele megmondja, hogy együtt vagy ellentétesen mozognak a változók, a nagysága pedig ennek a hatásnak az erősségét mutatja. A korrelációra úgy lehet tekinteni, mint a lineáris összefüggőség mérőszámára.

A fenti linken elérhető második koleszterines file-t letöltöttük. Ez egy egyszerű szöveges file amiben az adatok tabulátorral vannak elválasztva. Az excelben való betöltés után a megtanult statisztikákat ki is számoltuk, ponfelhő ábát készítettünk regressziós egyenessel (ma még nem mentünk bele a lineáris regresszió részleteibe, egyszerűen az adatokra bizonyos értelemben legjobban illeszkedő egyenesként beszéltünk róla). Azt a tényt, hogy az egyenes meredeksége a korreláció megszorozva a két szórás hányadosával számolással ellenőriztük. Fontos, hogy $ jellel lehet befixálni Excelben a hivatkozásokat (a képletben a hivatkozott cella mellé kattintva F4-el lehet váltogatni a különböző fixálások között).

Ezután feltettük azt a kérdés, hogy vajon 260-e az átlagos koleszterin szívroham után 2 nappal (a háttérváltozó várható értéke 260-e). Ehhez kötődően megtanítottam a standard error of mean-t, ami a mintaátlag statisztika elméleti szórásának mintából való közelítését adja ((korrigált empirikus szórás)/gyök(n)). Tekintve, hogy a második napi koleszterin mintaátlaga 253 körüli és a standard error of mean pedig 9 körüli megállapítottuk, hogy nincs okunk elvetni azt a hipotézist, hogy a szívroham után 2 nappal az átlagos koleszterin 260 (ekkora eltérés magyarázható a véletlennel, lásd szigma szabályok). Hamarosan a hipotézisvizsgálat fogalomrendszerével matematikailag precízebben fogunk vizsgálni ilyen és ehhez hasonló kérdéseket.

Ezután az előadáson tanult heurisztikus módszerrel megállapítottuk, hogy a második napi koleszterin változó normális eloszlásúnak tekinthető (órai munka második munkalapja). Fontos, hogy tömb értékű függvényt úgy élesítünk, hogy az első cellába beírjuk a függvényt, kijelöljük a teljes céltartományt majd F2-t követően crtl+shift+entert nyomunk.

Végül a fenti lányokfiuk.xls kapcsán felhívtam a figyelmet a diszkrét és folytonos változók közti különbségre illetve kereszttáblát készítettünk. Azt vettük észre, hogy a fiúk összteljesítménye jobb annak ellenére, hogy mindkét karon a lányok szerepeltek jobban. Arra is felhívtam a figyelmet, hogy az is fontos kérdés, hogy mekkora teljesítményeltérést indokolhatunk a véletlennel.