Órai munka


Koleszterin


Az óra elején megbeszéltük a Simpson paradoxon részleteit (a részletesebb indoklást az előző órához írtam).

Ezután elkészítettük a fent is megtalálható Excel file-t. Ez vizuálisan alátámasztotta, hogy a hipotézisvizsgálat a következők között tanít meg különbséget tenni: (a) igaz a hipotézisünk, a várttól való eltérés csak a véletlennek tulajdonítható (b) az eltérésnek az az oka, hogy nem igaz a hipotézisünk. A file elkészítéséhez szükségünk volt arra, hogy $ jellel lehet befixálni Excelben a hivatkozásokat (a képletben a hivatkozott cella mellé kattintva F4-el lehet váltogatni a különböző fixálások között). Azt is megtanultuk, hogy tömb értékű függvényt úgy élesítünk, hogy az első cellába beírjuk a függvényt, kijelöljük a teljes céltartományt majd F2-t követően crtl+shift+entert nyomunk.

Eztután a fenti linken elérhető második koleszterines file-t letöltöttük. Ez egy egyszerű szöveges file amiben az adatok tabulátorral vannak elválasztva. Az excelben való betöltés csak a második napi koleszterinre fókuszáltunk. Megértettük, hogy a mintára úgy lehet tekinteni, hogy független azonos eloszlású példányokat látunk egy háttérváltozóból. Ezután feltettük azt a kérdés, hogy vajon a háttérváltozó várható értéke 260-e. Ehhez kötődően megtanítottam a standard error of mean-t, ami a mintaátlag statisztika elméleti szórásának mintából való közelítését adja ((korrigált empirikus szórás)/gyök(n)). Tekintve, hogy a második napi koleszterin mintaátlaga 253 körüli és a standard error of mean pedig 9 körüli megállapítottuk, hogy nincs okunk elvetni azt a hipotézist, hogy a szívroham után 2 nappal az átlagos koleszterin 260 (ekkora eltérés magyarázható a véletlennel, lásd szigma szabályok). Hamarosan a hipotézisvizsgálat fogalomrendszerével matematikailag precízebben fogunk vizsgálni ilyen és ehhez hasonló kérdéseket. A számolásokat a következő órához felrakott Excel file tartalmazza.