Statisztika MATLABbal.
Contents
Motivációs Háttér
Sokszor van, hogy véletlen adatokról kéne eldöntenünk valamit, pl hogy egy (tejipari) cég valóban csal-e a csomagolásnál, és kevesebb tejet ad el 1 literesként, vagy hogy egy gyógyszer valóban annyi hatóanyagot tartalmaz amit ráírtak. Ha kijön hogy 10 mintából az átlag 975 ml akkor most megbüntessük a céget (vegy ez belefér abba, hogy egyik kicsit kevesebb, mésik kicsit több). Erre jók a statisztikai próbák.
Statisztikai próba
Minden statisztikai próba ugyanúgy néz ki: Adva van két Hipotézis H0 (alaphipotézis) és H1 (alternatív vagy ellenhipotézis) egy megbízhatósági szint (hogy ha H0 a valóság, hány százalékánál fogadjuk el H0-nak, ennek kisebbnek kell lennie minr 100%) és egy statisztika (a minták egy függvénye). Ha H0 igaz akkor a statisztika eloszlása ismert. Az eloszláshoz és a megbízhatósági szinthez tudunk adni egy jobbról végtelen/balról végtelen/mindkét irányba véges, szimmetrikus intervallumot. Ha a statisztikai érték (amit a mintákból számoltunk) beleesik az intervallumba, akkor H0-t fogadjuk el különben H1-et.
Két fajta hiba lehetséges: Elfsőfajú hiba: ha H0 a valóság de nem azt fogadtuk el (ezt fals pozitívnak is hívják). Valószínűsége egyenlő 1-(Megbízhatósági szint)=Szignifikancia szintel. Régen ezt konstansnak választották, manapság a p-érték pont azt mondja meg milyen szignifikancia szintnél vetnénk el az eredményt.
Másodfajú hiba: ha H1 az igazság és H0-ra döntük (fals negatív). Valószínűsége exponenciálisan csökken, ha az első fajú hiba konstans. 1-(Másodfajú hiba)=A próba ereje.
T-próba
Például a T-próbánál, a megadott értékekről kéne eldönteni, hogy adott várható értékű-e. Ezért H0=(A minta várható értéke "m"), H1=(A minta várható ártáke nem "m"). A ttest nevű függvény T-próbát végez a megadott mintán.
Közös Példa
Egy új sör alkoholtartalmát teszteljük. Kijelenthetjük-e az alábbi 20 érték alapján, hogy az új sör alkoholtartalma 5%?
alkohol=[4.49,4.76,4.38,4.57,5.45,4.85,4.72,4.46,4.92,6.63,4.59,4.5,4.25,5.23,4.3,4.81,4.96,4.43,5.26,4.11] ttest(alkohol,5)
alkohol = Columns 1 through 7 4.4900 4.7600 4.3800 4.5700 5.4500 4.8500 4.7200 Columns 8 through 14 4.4600 4.9200 6.6300 4.5900 4.5000 4.2500 5.2300 Columns 15 through 20 4.3000 4.8100 4.9600 4.4300 5.2600 4.1100 ans = 0
[dont,pertek]=ttest(alkohol,5) [dont,pertek]=ttest(alkohol,5,'Tail','Right') [dont,pertek]=ttest(alkohol,5,'Tail','Left')
dont = 0 pertek = 0.0999 dont = 0 pertek = 0.9500 dont = 1 pertek = 0.0500
Látjuk, hogy ha az alternatív hipotézis elfogdási intervalluma balról végtelen (vagyis azt tesztelj-k, hogy nem kevesebb-e) akkor a H1-re (vagyis hogy az alkoholtartalopm kisebb mint 5) döntünk.
A sampsizepwr függvény
A sampsizepwr(testtype,p0,p1,pwr) függvény azt mondja meg hogy ha a H0 hipotézis p0=[várható értéke, szórása] adott és az alternatív hipotézis p1=várható ártáke is ismert akkor mekkora elemszám kell, hogy a pwr(=0.8 alapból) erejű próbát kapjuk.
Hány sör alkoholtartalmát kéne megmérni, hogy az 5% várható értékű 0,3 szórású alkoholtartalmú sört meg lehessen különböztetni a 4,5%-os alkoholtartalmú sörtöl?
sampsizepwr('t',[5, 0.3],4.5) sampsizepwr('t',[5, 0.3],4.5,0.9)
ans = 7 ans = 7
Hány tejesdoboz tartalmát kéne megmérni, 1000 ml várható értékű 50 ml szórású tejet megkülönböztessük a 950 ml-es várható értékútől (80%/os erő mellett)?
sampsizepwr('t',[1000, 50],950)
ans = 13
Első Házi feladat:
Egy bizonyos fajta rák kísérleti egerekben véletlenszerűen nagy daganatot hoz létre, melynek várható értéke 2,5 cm. Mielőtt gyószerkutatásba kezdenénk kontroll kísérletet végzünk, hogy a rák sejtvonalunk megfelel-e a máshol használtaknak 20 egeret megfertőzünk rákos sejtekkel, két hónap után megmérjük a daganat nagyságát. A következő eredményeket kapjuk: 2.6, 3, 1.7, 2.5, 2.7, 3.2, 2.4, 2.6, 2, 1.3, 1.7, 2.5, 2.6, 3, 2.7, 1.2, 2.2, 2.2 2.2, 2.6 Végezzünk próbát, hogy 95%-os megbízhatósági szinten megegzezik-e 2.5-cmel kétoldali/jobbról végtelen/balról végtelen konfidenca intervalummal is ellenőrizük.
adatok=[2.6, 3, 1.7, 2.5, 2.7, 3.2, 2.4, 2.6, 2, 1.3, 1.7, 2.5, 2.6, 3, 2.7, 1.2, 2.2, 2.2 2.2, 2.6]; [dont,pertek]=ttest(adatok,2.5) [dont,pertek]=ttest(adatok,2.5,'Tail','right') [dont,pertek]=ttest(adatok,2.5,'Tail','left')
dont = 0 pertek = 0.2158 dont = 0 pertek = 0.8921 dont = 0 pertek = 0.1079
Tehát mondhatjuk hogy 95%-os megbízhatósági szint mellett ez 2.5 mm várható értékű.
Második Házi feladat
Gyógyszerkísérletet végzünk egereken, kettős vakpróbával. Az egyik szernél (amiről utólag kiderült, hogy a gyógyszer) csoportonként 11, 14, 15, 15, 11, 15, 10, 11 ,9 ,14 egér maradt életben. A másik szernél 9,13,10,12,11,7,10,8,5,8 egér maradt9,13,10,12,11,7,10,8,5,8 életben csoportonként. Hatásos-e a gyógyszer? Milyen szignifikancia szint mellett?
gyogyEger=[11, 14, 15, 15, 11, 15, 10, 11 ,9 ,14]; placeboEger=[9,13,10,12,11,7,10,8,5,8]; [dont,pertek]=ttest(gyogyEger,placeboEger)
dont = 1 pertek = 0.0038
Tehát 0.38 % szigifikancia szint mellett szignifikáns (akkor 1% és 5% szgnifikancia szint mellett is szignifikáns)
Bónusz Házi feladat
Tegyük fel, hogy az ellenőrző kísérletünknél az jött ki, hogy nem hatásos a gyógyszer, de a kísérletvezető szerint azért, mert túl kevés csoportot vizsgáltunk. Valami hatás volt, de nem elég nagy, hogy a statisztikai próba ezt kimutatta volna. Hány csoportot kéne megvizsgálni, hogy ha valóban hatásos a gyógyszer, akkor 85% legyen az esélye, hogy ez statisztikailag kimutatható legyen(vagyis a próba ereje legyen 85%)? Tegyük fel, hogy az első kisérletnél mért értékek a valósak ahol a gyógyszert kapott megmaradt egerek átlagos száma (várható értéke) 12,5; szórása 5.38 volt míg a placebót kapott egerek átlagos száma 9,3 volt.
sampsizepwr('t2',[12.5 5.38],9.3)
ans = 61