Statisztika MATLABbal.

Contents

Motivációs Háttér

Sokszor van, hogy véletlen adatokról kéne eldöntenünk valamit, pl hogy egy (tejipari) cég valóban csal-e a csomagolásnál, és kevesebb tejet ad el 1 literesként, vagy hogy egy gyógyszer valóban annyi hatóanyagot tartalmaz amit ráírtak. Ha kijön hogy 10 mintából az átlag 975 ml akkor most megbüntessük a céget (vegy ez belefér abba, hogy egyik kicsit kevesebb, mésik kicsit több). Erre jók a statisztikai próbák.

Statisztikai próba

Minden statisztikai próba ugyanúgy néz ki: Adva van két Hipotézis H0 (alaphipotézis) és H1 (alternatív vagy ellenhipotézis) egy megbízhatósági szint (hogy ha H0 a valóság, hány százalékánál fogadjuk el H0-nak, ennek kisebbnek kell lennie minr 100%) és egy statisztika (a minták egy függvénye). Ha H0 igaz akkor a statisztika eloszlása ismert. Az eloszláshoz és a megbízhatósági szinthez tudunk adni egy jobbról végtelen/balról végtelen/mindkét irányba véges, szimmetrikus intervallumot. Ha a statisztikai érték (amit a mintákból számoltunk) beleesik az intervallumba, akkor H0-t fogadjuk el különben H1-et.

Két fajta hiba lehetséges: Elfsőfajú hiba: ha H0 a valóság de nem azt fogadtuk el (ezt fals pozitívnak is hívják). Valószínűsége egyenlő 1-(Megbízhatósági szint)=Szignifikancia szintel. Régen ezt konstansnak választották, manapság a p-érték pont azt mondja meg milyen szignifikancia szintnél vetnénk el az eredményt.

Másodfajú hiba: ha H1 az igazság és H0-ra döntük (fals negatív). Valószínűsége exponenciálisan csökken, ha az első fajú hiba konstans. 1-(Másodfajú hiba)=A próba ereje.

T-próba

Például a T-próbánál, a megadott értékekről kéne eldönteni, hogy adott várható értékű-e. Ezért H0=(A minta várható értéke "m"), H1=(A minta várható ártáke nem "m"). A ttest nevű függvény T-próbát végez a megadott mintán.

Közös Példa

Egy új sör alkoholtartalmát teszteljük. Kijelenthetjük-e az alábbi 20 érték alapján, hogy az új sör alkoholtartalma 5%?

alkohol=[4.49,4.76,4.38,4.57,5.45,4.85,4.72,4.46,4.92,6.63,4.59,4.5,4.25,5.23,4.3,4.81,4.96,4.43,5.26,4.11]
ttest(alkohol,5)
alkohol =

  Columns 1 through 7

    4.4900    4.7600    4.3800    4.5700    5.4500    4.8500    4.7200

  Columns 8 through 14

    4.4600    4.9200    6.6300    4.5900    4.5000    4.2500    5.2300

  Columns 15 through 20

    4.3000    4.8100    4.9600    4.4300    5.2600    4.1100


ans =

     0

[dont,pertek]=ttest(alkohol,5)
[dont,pertek]=ttest(alkohol,5,'Tail','Right')
[dont,pertek]=ttest(alkohol,5,'Tail','Left')
dont =

     0


pertek =

    0.0999


dont =

     0


pertek =

    0.9500


dont =

     1


pertek =

    0.0500

Látjuk, hogy ha az alternatív hipotézis elfogdási intervalluma balról végtelen (vagyis azt tesztelj-k, hogy nem kevesebb-e) akkor a H1-re (vagyis hogy az alkoholtartalopm kisebb mint 5) döntünk.

A sampsizepwr függvény

A sampsizepwr(testtype,p0,p1,pwr) függvény azt mondja meg hogy ha a H0 hipotézis p0=[várható értéke, szórása] adott és az alternatív hipotézis p1=várható ártáke is ismert akkor mekkora elemszám kell, hogy a pwr(=0.8 alapból) erejű próbát kapjuk.

Hány sör alkoholtartalmát kéne megmérni, hogy az 5% várható értékű 0,3 szórású alkoholtartalmú sört meg lehessen különböztetni a 4,5%-os alkoholtartalmú sörtöl?

sampsizepwr('t',[5, 0.3],4.5)
sampsizepwr('t',[5, 0.3],4.5,0.9)
ans =

     7


ans =

     7

Hány tejesdoboz tartalmát kéne megmérni, 1000 ml várható értékű 50 ml szórású tejet megkülönböztessük a 950 ml-es várható értékútől (80%/os erő mellett)?

sampsizepwr('t',[1000, 50],950)
ans =

    13

Első Házi feladat:

Egy bizonyos fajta rák kísérleti egerekben véletlenszerűen nagy daganatot hoz létre, melynek várható értéke 2,5 cm. Mielőtt gyószerkutatásba kezdenénk kontroll kísérletet végzünk, hogy a rák sejtvonalunk megfelel-e a máshol használtaknak 20 egeret megfertőzünk rákos sejtekkel, két hónap után megmérjük a daganat nagyságát. A következő eredményeket kapjuk: 2.6, 3, 1.7, 2.5, 2.7, 3.2, 2.4, 2.6, 2, 1.3, 1.7, 2.5, 2.6, 3, 2.7, 1.2, 2.2, 2.2 2.2, 2.6 Végezzünk próbát, hogy 95%-os megbízhatósági szinten megegzezik-e 2.5-cmel kétoldali/jobbról végtelen/balról végtelen konfidenca intervalummal is ellenőrizük.

adatok=[2.6, 3, 1.7, 2.5, 2.7, 3.2, 2.4, 2.6, 2, 1.3, 1.7, 2.5, 2.6, 3, 2.7, 1.2, 2.2, 2.2 2.2, 2.6];
[dont,pertek]=ttest(adatok,2.5)
[dont,pertek]=ttest(adatok,2.5,'Tail','right')
[dont,pertek]=ttest(adatok,2.5,'Tail','left')
dont =

     0


pertek =

    0.2158


dont =

     0


pertek =

    0.8921


dont =

     0


pertek =

    0.1079

Tehát mondhatjuk hogy 95%-os megbízhatósági szint mellett ez 2.5 mm várható értékű.

Második Házi feladat

Gyógyszerkísérletet végzünk egereken, kettős vakpróbával. Az egyik szernél (amiről utólag kiderült, hogy a gyógyszer) csoportonként 11, 14, 15, 15, 11, 15, 10, 11 ,9 ,14 egér maradt életben. A másik szernél 9,13,10,12,11,7,10,8,5,8 egér maradt9,13,10,12,11,7,10,8,5,8 életben csoportonként. Hatásos-e a gyógyszer? Milyen szignifikancia szint mellett?

gyogyEger=[11, 14, 15, 15, 11, 15, 10, 11 ,9 ,14];
placeboEger=[9,13,10,12,11,7,10,8,5,8];
[dont,pertek]=ttest(gyogyEger,placeboEger)
dont =

     1


pertek =

    0.0038

Tehát 0.38 % szigifikancia szint mellett szignifikáns (akkor 1% és 5% szgnifikancia szint mellett is szignifikáns)

Bónusz Házi feladat

Tegyük fel, hogy az ellenőrző kísérletünknél az jött ki, hogy nem hatásos a gyógyszer, de a kísérletvezető szerint azért, mert túl kevés csoportot vizsgáltunk. Valami hatás volt, de nem elég nagy, hogy a statisztikai próba ezt kimutatta volna. Hány csoportot kéne megvizsgálni, hogy ha valóban hatásos a gyógyszer, akkor 85% legyen az esélye, hogy ez statisztikailag kimutatható legyen(vagyis a próba ereje legyen 85%)? Tegyük fel, hogy az első kisérletnél mért értékek a valósak ahol a gyógyszert kapott megmaradt egerek átlagos száma (várható értéke) 12,5; szórása 5.38 volt míg a placebót kapott egerek átlagos száma 9,3 volt.

sampsizepwr('t2',[12.5 5.38],9.3)
ans =

    61