]> Minta kovariancia és korreláció
  1. Virtuális laboratóriumok
  2. 5. Véletlen minták
  3. 1
  4. 2
  5. 3
  6. 4
  7. 5
  8. 6
  9. 7

7. Minta kovariancia és korreláció

A kétváltozós modell

Tételezzük fel, hogy van egy alap véletlen kísérletünk és hogy X valamint Y valós értékű véletlen változó. Ennek megfelelően, X Y egy véletlen vektor az 2 térben. Felelevenítjük a várható értékek: X és Y , a szórásnégyzetek: X és Y valamint a kovariancia, X Y tulajdonságait. Különösen emlékeztetünk a

X Y X Y X Y korrelációra.

Szükségünk lesz a kétváltozós magasabbrendű momentumra. Legyen

d X Y X X Y Y 2

Tételezzük fel, hogy az alapkísérletet elvégezzük n -szer. Ez a X 1 Y 1 X 2 Y 2 X n Y n független, véletlen vektorok egy sorozatának összetett kísérletét eredményezi, melyek mindegyikének ugyanaz az eloszlása, mint az X Y vektorváltozóé. Statisztikai értelemben ez egy n elemű véletlen minta, mely az X Y eloszlású. Szokás szerint X X 1 X 2 X n -nel fogjuk jelölni az első koordináták sorozatát; ez egy n elemű minta, mely az X eloszlásából lett véve. Hasonlóan Y Y 1 Y 2 X n -nel fogjuk jelölni a második koordináták sorozatát; ez egy n elemű minta, mely az Y eloszlásából lett véve.

Emlékeztetünk arra, hogy az X minta átlagai és a szórásnégyzetei a következő módon vannak definiálva (és természetesen analóg definíciók érvényesek az Y -ra is):

M X 1 n i 1 n X i ,  W 2 X 1 n i 1 n X i X 2 ,  S 2 X 1 n 1 i 1 n X i M X 2

Ebben a részben definiálni és tanulmányozni fogunk két statisztikát, amelyek az eloszlás kovarianciájának és korrelációjának természetes becslései. Ezek a statisztikák lesznek a síkon elhelyezkedő mintapontok lineáris kapcsolatának mértékei. Általában, a definíciók attól függenek, hogy a paraméterek ismertek, vagy ismeretlenek.

Egy speciális mintakovariancia

Tételezzük fel előszőr, hogy az X és Y várható értékek ismertek. Ez természetesen, általában egy megalapozatlan feltevés, de mégis egy jó kiindulási pont az analízishez, s az eredmények, amiket kapunk egyszerűek és hasznosak lesznek. Ebben az esetben X Y egy természetes becslése a következő:

W X Y 1 n i 1 n X i X Y i Y

Mutassuk meg, hogy W X Y egy X X Y Y eloszlású n elemű véletlen minta mintabeli átlaga.

Az 1. gyakorlat eredményét felhasználva mutassuk meg, hogy

  1. W X Y X Y
  2. W X Y 1 n d X Y 2 X Y
  3. W X Y X Y ha n 1 valószínűséggel.

Speciálisan, W X Y egy torzítatlan és konzisztens becslése a X Y kovarianciának.

Tulajdonságok

A következő gyakorlat formulája konkrét számítások elvégzéséhez gyakran jobban hasznáható, mint a definíció.

Az X Y szorzathoz definiált X 1 Y 1 X 2 Y 2 X n Y n szorzat esetén mutassuk meg, hogy

W X Y M X Y - M X Y - M Y X + X Y

A következő gyakorlatokban kimutatott tulajdonságok az eloszlás kovarianciájának tulajdonságainak felelnek meg.

Mutassuk meg, hogy W X X W 2 X

Mutassuk meg, hogy W X Y W Y X

Mutassuk meg, hogy ha a konstans, akkor W a X Y a W X Y

Mutassuk meg, hogy W X Y Z W X Z W Y Z

A következő gyakorlat egy formulát ad az összeg szórásnégyzetére. Az eredményt kiterjeszthetjük többtagú összegre is.

Mutassuk meg, hogy W 2 X Y W 2 X W 2 Y 2 W X Y

A standard mintakovariancia

Vizsgáljuk meg most azt a valóságosabb feltevést, hogy az X és Y várható értékek ismeretlenek. Ebben az esetben az átlag természetes megközelítése: X i M X Y i M Y , ahol i 1 2 n . Ha n helyett bármilyen más konstanssal osztunk az átlagban, akkor is X Y egy torzítatlan becslését kapjuk.

Értelmezze X i M X Y i M Y előjelét geometriailag, a pontoknak a szóródási diagram közepéhez viszonyított helyének megadásával.

Levezetés

Használjuk fel a kovariancia operátor bilinearitását annak megmutatására, hogy

M X M Y X Y n .

Fejtsük ki mindkét oldalt, majd az összegzést tagonként elvégezve mutassuk meg, hogy

i 1 n X i M X Y i M Y i 1 n X i Y i n M X M Y

A 10. és 11. gyakorlat eredményét és a várható érték alaptulajdonságait felhasználva mutassuk meg, hogy

i 1 n X i M X Y i M Y n 1 X Y

Ezért X Y -nak egy torzítatlan becslése a következő véletlen változó, amit mintakovarianciának nevezünk.

S X Y 1 n 1 i 1 n X i M X Y i M Y

Amint a szórásnégyzetnél, amikor az n mintaméret nagy, kicsi a különbség, ha n nel, vagy n 1 -gyel osztunk.

Tulajdonságok

A következő gyakorlat formulája konkrét számítások elvégzéséhez gyakran jobban használható, mint a definíció.

Az X Y szorzatot használva, amit a 3. gyakorlatban definiáltunk, mutassuk meg, hogy

S X Y 1 n 1 i 1 n X i Y i n n 1 M X M Y n n 1 M X Y M X M Y

Az előző gyakorlat eredményét és a nagy számok erős törvényét használva mutassuk meg, hogy S X Y X Y ha n 1 valószínűséggel.

A következő gyakorlatokban kimutatott tulajdonságok az eloszlás kovarianciájának tulajdonságainak felelnek meg.

Mutassuk meg, hogy S X X S 2 X

Mutassuk meg, hogy S X Y S> Y X

Mutassuk meg, hogy ha a konstans, akkor S a X Y a S X Y

Mutassuk meg, S X Y Z S X Z S Y Z

Mutassuk meg, hogy

S X Y n n 1 W X Y M X X M Y Y

A következő gyakorlat egy formulát ad az összeg szórásnégyzetére. Az eredményt kiterjeszthetjük többtagú összegre is.

Mutassuk meg, hogy S 2 X Y S 2 X S 2 Y 2 S X Y

Szórásnégyzet

Ebben a részfejezetben a mintakovariancia szórásnégyzetére a következő formulát vezetjük le. A levezetés Ranjith Unnikrishnantól származik, és hasonló levezetés érvényes a mintavariancia szórásnégyzetére.

S X Y 1 n d X Y 1 n 1 X Y n 2 n 1 cov 2 X Y

Ellenőrizzük a következő eredményt. Útmutatás: Induljunk ki a kifejezés jobb oldalából, fejtsük ki az alábbi szorzatot X i X j Y i Y j , és végezzük el az összegzést tagonként.

S X Y 1 2 n n 1 i 1 n j 1 n X i X j Y i Y j

Következik, hogy a S X Y nem más, mint a 21. gyakorlat kifejtésében a kifejezések páronkénti kovarianciájának összege.

Most vezessük le a S X Y -ra a következő formulákat, megmutatva, hogy

  1. X i X j Y i Y j X k X l Y k Y l 0 ha i j vagy k l vagy i , j , k , l különböznek egymástól.
  2. X i X j Y i Y j X i X j Y i Y j 2 d X Y 2 X Y ha i j , és létezik 2 n n 1 ilyen kifejezés a kovarianciák összegében.
  3. X i X j Y i Y j X k X j Y k Y j d X Y cov 2 X Y ha i , j , k különböznek egymástól és létezik 4 n n 1 n 2 ilyen kifejezés a kovarianciák összegében.

Mutassuk meg, hogy S X Y W X Y . Ez ésszerűnek tűnik?

Mutassuk meg, hogy S X Y 0 ha n . Így a mintakovariancia konzisztens becslése az eloszlás kovarianciájának.

A minta korrelációja

Az eloszlás korrelációval analóg módon, a minta korrelációja megkapható, mint a mintakovariancia és a mintaszórások hányadosa:

R X Y S X Y S X S Y

A nagy számok erős törvényét felhasználva mutassuk meg, hogy R X Y X Y ha n 1 valószínűséggel.

Kattintással definiáljunk 20 pontot az interaktív szórásdiagramon úgy, hogy minél jobban megközelítsük a következő értékeket: minta átlag 0, a minta standard szórása 1, a minta korrelációja az alábbiak szerint: 0, 0.5, −0.5, 0.7, −0.7, 0.9, −0.9.

Kattintással definiáljunk 20 pontot az interaktív szórásdiagramon úgy, hogy minél jobban megközelítsük a következő értékeket: X mintaátlaga 1, Y mintaátlaga 3, az X minta szórása 2, az Y minta szórása 1, a minta korrelációja az alábbiak szerint: 0, 0.5, −0.5, 0.7, −0.7, 0.9, −0.9.

A legjobb lineáris extrapolálás

Az eloszláson alapuló változat

Emlékeztetünk arra, hogy az (eloszlás) korreláció és regresszió fejezetben megmutattuk, hogy Y legjobb lineáris extrapolálása X -en alapul, az átlagos négyzetes hiba minimalizálása alapján és pedig a következő véletlen változóval adható meg:

L Y X Y X Y X X X

Emellett, az átlagos négyzetes hiba minimális értéke

Y L Y X 2 Y 1 X Y 2

Az eloszlás regressziós egyenese a következő módon adható meg:

y L Y X x Y X Y X x X

A mintára vonatkozó verziók

Természetesen valós alkalmazásokban nem valószínű, hogy ismerjük az X , Y , X , és X Y eloszlásparamétereket. Így, ebben a részben az Y X -en alapuló legkisebb lineáris extrapoláltja érdekel minket, mely az X 1 Y 1 X 2 Y 2 X n Y n véletlen mintából lett véve. Egy természetes megközelítés a mintapontokra legjobban illeszkedő y A x B egyenes megkeresése. Ez alapvető és fontos probléma a metematika számos területén, nem csak a statisztikában. A legjobb kifejezés azt jelenti, hogy meg akarjuk találni azt az egyenest (azaz azt az A és B értéket), amely minimalizálja az aktuális y értékek és az előrejelzett y értékek közötti átlagos négyzetes hibát:

MSE A B 1 n 1 i 1 n Y i A X i B 2

Az A és B megtalálása, ami minimalizálja az MSE-t, az analízis egy standard problémája.

Mutassuk meg, hogy MSE akkor minimális, ha

A X Y S X Y S 2 X ,  B X Y M Y S> X Y S 2 X M X

s így a a minta regressziós egyenese

y M Y S X Y S 2 X x M X

Felhasználva az előző gyakorlat együtthatóit, mutassuk meg, hogy az átlag négyzetes hibájának a minimuma:

MSE A X Y B X Y S 2 Y 1 R 2 X Y

Az előző gyakorlat eredményét felhasználva mutassuk meg, hogy

  1. 1 R X Y 1
  2. R X Y 1 akkor és csak akkor, ha a mintapontok negatív meredekségű egyenesen helyezkednek el.
  3. R X Y 1 akkor és csak akkor, ha a mintapontok pozitív meredekségű egyenesen helyezkednek el.

Így a mintakorreláció a mintapontok linearitásának fokát méri. Az előző gyakorlat eredményeit úgy is megkaphatjuk, ha észrevesszük, hogy a mintakorreláció az empirikus eloszlás korrelációjának egyszerűsítése. Természetesen (a), (b) és (c) ismertek, mint az eloszás korrrelációjának tulajdonságai.

Az a tény, hogy a 28. gyakorlat és a 29. gyakorlat eredményei a megfelelő eloszláseredmények mintabeli analogonjai szépek és megnyugtatóak. Megjegyezzük, hogy a minta regressziós egyenes átmegy az M X M Y ponton, az empirikus eloszlás közepén. Természetesen, a minta regressziós egyenes együtthatói az elméleti eloszlás megfelelő együtthatóinak becsléseként jelennek meg.

Tételezzük fel, hogy a megfelelő magasabbrendű momentumok végesek, felhasználva a nagy számok törvényét mutassuk meg, hogy 1 valószínűséggel a minta regressziós egyenlet együtthatói konvergálnak az elméleti eloszlás regressziós egyenesének együtthatóihoz:

S X Y S 2 X X Y X   ha   n M Y S X Y S 2 X M X Y X Y X X  ha   n

Ahogy az elméleti eloszlás regressziós egyenese, az előrejelzés és a függő változó megválasztása nagyon fontos.

Mutassuk meg, hogy az Y változó X változóra vonatkozó minta regresziós egyenese és az X változó Y változóra vonatkozó minta regresziós egyenese nem ugyanaz az egyenes , kivéve azt a triviális esetet, amikor a mintapontok egy egyenesen fekszenek.

Emlékeztetünk arra, hogy a B konstans, ami az

MSE B 1 n 1 i 1 n Y i B 2

kifejezést minimalizálja, az M Y mintaátlag és az átlagos négyzetes eltérés minimális értéke az S 2 Y mintavariancia. Így az átlagos négyzetes eltérés értéke és a 29. gyakorlat eredménye közötti eltérés, nevezetesen S 2 Y R 2 X Y az Y változkonyságában való csökkenés, amikor X -ben a lineáris tagot hozzáadjuk a független változóhoz. Az R 2 X Y részt és így ezt a statisztikát determinációs együtthatónak nevezzük.

Gyakorlatok

Szimulációs gyakorlatok

Klikkeljünk az interaktív szórásdiagramon különböző helyekre és figyeljük a regressziós egyenes változását.

Klikkeljünk az interaktív szórásdiagram-ra, hogy 20 pontot definiáljunk. Próbáljuk meg úgy a generálást, hogy az x átlaga 0 és az x standard szórása 1 legyen, és a regressziós egyenes

  1. meredeksége 1, tengelymetszete 1 legyen
  2. meredeksége 3, tengelymetszete 0 legyen
  3. meredeksége 2 , tengelymetszete 1 legyen

Klikkeljünk az interaktív szórásdiagramra, hogy 20 pontot definiáljunk a következő tulajdonságokkal: az x átlaga 1, y átlaga 1 és a regressziós egyenes meredeksége 1, tengelymetszete 2 legyen.

Ha nehézsége volt az előző gyakorlattal, akkor az azért van, mert a feltételeket, amkiket megadott, lehetetlen teljesíteni!

Futtassuk le kétváltozós egyenletes kísérletet 2000-szer, 10-es gyakorisággal változtatva a következő esetek mindegyikében! A mintaátlagoknak az elméleti átlagokhoz, a minta standard szórásának az elméleti szóráshoz, a minta korrelációjának az elméleti korrelációhoz és a minta regressziós egyenesének az elméleti regressziós egyeneséhez való konvegenciája nyílvánvalónak látszik.

  1. Négyzetlapon egyenletes eloszlás.
  2. Háromszöglapon egyenletes eloszlás.
  3. Körlapon egyenletes eloszlás.

Futtassuk le kétváltozós normális kísérletet 2000-szer, 10-esével frissítve a következő esetek mindegyikében! A mintaátlagoknak az elméleti átlagokhoz, a minta standard szórásának az elméleti szóráshoz, a minta korrelációjának az elméleti korrelációhoz és a minta regressziós egyenesének az elméleti regressziós egyeneséhez való konvegenciája nyílvánvalónak látszik.

  1. X 1 , Y 2 , X Y 0.5
  2. X 1.5 , Y 0.5 , X Y 0.7

Adatelemzés gyakorlatok

Számítsuk ki a sziromlevél hosszának és szélességének korrelációs együtthatóját a következő esetekre a Fisher féle nőszirom adatokra. Magyarázzuk meg a különbségeket.

  1. Összes esetre.
  2. csak a Setosa esetén.
  3. csak a Verginica esetén.
  4. csak a Versicolor esetén.

Számítsuk ki a színpárok közötti korrelációt az M&M adatok esetén.

Vizsgáljuk az összes esetet a Fisher féle nőszirom adatokra.

  1. Számítsuk ki a regressziós egyenest a legkisebb négyzetek módszerével, amikor is a független változó a szirom hossza, a függő változó a szirom szélessége.
  2. Rajzoljuk meg a szórásdiagramot és a regressziós egyenest egy ábrán.
  3. Jósoljuk meg a levél szélességét, ha a hossza 40.

Vizsgáljuk meg a csak Setosa eseteket a Fisher féle nőszirom adatokra.

  1. Számítsuk ki a regressziós egyenest a legkisebb négyzetek módszerével, amikor is a független változó a csészelevél hossza, a függő változó a csészelevél szélessége.
  2. Rajzoljuk meg a szórásdiagramot és a regressziós egyenest egy ábrán.
  3. Jósoljuk meg a csészelevél szélességét, ha a hossza 45.