Minta kovariancia és korreláció

Tételezzük fel, hogy van egy alap véletlen kísérletünk és hogy

X

valamint

Y

valós értékű véletlen változó. Ennek megfelelően,

X Y

egy véletlen vektor az

2

térben. Felelevenítjük a várható értékek:

X

és

Y

, a szórásnégyzetek:

X

és

Y

valamint a kovariancia,

X Y

tulajdonságait. Különösen emlékeztetünk a

Tételezzük fel, hogy az alapkísérletet elvégezzük

n

-szer. Ez a

X 1 Y 1 X 2 Y 2 X n Y n

független, véletlen vektorok egy sorozatának összetett kísérletét eredményezi, melyek mindegyikének ugyanaz az eloszlása, mint az

X Y

vektorváltozóé. Statisztikai értelemben ez egy

n

elemű véletlen minta, mely az

X Y

eloszlású. Szokás szerint

X X 1 X 2 X n

-nel fogjuk jelölni az első koordináták sorozatát; ez egy

n

elemű minta, mely az

X

eloszlásából lett véve. Hasonlóan

Y Y 1 Y 2 X n

-nel fogjuk jelölni a második koordináták sorozatát; ez egy

n

elemű minta, mely az

Y

eloszlásából lett véve.

Emlékeztetünk arra, hogy az

X

minta átlagai és a szórásnégyzetei a következő módon vannak definiálva (és természetesen analóg definíciók érvényesek az

Y

-ra is):

Ebben a részben definiálni és tanulmányozni fogunk két statisztikát, amelyek az eloszlás kovarianciájának és korrelációjának természetes becslései. Ezek a statisztikák lesznek a síkon elhelyezkedő mintapontok lineáris kapcsolatának mértékei. Általában, a definíciók attól függenek, hogy a paraméterek ismertek, vagy ismeretlenek.

Egy speciális mintakovariancia

Tételezzük fel előszőr, hogy az

X

és

Y

várható értékek ismertek. Ez természetesen, általában egy megalapozatlan feltevés, de mégis egy jó kiindulási pont az analízishez, s az eredmények, amiket kapunk egyszerűek és hasznosak lesznek. Ebben az esetben

X Y

egy természetes becslése a következő:

Mutassuk meg, hogy $W X Y$ egy $X X Y Y$ eloszlású $n$ elemű véletlen minta mintabeli átlaga.

Az 1. gyakorlat eredményét felhasználva mutassuk meg, hogy

$W X Y X Y$
$W X Y 1 n d X Y 2 X Y$
$W X Y X Y$ ha $n$ 1 valószínűséggel.

Speciálisan,

W X Y

egy torzítatlan és konzisztens becslése a

X Y

kovarianciának.

Tulajdonságok

A következő gyakorlat formulája konkrét számítások elvégzéséhez gyakran jobban hasznáható, mint a definíció.

Az $X Y$ szorzathoz definiált $X 1 Y 1 X 2 Y 2 X n Y n$ szorzat esetén mutassuk meg, hogy

W X Y M X Y - M X Y - M Y X + X Y

A következő gyakorlatokban kimutatott tulajdonságok az eloszlás kovarianciájának tulajdonságainak felelnek meg.

Mutassuk meg, hogy $W X X W 2 X$

Mutassuk meg, hogy $W X Y W Y X$

Mutassuk meg, hogy ha $a$ konstans, akkor $W a X Y a W X Y$

Mutassuk meg, hogy $W X Y Z W X Z W Y Z$

A következő gyakorlat egy formulát ad az összeg szórásnégyzetére. Az eredményt kiterjeszthetjük többtagú összegre is.

Mutassuk meg, hogy $W 2 X Y W 2 X W 2 Y 2 W X Y$

A standard mintakovariancia

Vizsgáljuk meg most azt a valóságosabb feltevést, hogy az

X

és

Y

várható értékek ismeretlenek. Ebben az esetben az átlag természetes megközelítése:

X i M X Y i M Y

, ahol

i 12 n

. Ha

n

helyett bármilyen más konstanssal osztunk az átlagban, akkor is

X Y

egy torzítatlan becslését kapjuk.

Értelmezze $X i M X Y i M Y$ előjelét geometriailag, a pontoknak a szóródási diagram közepéhez viszonyított helyének megadásával.

Levezetés

Használjuk fel a kovariancia operátor bilinearitását annak megmutatására, hogy

M X M Y X Y n

Fejtsük ki mindkét oldalt, majd az összegzést tagonként elvégezve mutassuk meg, hogy

i 1 n X i M X Y i M Y i 1 n X i Y i n M X M Y

A 10. és 11. gyakorlat eredményét és a várható érték alaptulajdonságait felhasználva mutassuk meg, hogy

i 1 n X i M X Y i M Y n 1 X Y

Ezért

X Y

-nak egy torzítatlan becslése a következő véletlen változó, amit mintakovarianciának nevezünk.

Amint a szórásnégyzetnél, amikor az

n

mintaméret nagy, kicsi a különbség, ha

n

nel, vagy

n 1

-gyel osztunk.

Tulajdonságok

A következő gyakorlat formulája konkrét számítások elvégzéséhez gyakran jobban használható, mint a definíció.

Az $X Y$ szorzatot használva, amit a 3. gyakorlatban definiáltunk, mutassuk meg, hogy

S X Y 1 n 1 i 1 n X i Y i n n 1 M X M Y n n 1 M X Y M X M Y

Az előző gyakorlat eredményét és a nagy számok erős törvényét használva mutassuk meg, hogy $S X Y X Y$ ha $n$ 1 valószínűséggel.

A következő gyakorlatokban kimutatott tulajdonságok az eloszlás kovarianciájának tulajdonságainak felelnek meg.

Mutassuk meg, hogy $S X X S 2 X$

Mutassuk meg, hogy $S X Y S > Y X$

Mutassuk meg, hogy ha $a$ konstans, akkor $S a X Y a S X Y$

Mutassuk meg, $S X Y Z S X Z S Y Z$

Mutassuk meg, hogy

S X Y n n 1 W X Y M X X M Y Y

A következő gyakorlat egy formulát ad az összeg szórásnégyzetére. Az eredményt kiterjeszthetjük többtagú összegre is.

Mutassuk meg, hogy $S 2 X Y S 2 X S 2 Y 2 S X Y$

Szórásnégyzet

Ebben a részfejezetben a mintakovariancia szórásnégyzetére a következő formulát vezetjük le. A levezetés Ranjith Unnikrishnantól származik, és hasonló levezetés érvényes a mintavariancia szórásnégyzetére.

Ellenőrizzük a következő eredményt. Útmutatás: Induljunk ki a kifejezés jobb oldalából, fejtsük ki az alábbi szorzatot $X i X j Y i Y j$ , és végezzük el az összegzést tagonként.

S X Y 1 2 n n 1 i 1 n j 1 n X i X j Y i Y j

Következik, hogy a

S X Y

nem más, mint a 21. gyakorlat kifejtésében a kifejezések páronkénti kovarianciájának összege.

Most vezessük le a $S X Y$ -ra a következő formulákat, megmutatva, hogy

$X i X j Y i Y j X k X l Y k Y l 0$ ha $i j$ vagy $k l$ vagy $i$ , $j$ , $k$ , $l$ különböznek egymástól.
$X i X j Y i Y j X i X j Y i Y j 2 d X Y 2 X Y$ ha $i j$ , és létezik $2 n n 1$ ilyen kifejezés a kovarianciák összegében.
$X i X j Y i Y j X k X j Y k Y j d X Y cov 2 X Y$ ha $i$ , $j$ , $k$ különböznek egymástól és létezik $4 n n 1 n 2$ ilyen kifejezés a kovarianciák összegében.

Mutassuk meg, hogy $S X Y W X Y$ . Ez ésszerűnek tűnik?

Mutassuk meg, hogy $S X Y 0$ ha $n$ . Így a mintakovariancia konzisztens becslése az eloszlás kovarianciájának.

A minta korrelációja

Az eloszlás korrelációval analóg módon, a minta korrelációja megkapható, mint a mintakovariancia és a mintaszórások hányadosa:

A nagy számok erős törvényét felhasználva mutassuk meg, hogy $R X Y X Y$ ha $n$ 1 valószínűséggel.

Kattintással definiáljunk 20 pontot az interaktív szórásdiagramon úgy, hogy minél jobban megközelítsük a következő értékeket: minta átlag 0, a minta standard szórása 1, a minta korrelációja az alábbiak szerint: 0, 0.5, −0.5, 0.7, −0.7, 0.9, −0.9.

Kattintással definiáljunk 20 pontot az interaktív szórásdiagramon úgy, hogy minél jobban megközelítsük a következő értékeket: $X$ mintaátlaga 1, $Y$ mintaátlaga 3, az $X$ minta szórása 2, az $Y$ minta szórása 1, a minta korrelációja az alábbiak szerint: 0, 0.5, −0.5, 0.7, −0.7, 0.9, −0.9.

A legjobb lineáris extrapolálás

Az eloszláson alapuló változat

Emlékeztetünk arra, hogy az (eloszlás) korreláció és regresszió fejezetben megmutattuk, hogy

Y

legjobb lineáris extrapolálása

X

-en alapul, az átlagos négyzetes hiba minimalizálása alapján és pedig a következő véletlen változóval adható meg:

A mintára vonatkozó verziók

Természetesen valós alkalmazásokban nem valószínű, hogy ismerjük az

X

Y

X

, és

X Y

eloszlásparamétereket. Így, ebben a részben az

Y

X

-en alapuló legkisebb lineáris extrapoláltja érdekel minket, mely az

X 1 Y 1 X 2 Y 2 X n Y n

véletlen mintából lett véve. Egy természetes megközelítés a mintapontokra legjobban illeszkedő

y A x B

egyenes megkeresése. Ez alapvető és fontos probléma a metematika számos területén, nem csak a statisztikában. A legjobb kifejezés azt jelenti, hogy meg akarjuk találni azt az egyenest (azaz azt az

A

és

B

értéket), amely minimalizálja az aktuális

y

értékek és az előrejelzett

y

értékek közötti átlagos négyzetes hibát:

A

és

B

megtalálása, ami minimalizálja az MSE-t, az analízis egy standard problémája.

Mutassuk meg, hogy MSE akkor minimális, ha

A X Y S X Y S 2 X, B X Y M Y S > X Y S 2 X M X

s így a a minta regressziós egyenese

y M Y S X Y S 2 X x M X

Felhasználva az előző gyakorlat együtthatóit, mutassuk meg, hogy az átlag négyzetes hibájának a minimuma:

MSE A X Y B X Y S 2 Y 1 R 2 X Y

Az előző gyakorlat eredményét felhasználva mutassuk meg, hogy

$1 R X Y 1$
$R X Y 1$ akkor és csak akkor, ha a mintapontok negatív meredekségű egyenesen helyezkednek el.
$R X Y 1$ akkor és csak akkor, ha a mintapontok pozitív meredekségű egyenesen helyezkednek el.

Így a mintakorreláció a mintapontok linearitásának fokát méri. Az előző gyakorlat eredményeit úgy is megkaphatjuk, ha észrevesszük, hogy a mintakorreláció az empirikus eloszlás korrelációjának egyszerűsítése. Természetesen (a), (b) és (c) ismertek, mint az eloszás korrrelációjának tulajdonságai.

Az a tény, hogy a 28. gyakorlat és a 29. gyakorlat eredményei a megfelelő eloszláseredmények mintabeli analogonjai szépek és megnyugtatóak. Megjegyezzük, hogy a minta regressziós egyenes átmegy az

M X M Y

ponton, az empirikus eloszlás közepén. Természetesen, a minta regressziós egyenes együtthatói az elméleti eloszlás megfelelő együtthatóinak becsléseként jelennek meg.

Tételezzük fel, hogy a megfelelő magasabbrendű momentumok végesek, felhasználva a nagy számok törvényét mutassuk meg, hogy 1 valószínűséggel a minta regressziós egyenlet együtthatói konvergálnak az elméleti eloszlás regressziós egyenesének együtthatóihoz:

S X Y S 2 X X Y X ha n

M Y S X Y S 2 X M X Y X Y X X ha n

Ahogy az elméleti eloszlás regressziós egyenese, az előrejelzés és a függő változó megválasztása nagyon fontos.

Mutassuk meg, hogy az $Y$ változó $X$ változóra vonatkozó minta regresziós egyenese és az $X$ változó $Y$ változóra vonatkozó minta regresziós egyenese nem ugyanaz az egyenes , kivéve azt a triviális esetet, amikor a mintapontok egy egyenesen fekszenek.

kifejezést minimalizálja, az

M Y

mintaátlag és az átlagos négyzetes eltérés minimális értéke az

S 2 Y

mintavariancia. Így az átlagos négyzetes eltérés értéke és a 29. gyakorlat eredménye közötti eltérés, nevezetesen

S 2 Y R 2 X Y

Y

változkonyságában való csökkenés, amikor

X

-ben a lineáris tagot hozzáadjuk a független változóhoz. Az

R 2 X Y

részt és így ezt a statisztikát determinációs együtthatónak nevezzük.

Gyakorlatok

Szimulációs gyakorlatok

Klikkeljünk az interaktív szórásdiagramon különböző helyekre és figyeljük a regressziós egyenes változását.

Klikkeljünk az interaktív szórásdiagram-ra, hogy 20 pontot definiáljunk. Próbáljuk meg úgy a generálást, hogy az $x$ átlaga 0 és az $x$ standard szórása 1 legyen, és a regressziós egyenes

meredeksége 1, tengelymetszete 1 legyen
meredeksége 3, tengelymetszete 0 legyen
meredeksége $2$ , tengelymetszete 1 legyen

Klikkeljünk az interaktív szórásdiagramra, hogy 20 pontot definiáljunk a következő tulajdonságokkal: az $x$ átlaga 1, $y$ átlaga 1 és a regressziós egyenes meredeksége 1, tengelymetszete 2 legyen.

Ha nehézsége volt az előző gyakorlattal, akkor az azért van, mert a feltételeket, amkiket megadott, lehetetlen teljesíteni!

Futtassuk le kétváltozós egyenletes kísérletet 2000-szer, 10-es gyakorisággal változtatva a következő esetek mindegyikében! A mintaátlagoknak az elméleti átlagokhoz, a minta standard szórásának az elméleti szóráshoz, a minta korrelációjának az elméleti korrelációhoz és a minta regressziós egyenesének az elméleti regressziós egyeneséhez való konvegenciája nyílvánvalónak látszik.

Négyzetlapon egyenletes eloszlás.
Háromszöglapon egyenletes eloszlás.
Körlapon egyenletes eloszlás.

Futtassuk le kétváltozós normális kísérletet 2000-szer, 10-esével frissítve a következő esetek mindegyikében! A mintaátlagoknak az elméleti átlagokhoz, a minta standard szórásának az elméleti szóráshoz, a minta korrelációjának az elméleti korrelációhoz és a minta regressziós egyenesének az elméleti regressziós egyeneséhez való konvegenciája nyílvánvalónak látszik.

$X 1$ , $Y 2$ , $X Y 0.5$
$X 1.5$ , $Y 0.5$ , $X Y 0.7$

Adatelemzés gyakorlatok

Számítsuk ki a sziromlevél hosszának és szélességének korrelációs együtthatóját a következő esetekre a Fisher féle nőszirom adatokra. Magyarázzuk meg a különbségeket.

Összes esetre.
csak a Setosa esetén.
csak a Verginica esetén.
csak a Versicolor esetén.

Számítsuk ki a színpárok közötti korrelációt az M&M adatok esetén.

Vizsgáljuk az összes esetet a Fisher féle nőszirom adatokra.

Számítsuk ki a regressziós egyenest a legkisebb négyzetek módszerével, amikor is a független változó a szirom hossza, a függő változó a szirom szélessége.
Rajzoljuk meg a szórásdiagramot és a regressziós egyenest egy ábrán.
Jósoljuk meg a levél szélességét, ha a hossza 40.

Vizsgáljuk meg a csak Setosa eseteket a Fisher féle nőszirom adatokra.

Számítsuk ki a regressziós egyenest a legkisebb négyzetek módszerével, amikor is a független változó a csészelevél hossza, a függő változó a csészelevél szélessége.
Rajzoljuk meg a szórásdiagramot és a regressziós egyenest egy ábrán.
Jósoljuk meg a csészelevél szélességét, ha a hossza 45.

7. Minta kovariancia és korreláció

A kétváltozós modell

Egy speciális mintakovariancia

Tulajdonságok

A standard mintakovariancia

Levezetés

Tulajdonságok

Szórásnégyzet

A minta korrelációja

A legjobb lineáris extrapolálás

Az eloszláson alapuló változat

A mintára vonatkozó verziók

Gyakorlatok

Szimulációs gyakorlatok

Adatelemzés gyakorlatok