Centrális határeloszlás-tétel — statisztika alapok

A Centrális határeloszlás-tétele a statisztika egyik legfontosabb tétele, lényegében az összes aszimptotikus eset erre épül. Nézzük mi is ez egyszerűen.


A Klasszikus Centrális határeloszlás-tételt lényegében egyetlen mondatba össze lehet foglalni: ha egy populációból független mintákat veszünk, akkor a mintából számolt átlagok normál eloszlást fognak követni.

Mit is jelent ez. Nézzünk egy példát. Legyen például egy populációnk, ami egy olyan Exponenciális eloszlás, ahol a lambda 0,1. Ilyenkor a populáció igazi átlaga:

(1)  E[X] = \frac{1}{\lambda} = 10

Vegyünk véletlenszerű mintát belőle és ábrázoljuk a populáció sűrűségfüggvényét:

import matplotlib.pyplot as plt
import scipy.stats as stats

# az igazi lambda amit nem ismerünk
l =1/ 4
# mintanagyság
n = 50

# a numpy 1/lambda-t használ paraméterként
b = 1/l
# mintavétel
x = np.random.exponential(scale=b, size=n)

Most nézzük meg mi volt a mintánk átlaga:

elso_atlag = np.mean(x)

Ez nekem most 9.3718-at lett. Ha valaki megismétli ugyanezt, akkor egy másik számot fog kapni. Ha még egyszer lefuttatja a kódot megint mást. Végtelen sokszor megismételhetjük ezt a kísérletet, de 0 a valószínűsége, hogy az igaz populációs átlag lesz az eredmény pontosan. És ha elég sokszor ismételjük meg a mintavételt, akkor látni fogunk néhány igazán vad eredményt, mint pl: 102. Ami ugye tényleg nagyon távol van az igazi átlagtól.

A probléma az, hogy általában nincs lehetőségünk arra, hogy sokszor megismételjük a kísérletet a valós életben. Az esetek többségében egyetlen egy mintából dolgozunk. Mit tehetünk ilyenkor, ha valaki megkérdezi tőlünk menyire vagyunk biztosak abban, hogy az igazi populációs átlag közel van a minta átlagához. A fenti példánál: a 9.3718 közel van az igazi értékhez? Ugye erre nem tudunk válaszolni, mivel nem tudjuk az igazi értéket. De akkor mit tehetünk? Ilyenkor segít a Centrális határeloszlás-tétele.

A Tétel lényegében azt mondja, ha ezt a mintavételt végtelen sokszor megismételnénk, akkor Normál eloszlást követnének ezek az észlelt átlagok. Vegyük észre, hogy itt nem a populációról, hanem annak átlagáról beszélünk. Tehát bármi lehet a populáció eloszlása, a mintaátlagok akkor is Normál eloszlást fognak követni, ha a populáció Exponenciális, ha Uniform, ha Geometrikus stb. Teszteljük! Ismételjük meg ezt a mintavételt 10000 alkalommal:

mintak_atlaga  = []
j = 10000
for i in range(j):
    # mintavétel
    x = np.random.exponential(scale=b, size=n)
    # átlag szám<tás
    mintak_atlaga.append(np.mean(x))

Most nézzük meg mi lett az eredmény:

És tényleg. A minták hisztogramja valóban elég jól illeszkedik egy normál eloszlásra. De melyik normál eloszlásra? Erre:

(2)  N \left ( E[X], \frac{Var(X)}{n} \right)

Tehát az átlaga a populáció valós átlaga lesz, míg a varianciája nem más mint a populáció varianciája osztva a mintavételek számával. Ez a variancia tehát ebben az exponenciális esetben: \frac{1}{n\cdot \lambda^2} .

A fenti állítást két módon is fel szokták írni általános alakban:

(3)  \sqrt{n} (\bar{X}-\mu)   \xrightarrow[n \to \infty]{d}   N \left ( 0, \sigma^2 \right)

Vagy:

(4)  \sqrt{n} \frac{\bar{X}-\mu}{\sigma}   \xrightarrow[n \to \infty]{d}   N \left ( 0, 1 \right)

Ahol:

  • \mu — a valós átlaga az eloszlásnak
  • \sigma^2   — a valós szórásnégyzete az eloszlásnak

Ezt felhasználva, ha most felteszik nekünk a fenti kérdést már tudjuk a választ: Annak a valószínűsége, hogy a mintavétel során ezt a mintaátlagot kapjuk, megegyezik annak a valószínűségével, hogy a (2)-ben szereplő normál eloszlás értékével.

Ez eddig jó, de van egy probléma: nem ismerjük a populáció valós paraméterét, így pedig igazából nem tudjuk mi a fenti Gaussian. Ilyenkor több dolgot tehetünk, de a legáltalánosabb, hogy behelyettesítjük a becsült értékét a paraméternek a (2)-be. Szóval még mindig a fenti példánál maradva:

(5)  \hat{E}[X] =  \frac{1}{\lambda}  = \bar{x} =  9.3718

(6)  \hat{Var}(X) = \frac{1}{\lambda^2} =   \bar{x}^2  = 9.3718^2

(7)  N\left(   \hat{E}[X] ,   \frac{\hat{Var}[X]}{ n}  \right)

Nézzük mi lesz ennek az eloszlása, és az hogy viszonyul a minta valódi átlagához:

Mint látható elég közel vagyunk.

Amire figyeljünk oda, hogy van itt egy következmény. Mint mondtam, előfordulhat, hogy egészen vad mintát sikerül vennünk és a mintaátlag messze lesz a populáció valós átlagától. Van ennek esélye? Igen. A Gaussian eloszlás nem határos, tehát bármilyen szélsőséges érték előfordulhat, csak kicsi a valószínűsége. De amikor mi mintát veszünk, nem tudjuk, hogy nem mi vagyunk-e ezek a balszerencsések, aki ebbe a helyzetbe kerülnek. Tehát lényegében csak azt mondhatjuk, hogy: az esetek nagy részében ez a fajta eljárás jó átlagbecslést produkál, de ez nem garancia a mi esetünkre. Vagyis amikor konfidenciaintervallumot adunk meg, akkor lényegében azt mondjuk: ez a fajta mérési technika a Tétel alapján az esetek 1-\alpha százalékában jó eredményt add. Tehát nekünk is ennyi esélyünk van arra, hogy ebben az esetben jól működött. De persze lehet, hogy nem, és ezt nem tudjuk ellenőrizni.


Hírdetés

Centrális határeloszlás-tétel — statisztika alapok” bejegyzéshez 4 hozzászólás

Vélemény, hozzászólás?

Adatok megadása vagy bejelentkezés valamelyik ikonnal:

WordPress.com Logo

Hozzászólhat a WordPress.com felhasználói fiók használatával. Kilépés /  Módosítás )

Twitter kép

Hozzászólhat a Twitter felhasználói fiók használatával. Kilépés /  Módosítás )

Facebook kép

Hozzászólhat a Facebook felhasználói fiók használatával. Kilépés /  Módosítás )

Kapcsolódás: %s