A sorozat célja, hogy a Statisztika alap fogalmait tisztázza minél közérthetőbben.
A várható érték minden bizonnyal a legelemibb statisztikai fogalom. A: Mi a legvalószínűbb eredmény? kérdésre válaszol.
A valószínűségszámításra ugye akkor van szükség ha nem determinisztikus, hanem valamilyen szinten sztochasztikus folyamatokkal van dolgunk. A 2+3-nál nincs szükségünk rá, mert az eredmény mindig ugyanazt. Ha egy felnőtt megkérdezné tüllünk a fenti kérdést ebben az esetben valószínűleg igen csak meglepődnénk. Ebben a környezetben egyszerűen nincs értelme a “legvalószínűbb” kifejezésnek.
De mi van egy hatoldalú dobókocka eredményével? Ebben ez esetben egy előre kiszámíthatatlan kézmozdulattól, a dobástól, függ az eredmény. Könnyű belátni, hogy ekkor hat különböző eredmény is születhet. Mit válaszolnánk ilyenkor? 1, 2, 3, 4, 5, 6? Mind? A helyes válasz 3.5. Ez talán nem egyértelmű egyből, mivel ilyen oldal nincs is.
Próbáljuk ki. Dobjunk egy szabályos hat oldalú kockával négyszer:
import numpy as np print(np.random.randint(1,7,4))
Az eredmény ebben az próbában nekem: 1, 5, 1 és 3 volt. Aminek a számtani közepe (átlaga): (1+5+1+3)/4 = 2.5. Hát ez nem nagyon 3.5. Mégis mi a probléma? Vegyünk észre valamit. Amikor fenti számtani közepet számoltam akkor azt egy véges nagyságrendű, fenti példában 4, probából számoltam. Viszont az elvárt érték nem ebből a véges mintából indul ki. Az elvárt érték esetén feltételezem, hogy végtelen számú minta áll rendelkezésünkre, és ebből a végtelen számú példából számolom az elvárt értéket. Vagyis lényegében az elvárt érték a végtelen mennyiségű minta számtani közepe.
Értelemszerűen nem végezhetjük el a mintavételt végtelen sokszor, de akkor hogy számíthatjuk ki az elvárt értéket? Erre való a valószínűségi tömegfüggvény és a sűrűségfüggvény. Ezek lényegében megmondják nekünk mi a végtelen számú minta esetén az egyes eredmények valószínűsége.
Diszkrét eset
Nézzük meg a tömegfüggvényt a fenti példára:

Amiből látható, ha végtelen számú esetben elvégeznénk a kockadobást akkor mindegyik eredménynek ugyanakkora lenne a valószínűsége, a P(x). És akkor most végezzük el a számtani középszámítást erre a végtelen mennyiségű mintára. Ami pedig:
(1)
Ahol:
— az X elvárt értéke. Az angol “Expected” megnevezésből.
-
— a lehetséges eredmények száma, esetünkben 6
-
— az egyes eredmények értéke. Például
-
— az egyes eredmények valószínűsége. Ez most minden esetben ugyanakkora: 1/6.
Amit ha a fenti példában megvalósítva:
(2)
Folytonos eset
Most nézzük meg mi van ha nem diszkrét hanem folytonos esetünk van.1 Nézzünk egy példát: tudjuk, hogy óránként egy busz indul az otthonunk és a városközpont között. De sajnos egyáltalán nem emlékszünk, hogy pontosan melyik percben kellene ennek a busznak indulnia. Hány órát kell várnunk a buszra? Ugye ez bármi lehet a két szélsőség között: 0 ha a busz éppen a megállóban áll, és 1 óra ha éppen elment. Maga az eloszlás konkrétan egy egyenletes eloszlás aminél a ( minimum érték) az 0, b (maximum érték) pedig 1.
A sűrűségfüggvénye pedig így fog kinézni:

Maga a gyakorlati számítás lényegében ugyanaz, csak a összegzést kicseréljük integrálra:
(3)
Tulajdonságai
Legfontosabb tulajdonsága a linearitása, vagyis:
(4)
Ennek köszönhetően összetett eseteknél akkor járunk el a legjobban ha azt részekre bontjuk és külön-külön számítjuk a részek várható értékét.
Összegzés
Az egyik idegesítő dolog számomra a legtöbb magyar nyelvű valószínűségszámítási/statisztikai oktatóanyagban, az, hogy túl sok időt töltenek nevezetes eloszlások értékeinek kiszámításával. Ennek nagyjából semmi értelme nincs. A nevezetes eloszlások nevezetesek, mert ismertek és két perc alatt megtaláljuk az összes jellemzőjüket. Ami ennél sokkal fontosabb, hogy mit csinálunk a nem nevezetes eloszlásokkal. Mi van például ha az eloszlás a következő sűrűségfüggvényt követi2:
(5)
Ahol théta (θ) az erre az eloszlásra jellemző paraméter. Mi ennek a legvalószínűbb eredménye? A fenti folytonos példa számítását követve:
(6)
Ugye, hogy egyszerű.
Lábjegyzet
- Ha érdekel mi a különbség a folytonos és a diszkrét számok között, akkor további olvasmány: Nem egyenlő végtelenség.
- Ez az eloszlás visszatér a Paraméterbecslés Maximum likelihood módszerrel bejegyzésben is.
“Várható érték – statisztika alapok” bejegyzéshez 3 hozzászólás