Bayesian szemlélet — statisztika alapok

Az elöző bejegyzésben megismerkedtünk a Bayes-tételel, ma körbejárjuk a tétel köré épített szemlélet miben tér el a klasszikus statisztikai szemlélettől.


Szóval mi olyan különleges a Bayes-tételben? Bár elsőre talán nem látszik, de ez egy teljesen eltérő hozzáállás az adatokhoz és a tudományos bizonyításhoz, mint a klasszikus megközelítés.

A klasszikus tudományos bizonyítás során az Megfigyelésből indulunk ki és állítjuk fel a Hipotézist. Innen nézve az adatok szentek és megingathatatlanok. Megfigyeltünk valamit, és csakis ennek alapján állítjuk fel a Hipotézist. Például a Maximum Likelihood számítás megmondja nekünk mi a legvalószínűbb érték a paraméterünkre.

Ezzel szemben a Bayesian nem kezeli szentként a Megfigyelést. Az egyenrangú a priorral. Nézzük meg mi is ez a prior.

Prior

A prior lényegében egy, az adatok által nem alátámasztott elképzelésünk egy hipotézisről. Hogy ezt jobban megértsük nézzünk egy példát.

Piszkos Fred Colombó bennszülött negyed egyik játékbarlangjában rulettezik. Már majdnem eljátszotta a Tom Leven megszöktetésére alapított részvénytársaság teljes költségvetését. Fred megfigyelte, hogy az asztalnál a messze legnagyobb tétben játszó játékos, egy kínai gengszter, mindig a fekete szintre tesz, és három alkalomból egyszer nyert. Ez a p(M)  és ennek 37.5% az esélye. 1 Három lehetséges ok jut az eszébe, hogy mi lehet a Megfigyelés oka:

  1. a kínai peches, tényleg 0,5 a nyerési lehetősége (Hipotézis 1.)
  2. az állandóan vigyorgó maláji krupié csal, és a játékos nyerési esélye kisebb mint 0,5 (Hipotézis 2. )
  3. a kínainak paranormális képességei vannak, tudja melyik szín a nyerő, de veszíteni akar ( Hipotézis 3. )

Ha Mr. Piszkos klasszikus statisztikát gyakorolna, akkor készítene egy hipotézis tesztet arra nézve, hogy a paraméter kisebb mint 0,5. Ennek a végén azt kapná, hogy a nem tudja visszautasítani a Null hipotézist, miszerint a gengszter csupán peches.2

De ő inkább Bayesian gondolkodású, így prior valószínűségeket rendel mindegyik Hipotézishez:

  1. p(H=1) = 1/10 — előfordulnak peches emberek
  2. p(H=2) = 8/10 — de az azért valószínűbb, hogy e kétes intézmény nem szabályosan nyerészkedik a kedves vendégeken
  3. p(H=3) = 1/10 — ha peches emberek létezhetnek miért, ne lehetne paranormális tulajdonsága valakinek

A Likelihood a különböző Hipotézisek esetén pedig:

  • p(M|H=1) = 0,375 — ha a p érték tényleg 0,5 ekkor a valószínűsége a fenti Megfigyelésnek
  • p(M|H=2) = 4/9 — Ez a feltételezett p értékünk helyére behelyettesítjük a megfigyelt 1/3 értéket, akkor ekkora a valószínűsége, hogy a fenti Megfigyelést kapjuk.3 Ez a behelyettesítés a legjobb becslésünk a p értékre, és megfelel a Hipotézis 2.-nek is, mivel kisebb mint 1/2.
  • p(M|H=3) = 0 — volt egy alkalom amikor eltalált a szint

Foglaljuk össze egy táblázatba:

Hipotézisp(H) p(M|H)  p(M) p(H|M)
a kínai peches 1/10 375/1000 0.3931 0.0954
az állandóan vigyorgó maláji krupié csal 8/10 4/9 0.3931 0.9046
a kínainak paranormális képességei vannak 1/10000
Piszkos Fred rulettezik

Fred a prior tudásának is köszönhetően, 90%-ig biztos benne, hogy itt csalás történik. Ennek megfelelően cselekszik is.

Mint látható Piszkos Fredet nagyban segítette, hogy volt egy, az adatok által nem alátámasztott előzetes tudása, a prior. Gondolom nem lepek meg senkit, ha elmondom, hogy ez a Bayesian analízis leggyakrabban támadott része. Néhányan tudománytalanak tartják, hogy adat alátámasztása nélkül vegyünk be valamit a modellünkbe. Valóban lehetne arról vitatkozni, hogy Fred miért éppen 80% valószínűséget adott a csalásnak. De három dolog egyértelműen a prior alkalmazása mellet szól:

  • a valós életben igenis vannak olyan tapasztalataink, amiket nem tudunk adatokkal alátámasztani
  • a prior nem tud súlyos problémát okozni.

Az első pontra a legtriviálisabb példa, amikor elírás történik az adatbevitel során, és egy abszolút értelmezhetetlen eredményt kapunk. Ha ilyenkor nem fogadjuk el az eredményt vakon, hanem elkezdünk kutatni valamiféle hiba után, akkor igazából priort használunk.

Beszéljünk egy kicsit a második pontról is. Talán nem egyértelmű elsőre, de a prior, csak egyetlen megfigyelésnek számít. Szóval kevés megfigyelés esetén jelentős hatása van, de ahogy nő a megfigyelések száma az egyre jelentéktelenebb. Másodsorban vegyük észre, hogy a priornak nem feltétlenül kell információval rendelkeznie. Fred megtehette volna, hogy mindegyik hipotézishez egyenlő valószínűséget rendel. Ebben az esetben a prior egyáltalán nem befolyásolta volna a posterior-t.

Ha valaki megnézi a “Piszkos Fred rulettezik” táblázatot, talán nem egyértelmű, hogyan számoljuk a p(M) értéket. Most nézzük meg ezt a kérdést, mert ez rávilágít a Bayesian szemlélet másik lényeges különbségére.

Teljes valószínűség tétele

A Bayes-tétel nevezője, a p(M) csak arra szolgál, hogy normalizáljuk a számlálót és biztosak legyünk benne, hogy az össze Hipotézis valószínűségének összege 1. Ennek megfelelően a tételt úgy is fel szokták írni, hogy elhagyják ezt a tagot:

(1)   p(H|M) \propto  p(M|H)\cdot p(H)

Ezután a kitérő után nézzük meg azt az esetet, ha nem akarjuk elhagyni. A nevező nem más mint az számlálok valószínűségének összege, és felírhatjuk így:

(2)   p(M) = \sum  p(M|H)\cdot p(H)

A fenti kifejezésnek saját neve is van: Teljes valószínűség törvénye. 4 És azt a triviális állítást tartalmazza, hogy ha összeadjuk minden egyes lehetőség valószínűséget, akkor megkapjuk a Megfigyelés teljes valószínűséget.

Ennek megfelelően a Piszkos Fred rulettezik példában:

(3)   p(M) =  \frac{1}{10} \cdot  \frac{ 375}{1000}+   \frac{8}{10} \cdot  \frac{ 4}{9} \approx   0.3931

Miért érdekes ez? Mert ahhoz, hogy a Byes-tételt alkalmazzuk, minden egyes lehetséges Hipotézis esetén ki kell számolni mekkora az adott Megfigyelés valószínűsége. Ez lényegesen több munka mint amikor egyszerűen deriváljuk5 a Maximum Liklehood során a függvényünket. Ez sokkal több munka, de sokkal többet is kapunk vissza. A klasszikus statisztikával szemben, a Bayesian statisztika során nem csak a legjobb modellt ismerjük meg, hanem minden egyes modellt és minden egyes modell valószínűséget (Bayesian p-érték).

De van itt egy számítástechnikai probléma. Könnyen előfordulhat, hogy végtelen mennyiségű hipotézisünk van. Gondoljunk csak egy folytonos változó paraméterbecslésének problémájára. Ez az eset viszont azt jelenti, hogy elméletileg végtelen idő kellene a Bayesian eredmény kiszámításához. A gyakorlati életben ennek megfelelően nem szoktak minden Hipotézist megvizsgálni, hanem egy mintavételt vesznek a Hipotézisek halmazából.

Végezetül

Összegezve a Bayesian szemlélet előnyei:

  • használhatunk priort
  • nem csak a legjobb modellt, hanem ( majdnem ) az összes modellt megismerjük
  • a Bayesian p-érték definiciója közelebb áll a valós élethez, mint a klasszikus statisztika, így könnyebb elmagyarázni

A hátránya:

  • sokkal számításigényesebb

A következő részben meg fogjuk nézni, hogy oldják meg mostanában a mintavételt a végtelen nagyságú Hipotézistérből, majd számítási példák következnek.

Lábjegyzet

  1. A vörös-fekete külső tét egy egy binominális eloszlás. A fenti megfigyelésnek pedig ebben az esetben a következő a valószínűsége: \binom{3}{1} 0.5^1 0.5^2 .
  2. Ennek legfőbb oka, hogy ilyen kis mintaszámnál a konfidencia intervallum túl nagy.
  3. Ugye ez egy binomiális eloszlás, és a konkrét Megfigyelés valószínűsége: \binom{3}{1} \frac{1}{3} \frac{2}{3}^2
  4. Angolul: Law of total probability
  5. Lásd: Paraméterbecslés Maximum likelihood módszerrel (12) képlet.
Hírdetés

Bayesian szemlélet — statisztika alapok” bejegyzéshez 2 hozzászólás

Vélemény, hozzászólás?

Adatok megadása vagy bejelentkezés valamelyik ikonnal:

WordPress.com Logo

Hozzászólhat a WordPress.com felhasználói fiók használatával. Kilépés /  Módosítás )

Twitter kép

Hozzászólhat a Twitter felhasználói fiók használatával. Kilépés /  Módosítás )

Facebook kép

Hozzászólhat a Facebook felhasználói fiók használatával. Kilépés /  Módosítás )

Kapcsolódás: %s