Bayes-tétel — statisztika alapok

Az egyik legizgalmasabb terület számomra a statisztikában a Bayesian gondolkodás. Korábban írtam egy bejegyzést erről a témáról, de az elmélettel még nem foglalkoztam. Most ezt fogom pótolni.


Kicsit távolról indítok, de feltétlenül tisztáznunk kell az elvárásokat a Bayesian statisztikával szemben, hogy értékelni lehessen a jelentőségét.

Amikor Statisztikai analízist végzünk belülről haladunk kifele. Először megépítjük a modellünket, majd teszteljük, hogy az adatok alátámasztják-e azt. Ehhez használjuk az úgynevezett Null és Alternatív hipotéziseket. Rendben, de mit jelent az, hogy az adata alátámasztja a hipotézist?

Korábban láttuk, hogy hagyományosan1, amikor konfidenciaintervallumot adunk meg, akkor lényegében azt mondjuk: a Null hipotézist néha akkor is elutasítjuk, amikor nem kellene. Ha elég sokszor (ideális esetben végtelen sokszor) megismételnénk a kísérletet,2 és a modellünk helyes, akkor pontosan p-érték alkalommal fog ez bekövetkezni. A gond az, hogy általában nem szoktuk elég sokszor megismételni az kísérletet.

A Bayesian szemlélet erre a problémára kínál megoldást. Nem feltételezi a kísérlet végtelen számú megismétlését, hanem azt mondja, hogy az észlelt adatok alapján a modellnek p-érték valószínűsége van. Ez a fajta p-érték felfogás sokkal közelebb áll a mindennapi nyelvhasználatunkhoz, mint a hagyományos statisztikai megfogalmazás.

A p-érték fogalmának megváltoztatáshoz az alapot pedig a Bayes tételt szolgálja.3

Bayes-tétel

A Bayes tételt Thomas Bayes után lett elnevezve, aki először használta paraméterbecslésre az 1763-ban megjelent An Essay towards solving a Problem in the Doctrine of Chances-ban. A tétel elsőre a tipikus, “ez magától értetődő” kategória. A tétel alapja a feltételes valószínűség tétele, így ezzel fogjuk kezdeni.

Feltételes valószínűség tétele

(1)   p(A,B) = p(A|B)\cdot p(B)

Ahol:

  • p(A,B)    A és B események együttes előfordulásának valószínűsége
  • p(A|B)    A esemény valószínűsége, ha B esemény megtörtént
  • p(B)    B esemény valószínűsége

Szavakba öntve: annak a valószínűsége, hogy A és B események egyszerre bekövetkeznek, megegyezik a B esemény valószínűségével és az A esemény bekövetkeztének valószínűségével ha B már megtörtént. Talán ez így elég elvontan hangzik, de nézzünk két egyszerű példát, hogy lássunk miről beszélünk:

Az első példa: Legyen két érménk, Az A esemény legyen, hogy az első érme fej, a B hogy a második fej. Mi lesz akkor a p(A,B)   ? Az, hogy mindkét érmével fejet dobunk. Tegyük fel, hogy ezek az érmék kicsit csalnak és az első érme 60% valószínűséggel fej, ez lesz a p(A)   . A második 30% valószínűséggel legyen fej, vagyis p(B) = 0,3  . Már csak a p(A|B)     hiányzik. Ez annak a valószínűsége, hogy ha a második érménk fej akkor az elsővel is azt dobunk. Befolyásolja a második érme eredménye az elsőt? Nem, az első érme teljesen független a másodiktól. Tehát ebben az esetben a p(A|B) = 0,6    . Ennek megfelelően mi lesz a p(A,B)   ?

(2)   p(A,B) = p(A|B)\cdot p(B) = 0,6 \cdot 0,3 = 0,18

A második példában nézzünk egy olyan esetet amikor A és B nem független egymástól: Legyen két hat oldalú dobókockánk. p(A,B)   esemény pedig legyen az, hogy a két kocka eredményének összege maximum 4. Mi lesz most a p(A)   és p(B)   ? A két kocka eredményének valószínűsége. Most viszont a p(A|B)     érdekesebb, mint az elöző példában. Ez annak a valószínűsége, hogy az első kockával olyan számot dobunk, ami kielégíti a p(A,B)   feltételt. Értelemszerűen ez az érték nagy mértékben függ attól, hogy a második kockával mit dobunk. Ha például 1-et, akkor 1,2 vagy 3-is dobhatunk az elsővel, hogy ez a feltétel teljesüljön, tehát a p(A|B) = 0,5     ebben az esetben. Viszont ha 4-et dobtunk a második kockával, akkor a p(A|B) = 0   , mivel nem tudunk olyan kis számod dobni, hogy a két kocka összege maximum 4 legyen. A lehetséges kombinációkat egy táblázatban lehet legjobban összefoglalni:

b   p(B=b)   p(A|B=b)   p(A,B|B=b)
11/63/63/36
2 1/6 2/62/36
3 1/6 1/61/36
4 1/6 00
5 1/6 00
6 1/6 00
1. táblázat

Ahol:

  • b — a B kocka eredménye
  • p(B=b)   — Annak a valószínűsége, hogy a B kocka eredménye b
  • p(A|B=b) — Annak a valószínűsége , hogy A eredménye olyan, hogy a két kocka összege maximum négy, ha a B kockával b értéket dobtunk. Értelemszerűen, ha nagyobb b értéke ekkor ez a valószínűség kisebb.
  • p(A,B|B=b)  — Annak valószínűsége, hogy két kocka összege maximum négy, ha a B kockával b értéket dobtunk. Értéke a p(B=b)  és a p(A|B=b)  szorzata.

Rendben, de mi a p(A,B)   ? A p(A,B|B=b)     összege lesz, vagyis:

(3)   p(A,B) =  \sum_{b=1}^6 p(A,B|B=b)  = 6/36 = 1/6

Vagyis 1/6 a valószínűsége, hogy két kocka összege maximum négy.

Bayes-tétel

Vegyünk észre valamit: A Feltételes valószínűség tétele megfordítható, vagyis:

(4)   p(A|B)\cdot p(B) =  p(B|A)\cdot p(A)

A fenti két példa pontosan ugyanazt az eredményt adná, ha az A és B jelölést felcserélnénk.

Rendezzük át egy a (4) egy kicsit:

(5)   p(A|B) =  \frac{p(B|A)\cdot p(A)}{  p(B) }

Ez pedig a híres Bayes-tétel. Hogy lássuk miért érdekes ez a tétel, cseréljük ki az absztrakt A-t és B-t valamire aminek van valami jelentése is. Mondjuk az A-t H-ra, mint Hipotézis és B-t M-re, mint Megfigyelés:

(6)   p(H|M) =  \frac{p(M|H)\cdot p(H)}{  p(M) }

Mielőtt továbblépnénk egy kis terminológiára. A Bayesian statisztikában a következő elnevezéseket szokták alkalmazni a fenti képlet részeire:

JelölésNeve
p(H|M) Posterior
p(H)Prior
p(M|H)Likelihood
p(M)Megfigyelés valószínűsége 4
Bayesian terminológia

A következő bejegyzésben megnézzük miért fontos ez a tétel.

Lábjegyzet

  1. Az angol szakirodalomban Frequentist megközelítésnek nevezett szemlélet szerint.
  2. Vagyis úgynevezett exact tetszett végeznénk.
  3. Nem meglepő módon innen a szemlélet neve.
  4. Angolul: Probability of the evidence

Bayes-tétel — statisztika alapok” bejegyzéshez 5 hozzászólás

  1. Üdv! Tudnál ajánlani olyan(lehetőleg magyar, de angol is jó) forrást ahonnan meg tudnám tanulni a bayes-i valószínűségszámítás alapjait,alapfokú matematikai képzettséggel?

    Kedvelés

    1. Üdv!

      Magyarul a blogon is van néhány bejegyzés. Szvsz. elegendő az alapok megértéséhez:
      1) https://sajozsattila.home.blog/2020/01/13/bayesian-szemlelet — Kb. bemutatja a különbséget a klaszikus és a Bayesian számítás között
      2) https://sajozsattila.home.blog/2020/11/03/markov-lanc-monte-carlo-mcmc/ — Bayesian mintavétel folytonos tér esetén
      3) https://sajozsattila.home.blog/2019/07/24/robusztus-bayes-linearis-regresszio/ — példa egy gyakorlati alkalmazás

      Szívesen segítek ha van konkrét kérdés.

      Majd megpróbálok összeszedni néhány angol linket.

      Kedvelés

Hozzászólás