Logisztikus regresszió 2. rész — determinációs együttható és p-érték

Az előző részben megismertük, hogy a logisztikus regressziós modell készítésének hátterét, a mai bejegyzésben megnézzük a modellünk mennyire használható. Ehhez a lineáris regresszióval kapcsolatban megismert determinációs együtthatót és p-értéket fogjuk használni.


McFadden áldeteminációs együttható

A McFadden ugyanazt a logikát követi mint a lineáris modell determinációs együtthatója. Vagyis a determinációs együttható a legjobb és a legrosszabb modell arány lesz. De van itt egy probléma. Ugye azt tudjuk, hogy a log(esély) a végtelenben tolja a megfigyelések függő változójának értékét, tehát nem lehet távolság számolni a loss függvényhez. Nem meglepő módon erre a problémára ugyanaz a válasz mint a determinációs együttható számítása esetén: távolság helyett alkalmazzuk a legnagyobb valószínűséget. Vagyis:

R^2_{\text{mcfadden}} = \frac{ll_{\text{legrosszabb}}-ll_{\text{logisztik}}}{ll_{\text{legrosszabb}}}

Ahol:

  • R^2_{\text{mcfadden}} — a McFadden áldeterminációs együttható
  • ll_{\text{legrosszabb}} — a legrosszabb modell legnagyobb valószínűségének logaritmusa
  • ll_{\text{logisztik}} — a kiszámított logisztikus modell legnagyobb valószínűségének logaritmusa

Tehát kell nekünk egy „legrosszabb” modell (szokták még nulla modellnek is nevezni). Ez jelen esetben az mintavétel Esélye lesz:

f_{\text{legrosszabb}} = \log\left( \frac{n_{y=1}}{n_{y=0}} \right)

Ahol:

  • f_{\text{legrosszabb}}  — legrosszabb modell
  • n_{y=1} — a pozitív megfigyelések száma
  • n_{y=0} — a negatív megfigyelések száma

Ami a konkrét példánál maradva:

f_{\text{legrosszabb}} = \log \left(\frac{6}{4} \right)

A legjobb modellünket, ugye az lesz amit a az algoritmust optimalizált. Az előző bejegyzés alapján a példa adatokra ez:

f_{\text{legjobb}} = 0{,}9378-0{,}3841 \cdot x

A legnagyobb valószínűség logaritmusát már ismerjük az előző bejegyzésből:

ll = log(L) = \sum_{i:y=1} \left( \frac{e^{f(x)}}{1-e^{f(x)}} \right) \cdot \sum_{i:y=0} \left( 1- \frac{e^{f(x)}}{1-e^{f(x)}} \right)

Ez elég egyszerű. Számoljuk is ki a példa adatokra:

  Független változó Függő változó Legrosszabb modell Logisztikus regresszió modell
Sorszám (i) Szélerősség (km/óra) logit(Esni fog 2 órán belül) p(xi) log(p(xi)) p(xi) log(p(xi))
1 3,5 0,6 -0,511 0,4       -0,917
2 3,2 -∞ 0,4 -0,916 0,572 -0,558
3 1,5 0,6 -0,511 0,589 -0,529
4 3,6 -∞ 0,4 -0,916 0,609 -0,495
5 0,2 0,6 -0,511 0,703 -0,353
6 0,1 0,6 -0,511 0,711 -0,341
7 0,2 -∞ 0,4 -0,916 0,297 -1,214
8 0,4 0,6 -0,511 0,687 -0,376
9 0,4 0,6 -0,511 0,687 -0,376
10 0,2 -∞ 0,4 -0,916 0,297 -1,214
Log legnagyobb valószínűség (ll)       -6,7301   -6,3719
Log legnagyobb valószínűség

Innen a McFadden áldeterminisztikus együtható:

R^2_{\text{McFadden}} \approx \frac{-6{,}7301+6{,}3719}{-6{,}7301} \approx 0{,}0532

A R^2_{\text{McFadden}} tulajdonságai ugyanazok mint a lineáris regressziónál megismert R²-nek, szóval nem is részletezném itt.

p-érték

A determinisztikus együttható segít modellek összehasonlításban, de nem segít annak eldöntésében, hogy mennyire vagyunk biztosak abban, hogy a független tulajdonságok tényleg befolyásolják a függő tulajdonság értékét. Erre szolgál a „p-érték”. Mint kiderült a logisztikus modell és a legrosszabb modell legnagyobb valószínűségének logaritmusának különbsége egy Khí négyzeted eloszlást követ. Ebből pedig ki lehet számolni a p-értéket:

p = 1-F_{\chi^2}\left( k, 2 \cdot \left(  ll_{\text{logisztik}} - ll_{\text{legrosszabb}} \right)\right)

Ahol:

  • F_{\chi^2} — egy Khí-négyzet eloszlásfüggvény
  • k — modell szabadsági foka

Ami a konkrét példánknál:

p = 1-F_{\chi^2}\left( 1, 2 \cdot \left(  -6{,}3719 + 6{,}7301 \right)\right) \approx 0{,}3973

Sajnos ez a p-érték jelentősen nagyobb mint bármilyen értelmes határérték (például 5%), szóval nem lehetünk biztosak abban, hogy van kapcsolat a függő és független változók között.

Irodalom

Hírdetés

Vélemény, hozzászólás?

Adatok megadása vagy bejelentkezés valamelyik ikonnal:

WordPress.com Logo

Hozzászólhat a WordPress.com felhasználói fiók használatával. Kilépés /  Módosítás )

Facebook kép

Hozzászólhat a Facebook felhasználói fiók használatával. Kilépés /  Módosítás )

Kapcsolódás: %s