Az előző részben megismertük, hogy a logisztikus regressziós modell készítésének hátterét, a mai bejegyzésben megnézzük a modellünk mennyire használható. Ehhez a lineáris regresszióval kapcsolatban megismert determinációs együtthatót és p-értéket fogjuk használni.
McFadden áldeteminációs együttható
A McFadden ugyanazt a logikát követi mint a lineáris modell determinációs együtthatója. Vagyis a determinációs együttható a legjobb és a legrosszabb modell arány lesz. De van itt egy probléma. Ugye azt tudjuk, hogy a log(esély) a végtelenben tolja a megfigyelések függő változójának értékét, tehát nem lehet távolság számolni a loss függvényhez. Nem meglepő módon erre a problémára ugyanaz a válasz mint a determinációs együttható számítása esetén: távolság helyett alkalmazzuk a legnagyobb valószínűséget. Vagyis:
Ahol:
— a McFadden áldeterminációs együttható
— a legrosszabb modell legnagyobb valószínűségének logaritmusa
— a kiszámított logisztikus modell legnagyobb valószínűségének logaritmusa
Tehát kell nekünk egy „legrosszabb” modell (szokták még nulla modellnek is nevezni). Ez jelen esetben az mintavétel Esélye lesz:
Ahol:
— legrosszabb modell
— a pozitív megfigyelések száma
— a negatív megfigyelések száma
Ami a konkrét példánál maradva:
A legjobb modellünket, ugye az lesz amit a az algoritmust optimalizált. Az előző bejegyzés alapján a példa adatokra ez:
A legnagyobb valószínűség logaritmusát már ismerjük az előző bejegyzésből:
Ez elég egyszerű. Számoljuk is ki a példa adatokra:
Független változó | Függő változó | Legrosszabb modell | Logisztikus regresszió modell | |||
Sorszám (i) | Szélerősség (km/óra) | logit(Esni fog 2 órán belül) | p(xi) | log(p(xi)) | p(xi) | log(p(xi)) |
1 | 3,5 | ∞ | 0,6 | -0,511 | 0,4 | -0,917 |
2 | 3,2 | -∞ | 0,4 | -0,916 | 0,572 | -0,558 |
3 | 1,5 | ∞ | 0,6 | -0,511 | 0,589 | -0,529 |
4 | 3,6 | -∞ | 0,4 | -0,916 | 0,609 | -0,495 |
5 | 0,2 | ∞ | 0,6 | -0,511 | 0,703 | -0,353 |
6 | 0,1 | ∞ | 0,6 | -0,511 | 0,711 | -0,341 |
7 | 0,2 | -∞ | 0,4 | -0,916 | 0,297 | -1,214 |
8 | 0,4 | ∞ | 0,6 | -0,511 | 0,687 | -0,376 |
9 | 0,4 | ∞ | 0,6 | -0,511 | 0,687 | -0,376 |
10 | 0,2 | -∞ | 0,4 | -0,916 | 0,297 | -1,214 |
Log legnagyobb valószínűség (ll) | -6,7301 | -6,3719 |
Innen a McFadden áldeterminisztikus együtható:
A tulajdonságai ugyanazok mint a lineáris regressziónál megismert R²-nek, szóval nem is részletezném itt.
p-érték
A determinisztikus együttható segít modellek összehasonlításban, de nem segít annak eldöntésében, hogy mennyire vagyunk biztosak abban, hogy a független tulajdonságok tényleg befolyásolják a függő tulajdonság értékét. Erre szolgál a „p-érték”. Mint kiderült a logisztikus modell és a legrosszabb modell legnagyobb valószínűségének logaritmusának különbsége egy Khí négyzeted eloszlást követ. Ebből pedig ki lehet számolni a p-értéket:
Ahol:
— egy Khí-négyzet eloszlásfüggvény
— modell szabadsági foka
Ami a konkrét példánknál:
Sajnos ez a p-érték jelentősen nagyobb mint bármilyen értelmes határérték (például 5%), szóval nem lehetünk biztosak abban, hogy van kapcsolat a függő és független változók között.
Irodalom
- Sachin Date: R-squared, Adjusted R-squared and Pseudo-R-squared
- Jonathan Bartlett: R squared in logistic regression