Robusztosság – statisztika alapok

Aki már végzet bármiféle statisztikái elemzést vagy foglalkozott gépi tanulással, az tudja, hogy a valós adatok gyakran tartalmaznak olyan adatokat, amik szokatlanul távol esnek a megfigyelések átlagától. Ezeket kiugró értékeknek szoktuk nevezni. A mai bejegyzésben megnézzük, milyen probémát tudnak ezek a megfigyelések okozni és mit lehet ezzel kezdeni.


A Probléma

Rendben tehát kiugró értékek[1]. Mik is ezek és mi a probléma velük? Vegyünk egy egyszerű példát: van egy standard normál eloszlást követő populációnk és mintát vettünk belőle. A minta eredménye a következő lett:

Minta egy kiugró értékkel

A fenti ábrán egyértelműen látszik egy megfigyelés a -5 környékén ami „szokatlanul” távol van a többitől. Ez feltétlenül hibás mintavételt jelent? Nem! Ebben az esetben ez egy teljesen jó megfigyelés. A mintákat a következő Python kóddal készítettem:

mintak = np.random.normal(0, 1, 100)

A normál eloszlás nem határos. Tehát elméletileg bármilyen „vad” megfigyelés előfordulhat a mintában. Csak ennek egyre kisebb az esélye ahogy távolodunk az átlagtól. A fenti mintavételnél egyszerűen nem volt szerencsénk. Persze nem mindig ez a helyzet. Gyakran valóban hibás adat az oka ezeknek a szokatlanul kiugró megfigyeléseknek.

Miért probléma néhány ilyen megfigyelés? Magában ez nem gond, a probléma ott kezdődik, hogy, sok számításunkat képes akár egy-két kiugró érték jelentősen elvinni. Gondoljunk csak a szórásnégyzet számításra. Matematikailag nem meglepő, hogyha hatványozunk akkor egy nagyobb számnak sokkal nagyobb jelentősége van mint egy kicsinek. Gondoljunk csak bele: hatványozás nélkül a fenti mintában a megfigyelések 99%-a -2 és +2 között van. Négyzetre emelve: 0 és 4 között. Viszont az egy darab -5 érték négyzete 25. Mit jelent ez? Ez az egy szokatlan megfigyelés körülbelül hat darab „nem szokatlan” megfigyelés súlyával fog beleszámolni a szórásnégyzet számításba. És mi még itt szerencsések vagyunk. Gondoljuk el mi van, ha az adatbevitelnél mondjuk rosszul lenne kirakva a tizedesjegy és -2 helyett -20 lenne a kiugró értékünk. Ekkor már százszoros súllyal szerepelne ez az egy megfigyelés. Ez egy olyan hiba ami könnyen előfordulhat kézi adatbevitelnél.

Mit lehet tenni?

A legkézenfekvőbb megoldás a fenti problémára: ne emeljünk négyzetre. Általánosabban, ha egy olyan módszert dolgozunk ki, hogy, ne okozzanak problémát a kiugró értékek. Lényegében ez a robusztus statisztika. Egy olyan statisztikai módszer ami arra törekszik, hogy egy olyan elemzési módszert produkáljon, ami nem érzékeny a kiugró értékek jelenlétére.

Töréspont

Most, hogy már látjuk miért szeretnénk robusztus statisztikát alkalmazni, nézzünk meg egy fogalmat ami szorosan kapcsolódik a konkrét megvalósításhoz: a töréspontot.

Tegyük fel, hogy sikerült valamiféle módszert kidolgoznunk, amivel kezelni tudjuk a kiugró értékeket. Sőt, olyan ügyesek vagyunk, hogy nem is egy, hanem több módszert dolgoztunk ki. Mi alapján tudjuk eldönteni mennyire jók ezek a módszerek? A legegyszerűbb szempont, hogy mennyire „szennyezett” adatsort képes kezelni. Ez a töréspont.[2] Mit jelent ha például azt mondom egy robusztus eljárásra, hogy 0,1 a töréspontja? Azt, hogy ha az adatok kisebb mint 10%-a kiugró érték, akkor a módszer még mindig megbízhatóan működik.[3]

Most nézzünk meg néhány módszer töréspontját. Mi az átlagé? 0. Nem nehéz elképzelni egy olyan nagy számot, ami egy átlagszámítást teljesen félre tud vinni. Mi a medián töréspontja? 0,5. Könnyű látni, hogy ha 50%-nál kisebb a szennyezettség mértéke, akkor a minta mediánja még mindig a valós érték közelében lesz. Józan ésszel az belátható, hogy a lehető legjobb módszer töréspontja se lehet 0,5 feletti.

Akkor a medián a Szent Grál? Lehetne, ha nem szeretnénk mindig deriválni, de sajnos igen.[4] A rossz hír, hogy a medián nem deriválható. Ennek a problémának a megkerülésére több megoldás is született, az egyik a blogon már többször említett Huber-loss.

Konklúzió

Fentebb átnéztük mi a robusztus statisztika alapvető célja és hogyan mérhetjük a robusztusságot. Nemsokára következik egy bejegyzés az M-becslésről ami egy kicsit jobban belemerül a témába.

Irodalom

Végjegyzetek

  1. Angolul: outlier ↩︎
  2. Angolul: breakdown ↩︎
  3. Az egy külön történet mi számít megbízhatónak. Ezt most ne feszegessük, csak tudatosítsuk ez maga is vita tárgya lehetne. ↩︎
  4. A deriválás a legegyszerűbb módszer egy loss függvény minimumának megtalálására. ↩︎

Vélemény, hozzászólás?

Adatok megadása vagy bejelentkezés valamelyik ikonnal:

WordPress.com Logo

Hozzászólhat a WordPress.com felhasználói fiók használatával. Kilépés /  Módosítás )

Twitter kép

Hozzászólhat a Twitter felhasználói fiók használatával. Kilépés /  Módosítás )

Facebook kép

Hozzászólhat a Facebook felhasználói fiók használatával. Kilépés /  Módosítás )

Kapcsolódás: %s