Logisztikus regresszió 1. rész — modell készítése

A mai bejegyzésben egy népszerű osztályozó modellt fogunk megismerni. Alapesetben két csoport modellezésére szokták használni, de ki lehet terjeszteni több csoportra is. A logisztikai regressziót már említettem korábban a ROC görbe alatti területről szóló bejegyzés során. Ott elhangzott, hogy a kimenete annak a valószínűsége, hogy egy megfigyelés egyik vagy másik csoportba tartozik e. Hogy megértsük … Logisztikus regresszió 1. rész — modell készítése olvasásának folytatása

Hírdetés

Lineáris modell determinációs együttható — statisztika alapok

A mai bejegyzésben körbejárjuk, hogyan tudjuk eldönteni két lineáris modell közül melyik a jobb. A Loss fügvényről szóló bejegyzésben már megemlítettük, hogy készítünk egyetlen lineáris modellt: Kipróbálunk egy rakás lineáris modellt, és a végén az kerül kiválasztásra, aminél a loss függvény eredménye a legkisebb. Ez a modell lesz az adott függő és független változók esetén … Lineáris modell determinációs együttható — statisztika alapok olvasásának folytatása

Véletlenszerű erdő (Random Forest)

Mai bejegyzésünkben a Döntési fa egyik továbbfejlesztését fogjuk megismerni: a Véletlenszerű Erdőt (angolul: Random Forest). A korábbi bejegyzésben említettem, hogy a Döntési fa bizonyos esetekben könnyen túlilleszthető. Ennek megakadályozására az előző bejegyzésben paraméterekkel láttuk el az algoritmust, ami magával hozza a paraméter optimalizációs problémákat. A Véletlenszerű erdő a Döntési fák túlillesztési problémáját általánosabban közelíti meg. … Véletlenszerű erdő (Random Forest) olvasásának folytatása

Döntési fa

A valószínűségi fa tipikusan statisztikai megközelítése a problémáknak. Építünk egy modellt, ismerjük az eloszlásokat és az ezeknek megfelelő valószínűségeket. De mi van , ha ez nem igaz? Ha csak megfigyeléseink vannak, akkor ismerjük, hogy mi volt a bemenet, és mi lett az eredmény de az utat, a valószínűségi fát nem. Ekkor megpróbálhatjuk az egész folyamatot … Döntési fa olvasásának folytatása

Auto ARIMA Pythonban

A mai bejegyzésben egy idősorokon gyakran használt modellt fogunk megismerni: az AutoRegressive Integrated Moving Average-t (ARIMA) ARIMA Az ARIMA három részből épül fel: AR: Autoregression -- ebben a részben autoregressziót végzünk az idősorunkon. I: Integrated -- deriválás ellentéte ebben az esetben MA: Moving Average -- ebben a részben egy mozgó átlaggal számolt modell hibáját használjuk … Auto ARIMA Pythonban olvasásának folytatása

ROC görbe alatti terület

A mai bejegyzésben megismerkedünk egy módszerrel, amivel két osztályos klasszifikáció modellek teljesítményét tudjuk mérni és optimalizálni. Ez a módszer a "ROC görbe alatti terület" (angolul: "Area under the ROC curve"). Klasszikus teljesítménymérés Bár a blogon nem volt téma eddig, de gondolom a legtöbbeknek ismerős az "igazságmátrix" ( angolul: "Confusion_matrix") fogalma. Annak, akiknek mégsem lenne, nagy … ROC görbe alatti terület olvasásának folytatása

HDBSCAN

A mai bejegyzésben klasztereket fogunk keresni. A blogon korábban már volt szó egy klaszteranalízisre használt eljárásról. Az Elvárás-maximalizáló algoritmus abból a feltételezésből indul ki, hogy az egyes homogén csoportok jól meghatározható eloszlásból származnak. A mai bejegyzésben egy olyan eljárást fogunk megvizsgálni, ami nem ezt feltételezi. Ez lesz a Hierarchical Density-Based Spatial Clustering of Applications with … HDBSCAN olvasásának folytatása

Mesterséges kontroll csoport

A randomizált, kontroll vizsgálatról szóló bejegyzésben már találkoztunk azzal a problémával, hogy ideális esetben ugyanazon a kísérleti alanyon szeretnénk megvizsgálni a kezelés hatását és a kezelés hiányának következményeit. Ez persze lehetetlen, de a randomizált kontroll csoport létrehozása általában segít ebben a problémában. A mai bejegyzésben viszont egy olyan esetet fogunk megnézni, amikor nem lehet kontroll … Mesterséges kontroll csoport olvasásának folytatása

Konvolúciós Neurális Hálózat – 1. rész

A korábban ismertetett teljesen csatolt Neurális Hálózatokkal szemben a mai bejegyzésben egy részlegesen csatolt rendszerről fogunk beszélni: a Konvolúciós Neurális Hálózatról (angolul: Convolutional neural network). Ezeket a rendszereket leggyakrabban képelemzésre használják, de másra is lehet. Ebben a begyezésben mi egy idősoron fogjuk kipróbálni.