Logisztikus regresszió 1. rész — modell készítése

A mai bejegyzésben egy népszerű osztályozó modellt fogunk megismerni. Alapesetben két csoport modellezésére szokták használni, de ki lehet terjeszteni több csoportra is. A logisztikai regressziót már említettem korábban a ROC görbe alatti területről szóló bejegyzés során. Ott elhangzott, hogy a kimenete annak a valószínűsége, hogy egy megfigyelés egyik vagy másik csoportba tartozik e. Hogy megértsük … Logisztikus regresszió 1. rész — modell készítése olvasásának folytatása

Hírdetés

Lineáris modell determinációs együttható — statisztika alapok

A mai bejegyzésben körbejárjuk, hogyan tudjuk eldönteni két lineáris modell közül melyik a jobb. A Loss fügvényről szóló bejegyzésben már megemlítettük, hogy készítünk egyetlen lineáris modellt: Kipróbálunk egy rakás lineáris modellt, és a végén az kerül kiválasztásra, aminél a loss függvény eredménye a legkisebb. Ez a modell lesz az adott függő és független változók esetén … Lineáris modell determinációs együttható — statisztika alapok olvasásának folytatása

Véletlenszerű erdő (Random Forest)

Mai bejegyzésünkben a Döntési fa egyik továbbfejlesztését fogjuk megismerni: a Véletlenszerű Erdőt (angolul: Random Forest). A korábbi bejegyzésben említettem, hogy a Döntési fa bizonyos esetekben könnyen túlilleszthető. Ennek megakadályozására az előző bejegyzésben paraméterekkel láttuk el az algoritmust, ami magával hozza a paraméter optimalizációs problémákat. A Véletlenszerű erdő a Döntési fák túlillesztési problémáját általánosabban közelíti meg. … Véletlenszerű erdő (Random Forest) olvasásának folytatása

Döntési fa

A valószínűségi fa tipikusan statisztikai megközelítése a problémáknak. Építünk egy modellt, ismerjük az eloszlásokat és az ezeknek megfelelő valószínűségeket. De mi van , ha ez nem igaz? Ha csak megfigyeléseink vannak, akkor ismerjük, hogy mi volt a bemenet, és mi lett az eredmény de az utat, a valószínűségi fát nem. Ekkor megpróbálhatjuk az egész folyamatot … Döntési fa olvasásának folytatása

Valószínűségi fa — statisztikai alapok

A mai bejegyzésben egy egyszerű valószínűségi számításban használt ábrázolással ismerkedünk meg. Valószínűségi fa In medias res, kezdjük egy példával, hogyan is néz ki egy valószínűségi fa. Legyen egy érménk és dobjuk fel, a lehetséges eredményt így ábrázolhatjuk valószínűségi fával: A fenti ábra igazság szerint csak egy irányított körmentes gráf. Vagyis egyetlen egy irányba haladhatunk az … Valószínűségi fa — statisztikai alapok olvasásának folytatása

Auto ARIMA Pythonban

A mai bejegyzésben egy idősorokon gyakran használt modellt fogunk megismerni: az AutoRegressive Integrated Moving Average-t (ARIMA) ARIMA Az ARIMA három részből épül fel: AR: Autoregression -- ebben a részben autoregressziót végzünk az idősorunkon.I: Integrated -- deriválás ellentéte ebben az esetbenMA: Moving Average -- ebben a részben egy mozgó átlaggal számolt modell hibáját használjuk a következő … Auto ARIMA Pythonban olvasásának folytatása

Cenzúrázott és csonkított Gaussian eloszlások Bayesian paraméterbecslése

A Gaussian eloszlás az egyik leggyakrabban szembejövő eloszlás a gyakorlati életben. Sajnos bizonyos esetekben a mintavételünk torzított ( jellemzően a farok tartományokban ) és ezért a paraméterbecslésünk nehéz lehet. A mai bejegyzésben két ilyen torzítást fogunk körbejárni: a cenzúrázást és a csonkítást. Cenzúrázott Gaussian eloszlás Cenzúrázott adatokról akkor beszélünk, ha a megfigyeléseink bizonyos értékhatár alatt … Cenzúrázott és csonkított Gaussian eloszlások Bayesian paraméterbecslése olvasásának folytatása

ROC görbe alatti terület

A mai bejegyzésben megismerkedünk egy módszerrel, amivel két osztályos klasszifikáció modellek teljesítményét tudjuk mérni és optimalizálni. Ez a módszer a "ROC görbe alatti terület" (angolul: "Area under the ROC curve"). Klasszikus teljesítménymérés Bár a blogon nem volt téma eddig, de gondolom a legtöbbeknek ismerős az "igazságmátrix" ( angolul: "Confusion_matrix") fogalma. Annak, akiknek mégsem lenne, nagy … ROC görbe alatti terület olvasásának folytatása

HDBSCAN

A mai bejegyzésben klasztereket fogunk keresni. A blogon korábban már volt szó egy klaszteranalízisre használt eljárásról. Az Elvárás-maximalizáló algoritmus abból a feltételezésből indul ki, hogy az egyes homogén csoportok jól meghatározható eloszlásból származnak. A mai bejegyzésben egy olyan eljárást fogunk megvizsgálni, ami nem ezt feltételezi. Ez lesz a Hierarchical Density-Based Spatial Clustering of Applications with … HDBSCAN olvasásának folytatása

Robusztosság – statisztika alapok

Aki már végzet bármiféle statisztikái elemzést vagy foglalkozott gépi tanulással, az tudja, hogy a valós adatok gyakran tartalmaznak olyan adatokat, amik szokatlanul távol esnek a megfigyelések átlagától. Ezeket kiugró értékeknek szoktuk nevezni. A mai bejegyzésben megnézzük, milyen probémát tudnak ezek a megfigyelések okozni és mit lehet ezzel kezdeni.