Döntési fa

A valószínűségi fa tipikusan statisztikai megközelítése a problémáknak. Építünk egy modellt, ismerjük az eloszlásokat és az ezeknek megfelelő valószínűségeket. De mi van , ha ez nem igaz? Ha csak megfigyeléseink vannak, akkor ismerjük, hogy mi volt a bemenet, és mi lett az eredmény de az utat, a valószínűségi fát nem. Ekkor megpróbálhatjuk az egész folyamatot … Döntési fa olvasásának folytatása →

Valószínűségi fa — statisztikai alapok

A mai bejegyzésben egy egyszerű valószínűségi számításban használt ábrázolással ismerkedünk meg. Valószínűségi fa In medias res, kezdjük egy példával, hogyan is néz ki egy valószínűségi fa. Legyen egy érménk és dobjuk fel, a lehetséges eredményt így ábrázolhatjuk valószínűségi fával: A fenti ábra igazság szerint csak egy irányított körmentes gráf. Vagyis egyetlen egy irányba haladhatunk az … Valószínűségi fa — statisztikai alapok olvasásának folytatása →

Auto ARIMA Pythonban

A mai bejegyzésben egy idősorokon gyakran használt modellt fogunk megismerni: az AutoRegressive Integrated Moving Average-t (ARIMA) ARIMA Az ARIMA három részből épül fel: AR: Autoregression -- ebben a részben autoregressziót végzünk az idősorunkon. I: Integrated -- deriválás ellentéte ebben az esetben MA: Moving Average -- ebben a részben egy mozgó átlaggal számolt modell hibáját használjuk … Auto ARIMA Pythonban olvasásának folytatása →

Cenzúrázott és csonkított Gaussian eloszlások Bayesian paraméterbecslése

A Gaussian eloszlás az egyik leggyakrabban szembejövő eloszlás a gyakorlati életben. Sajnos bizonyos esetekben a mintavételünk torzított ( jellemzően a farok tartományokban ) és ezért a paraméterbecslésünk nehéz lehet. A mai bejegyzésben két ilyen torzítást fogunk körbejárni: a cenzúrázást és a csonkítást. Cenzúrázott Gaussian eloszlás Cenzúrázott adatokról akkor beszélünk, ha a megfigyeléseink bizonyos értékhatár alatt … Cenzúrázott és csonkított Gaussian eloszlások Bayesian paraméterbecslése olvasásának folytatása →

ROC görbe alatti terület

A mai bejegyzésben megismerkedünk egy módszerrel, amivel két osztályos klasszifikáció modellek teljesítményét tudjuk mérni és optimalizálni. Ez a módszer a "ROC görbe alatti terület" (angolul: "Area under the ROC curve"). Klasszikus teljesítménymérés Bár a blogon nem volt téma eddig, de gondolom a legtöbbeknek ismerős az "igazságmátrix" ( angolul: "Confusion_matrix") fogalma. Annak, akiknek mégsem lenne, nagy … ROC görbe alatti terület olvasásának folytatása →

HDBSCAN

A mai bejegyzésben klasztereket fogunk keresni. A blogon korábban már volt szó egy klaszteranalízisre használt eljárásról. Az Elvárás-maximalizáló algoritmus abból a feltételezésből indul ki, hogy az egyes homogén csoportok jól meghatározható eloszlásból származnak. A mai bejegyzésben egy olyan eljárást fogunk megvizsgálni, ami nem ezt feltételezi. Ez lesz a Hierarchical Density-Based Spatial Clustering of Applications with … HDBSCAN olvasásának folytatása →

Robusztosság – statisztika alapok

Aki már végzet bármiféle statisztikái elemzést vagy foglalkozott gépi tanulással, az tudja, hogy a valós adatok gyakran tartalmaznak olyan adatokat, amik szokatlanul távol esnek a megfigyelések átlagától. Ezeket kiugró értékeknek szoktuk nevezni. A mai bejegyzésben megnézzük, milyen probémát tudnak ezek a megfigyelések okozni és mit lehet ezzel kezdeni.

Két kevert Gaussian eloszlás paraméterbecslése — Momentumok módszerével

A mai bejegyzés egy statisztikatörténeti szempontból fontos cikkel fog foglalkozni. Mi történik, ha a megfigyelésünk nem egy populációból, hanem két populáció keverékéből származik. Ez a kérdés foglalkoztatta Karl Pearson-t a XIX. század végén. Megoldása áttörést hozott a statisztikában és elterjesztette a Momentumok módszerét. 1892-ben Walter Frank Raphael Weldon Cambridge-i biológus és felesége húsvéti vakációra utaztak … Két kevert Gaussian eloszlás paraméterbecslése — Momentumok módszerével olvasásának folytatása →

Főkomponens-analízis

Mai bejegyzésünkben egy nagyon elterjedt dimenziócsökkentő eljárást fogunk megismerni, a Főkomponens-analízist (angolul: Principal component analysis). A bejegyzés Lantos Gábor közreműködésével született. Gábor írt a főkomponens analízis felhasználói oldaláról a saját oldalán, én pedig a háttérben levő matematikai alapokat tárgyalom itt.

Keras és szekvenciális tanulás

a.k.a Mit tegyünk hogyan tanítsunk Keras modellt ha az adatok nem férnek a memóriánkba