Logisztikus regresszió 1. rész — modell készítése

A mai bejegyzésben egy népszerű osztályozó modellt fogunk megismerni. Alapesetben két csoport modellezésére szokták használni, de ki lehet terjeszteni több csoportra is. A logisztikai regressziót már említettem korábban a ROC görbe alatti területről szóló bejegyzés során. Ott elhangzott, hogy a kimenete annak a valószínűsége, hogy egy megfigyelés egyik vagy másik csoportba tartozik e. Hogy megértsük … Logisztikus regresszió 1. rész — modell készítése olvasásának folytatása

Hírdetés

Lineáris modell determinációs együttható — statisztika alapok

A mai bejegyzésben körbejárjuk, hogyan tudjuk eldönteni két lineáris modell közül melyik a jobb. A Loss fügvényről szóló bejegyzésben már megemlítettük, hogy készítünk egyetlen lineáris modellt: Kipróbálunk egy rakás lineáris modellt, és a végén az kerül kiválasztásra, aminél a loss függvény eredménye a legkisebb. Ez a modell lesz az adott függő és független változók esetén … Lineáris modell determinációs együttható — statisztika alapok olvasásának folytatása

Valószínűségi fa — statisztikai alapok

A mai bejegyzésben egy egyszerű valószínűségi számításban használt ábrázolással ismerkedünk meg. Valószínűségi fa In medias res, kezdjük egy példával, hogyan is néz ki egy valószínűségi fa. Legyen egy érménk és dobjuk fel, a lehetséges eredményt így ábrázolhatjuk valószínűségi fával: A fenti ábra igazság szerint csak egy irányított körmentes gráf. Vagyis egyetlen egy irányba haladhatunk az … Valószínűségi fa — statisztikai alapok olvasásának folytatása

Auto ARIMA Pythonban

A mai bejegyzésben egy idősorokon gyakran használt modellt fogunk megismerni: az AutoRegressive Integrated Moving Average-t (ARIMA) ARIMA Az ARIMA három részből épül fel: AR: Autoregression -- ebben a részben autoregressziót végzünk az idősorunkon. I: Integrated -- deriválás ellentéte ebben az esetben MA: Moving Average -- ebben a részben egy mozgó átlaggal számolt modell hibáját használjuk … Auto ARIMA Pythonban olvasásának folytatása

Cenzúrázott és csonkított Gaussian eloszlások Bayesian paraméterbecslése

A Gaussian eloszlás az egyik leggyakrabban szembejövő eloszlás a gyakorlati életben. Sajnos bizonyos esetekben a mintavételünk torzított ( jellemzően a farok tartományokban ) és ezért a paraméterbecslésünk nehéz lehet. A mai bejegyzésben két ilyen torzítást fogunk körbejárni: a cenzúrázást és a csonkítást. Cenzúrázott Gaussian eloszlás Cenzúrázott adatokról akkor beszélünk, ha a megfigyeléseink bizonyos értékhatár alatt … Cenzúrázott és csonkított Gaussian eloszlások Bayesian paraméterbecslése olvasásának folytatása

Két kevert Gaussian eloszlás paraméterbecslése — Momentumok módszerével

A mai bejegyzés egy statisztikatörténeti szempontból fontos cikkel fog foglalkozni. Mi történik, ha a megfigyelésünk nem egy populációból, hanem két populáció keverékéből származik. Ez a kérdés foglalkoztatta Karl Pearson-t a XIX. század végén. Megoldása áttörést hozott a statisztikában és elterjesztette a Momentumok módszerét. 1892-ben Walter Frank Raphael Weldon Cambridge-i biológus és felesége húsvéti vakációra utaztak … Két kevert Gaussian eloszlás paraméterbecslése — Momentumok módszerével olvasásának folytatása

Főkomponens-analízis

Mai bejegyzésünkben egy nagyon elterjedt dimenziócsökkentő eljárást fogunk megismerni, a Főkomponens-analízist (angolul: Principal component analysis). A bejegyzés Lantos Gábor közreműködésével született. Gábor írt a főkomponens analízis felhasználói oldaláról a saját oldalán, én pedig a háttérben levő matematikai alapokat tárgyalom itt.

Mesterséges kontroll csoport

A randomizált, kontroll vizsgálatról szóló bejegyzésben már találkoztunk azzal a problémával, hogy ideális esetben ugyanazon a kísérleti alanyon szeretnénk megvizsgálni a kezelés hatását és a kezelés hiányának következményeit. Ez persze lehetetlen, de a randomizált kontroll csoport létrehozása általában segít ebben a problémában. A mai bejegyzésben viszont egy olyan esetet fogunk megnézni, amikor nem lehet kontroll … Mesterséges kontroll csoport olvasásának folytatása

Neyman randomizált, kontrollált vizsgálatot — statisztikai alapok

Az előző részben bemutattam, a kontrollált vizsgálat alapjait, és eljutottunk annak felismeréséig, hogy az Átlagos Kezelési Hatás naiv alkalmazása teljesen rossz eredményt produkálhat bizonyos esetekben. Azután megnéztük Fisher módszerét a probléma megkerülésére. A mai bejegyzésben megnézzük, hogy mit tehetünk ha nem akarjuk megkerülni a problémát. Jerzy Neymant nem a „sharp” Hulla érdekelte; Fisherrel ellentétben; hanem … Neyman randomizált, kontrollált vizsgálatot — statisztikai alapok olvasásának folytatása