Neyman randomizált, kontrollált vizsgálatot — statisztikai alapok

Az előző részben bemutattam, a kontrollált vizsgálat alapjait, és eljutottunk annak felismeréséig, hogy az Átlagos Kezelési Hatás naiv alkalmazása teljesen rossz eredményt produkálhat bizonyos esetekben. Azután megnéztük Fisher módszerét a probléma megkerülésére. A mai bejegyzésben megnézzük, hogy mit tehetünk ha nem akarjuk megkerülni a problémát.

Jerzy Neymant nem a „sharp” Hulla érdekelte; Fisherrel ellentétben; hanem az „Átlagos Kezelési Hatás”. Viszont azt állítani, hogy a kezelésnek általában nincs hatása sokkal gyengébb állítás, mint azt állítani, hogy egy esetben sincs. Könnyen előfordulhat olyan eset, hogy egyes esetekben javít, másokban ront a kezelés az eredeti állapoton.

Ennek megfelelően Neyman Null hipotézis:

(1) $H_0: \tau_{FP} = 0$

Ahol:

$\tau_{FP}$ — az ATE, később kiderül miért használok másfajta jelölést itt

Az ATE számítása egyszerű. A bonyolultabb kérdés a konfidencia intervallum számítás. Magyarul menyire vagyunk biztosak a számított Átlagos Kezelési Hatás értékében? Értelemszerűen ehhez pedig annak a szórását kell kiszámolnunk.

Neyman esetében volt még egy fontos eltérés Fishertől. Őt nem az aktuális csoportra vonatkozó hatás érdekelte, hanem az “univerzális”. Vagyis az a kezelési hatás ami mindenkire, azokra is akik nem kerültek be a vizsgálatba, is vonatkozik. Ennek megfelelően a mintavételt is eltérően közelítette meg. Számára ez csak a “szuper-populáció” része. Ennek a szuper-populációnak a ATE-ját jelöljük $\tau_{SP}$ . Ez lényegében az az Átlagos Kezelési Hatás, amit akkor kapnánk, ha a szuper-populációnak minden egyes tagját megmérnénk. Persze ez nem lehetséges, ezért szükséges megkülönböztetni a mintavételből számolt ATE-től, a $\tau_{FP}$ -tól.

Ha ebből a szempontból tekintünk az Átlagos Kezelési Hatásra, és emlékszünk a Centrális határeloszlás-tételre akkor, senki nem fog meglepődni ha azt mondom, aszimptotikusan a $\tau_{FP}$ a $\tau_{SP}$ -hoz tart. Az eltérés eloszlása pedig egy normál eloszlás lesz, aminek az átlaga 0, a varianciája pedig:

(2) $Var_{FP}(y_1-y_o) = \frac{Var_{SP}(Y(1)-Y(0))}{n}$

Ahol:

$y_1$ — az minta teszt értéke
$y_0$ — az minta kontroll értéke
$Y(1)$ — a szuper-populáció teszt értéke
$Y(0)$ — a szuper-populáció kontroll értéke

Amit átírhatunk így:

(3) $Var_{FP}(y_1-y_o) = Var\left(Y(1) \right)+Var\left(Y(0)\right)+2\cdot Cov\left( Y(1), Y(0) \right)$

Ebből az első két rész becslése elég egyszerű: behelyettesítjük a mintából számolt értékeket. A kérdés mi a harmadik rész? 0 a null hipotézis alapján.

A fentiek alapján, néhány átalakítás után Neyman eljutott addig, hogy a ATE varianciája a mintában:

(4) $Var_{FP} (y_1-y_o) = \frac{Var(Y(0))}{n-m}+\frac{Var(Y(1))}{m}$

Ahol:

$n$ — az összes mintanagyság, vagyis teszt és kontroll csoport összesen
$m$ — a teszt csoport nagysága

Itt már csak az a probléma, hogy nem ismerjük a szuper-populáció szórásait. De Slotsky alapján ezt behelyettesítjük a mintából becsült értékekkel. Így a Null hipotézis alatt becsült varianciánk így alakul:

(5) $Var_{FP} (y_1-y_o) = \frac{Var(y_0)}{n-m}+\frac{Var(y_1)}{m}$

Ezzel lényegében meg is oldottuk a Null hipotézis tesztelését. Tudjuk mi az elvárt értéke, az ATE, és tudjuk annak a varianciáját, amit az (5) add meg. Mikor fogjuk elutasítani a null hipotézist? Ha a 0 érték az $\alpha$ szignifikációs szinten kívül helyezkedik el.

Maradva az előző részben említett példánál számoljunk egy kicsit:

(6) $\tau_{FP} = \bar{y_1} - \bar{y_0} = 79-81= -2$

(7) $Var(y_1) = \frac{ (80-79)^2+(75-79)^2 +(85-79)^2 +(76-79)^2 }{4} = 15,5$

(8) $Var(y_0) = \frac{ (60-81)^2+(81-81)^2 +(100-81)^2 +(83-81)^2 }{4} =201,5$

(9) $Var_{FP} (y_1-y_o) = \frac{201,5}{8-4}+\frac{15,5}{4} = 54,25$

Tehát a konfidencia intervallum, ha $\alpha$ = 5%:

(10) $s = ATE\pm q_{\alpha}\cdot\sqrt{ Var_{FP} (y_1-y_o) }$

(11) $s = -2\pm 1,96\cdot\sqrt{ 54,25 } \approx [-16,436 ; 12,436]$

Elutasíthatjuk ez alapján a Null hipotézist? Nem. Vagyis nincs elég bizonyítunk arra nézve, hogy az Átlagos Kezelési hatás nem 0. Ha akarjuk a p értéket is kiszámíthatjuk hozzá:

(12) $p = 2\cdot\left(1- \Phi \left( \left| \frac{\tau_{FP}}{\sqrt{( Var_{FP} (y_1-y_o) )}} \right| \right)\right)$

(13) $p \approx 2\cdot(1-\Phi(0.2715)) \approx 2\cdot(1-0.607 ) \approx 0.786$

Ez elég távol van az áhított 0.05-től.

Irodalom

Imbens és Rubin: Causal Inference for Statistics, Social, and Biomedical Sciences — Neyman’s Repeated Sampling Perspectivein Completely Randomized Experiments

Neyman randomizált, kontrollált vizsgálatot — statisztikai alapok

Irodalom

Közzétéve: sajzsoltattila

“Neyman randomizált, kontrollált vizsgálatot — statisztikai alapok” bejegyzéshez egy hozzászólás

Hozzászólás Kilépés a válaszból

Irodalom

Megosztás:

Kapcsolódó bejegyzések

Közzétéve: sajzsoltattila

“Neyman randomizált, kontrollált vizsgálatot — statisztikai alapok” bejegyzéshez egy hozzászólás

Hozzászólás Kilépés a válaszból