Neyman randomizált, kontrollált vizsgálatot — statisztikai alapok

Az előző részben bemutattam, a kontrollált vizsgálat alapjait, és eljutottunk annak felismeréséig, hogy az Átlagos Kezelési Hatás naiv alkalmazása teljesen rossz eredményt produkálhat bizonyos esetekben. Azután megnéztük Fisher módszerét a probléma megkerülésére. A mai bejegyzésben megnézzük, hogy mit tehetünk ha nem akarjuk megkerülni a problémát.


Jerzy Neymant nem a „sharp” Hulla érdekelte; Fisherrel ellentétben; hanem az „Átlagos Kezelési Hatás”. Viszont azt állítani, hogy a kezelésnek általában nincs hatása sokkal gyengébb állítás, mint azt állítani, hogy egy esetben sincs. Könnyen előfordulhat olyan eset, hogy egyes esetekben javít, másokban ront a kezelés az eredeti állapoton.

Ennek megfelelően Neyman Null hipotézis:

(1)  H_0:   \tau_{FP} =  0

Ahol:

  • \tau_{FP} — az ATE, később kiderül miért használok másfajta jelölést itt

Az ATE számítása egyszerű. A bonyolultabb kérdés a konfidencia intervallum számítás. Magyarul menyire vagyunk biztosak a számított Átlagos Kezelési Hatás értékében? Értelemszerűen ehhez pedig annak a szórását kell kiszámolnunk.

Neyman esetében volt még egy fontos eltérés Fishertől. Őt nem az aktuális csoportra vonatkozó hatás érdekelte, hanem az “univerzális”. Vagyis az a kezelési hatás ami mindenkire, azokra is akik nem kerültek be a vizsgálatba, is vonatkozik. Ennek megfelelően a mintavételt is eltérően közelítette meg. Számára ez csak a “szuper-populáció” része. Ennek a szuper-populációnak a ATE-ját jelöljük \tau_{SP} . Ez lényegében az az Átlagos Kezelési Hatás, amit akkor kapnánk, ha a szuper-populációnak minden egyes tagját megmérnénk. Persze ez nem lehetséges, ezért szükséges megkülönböztetni a mintavételből számolt ATE-től, a \tau_{FP} -tól.

Ha ebből a szempontból tekintünk az Átlagos Kezelési Hatásra, és emlékszünk a Centrális határeloszlás-tételre akkor, senki nem fog meglepődni ha azt mondom, aszimptotikusan a \tau_{FP} a \tau_{SP} -hoz tart. Az eltérés eloszlása pedig egy normál eloszlás lesz, aminek az átlaga 0, a varianciája pedig:

(2)  Var_{FP}(y_1-y_o) =  \frac{Var_{SP}(Y(1)-Y(0))}{n}

Ahol:

  • y_1 — az minta teszt értéke
  • y_0 — az minta kontroll értéke
  • Y(1)  — a szuper-populáció teszt értéke
  • Y(0)  — a szuper-populáció kontroll értéke

Amit átírhatunk így:

(3)  Var_{FP}(y_1-y_o)   = Var\left(Y(1) \right)+Var\left(Y(0)\right)+2\cdot Cov\left( Y(1), Y(0) \right)

Ebből az első két rész becslése elég egyszerű: behelyettesítjük a mintából számolt értékeket. A kérdés mi a harmadik rész? 0 a null hipotézis alapján.

A fentiek alapján, néhány átalakítás után Neyman eljutott addig, hogy a ATE varianciája a mintában:

(4)  Var_{FP} (y_1-y_o)  = \frac{Var(Y(0))}{n-m}+\frac{Var(Y(1))}{m}

Ahol:

  • n — az összes mintanagyság, vagyis teszt és kontroll csoport összesen
  • m — a teszt csoport nagysága

Itt már csak az a probléma, hogy nem ismerjük a szuper-populáció szórásait. De Slotsky alapján ezt behelyettesítjük a mintából becsült értékekkel. Így a Null hipotézis alatt becsült varianciánk így alakul:

(5)  Var_{FP} (y_1-y_o)  = \frac{Var(y_0)}{n-m}+\frac{Var(y_1)}{m}

Ezzel lényegében meg is oldottuk a Null hipotézis tesztelését. Tudjuk mi az elvárt értéke, az ATE, és tudjuk annak a varianciáját, amit az (5) add meg. Mikor fogjuk elutasítani a null hipotézist? Ha a 0 érték az \alpha szignifikációs szinten kívül helyezkedik el.

Maradva az előző részben említett példánál számoljunk egy kicsit:

(6)  \tau_{FP}   =  \bar{y_1}  -  \bar{y_0} = 79-81=  -2

(7)  Var(y_1)   =  \frac{ (80-79)^2+(75-79)^2 +(85-79)^2  +(76-79)^2 }{4} = 15,5

(8)  Var(y_0)   =  \frac{ (60-81)^2+(81-81)^2 +(100-81)^2  +(83-81)^2 }{4} =201,5

(9)  Var_{FP} (y_1-y_o)  = \frac{201,5}{8-4}+\frac{15,5}{4} = 54,25

Tehát a konfidencia intervallum, ha \alpha = 5%:

(10)  s = ATE\pm q_{\alpha}\cdot\sqrt{ Var_{FP} (y_1-y_o)  }

(11)  s = -2\pm 1,96\cdot\sqrt{  54,25  }  \approx  [-16,436 ;  12,436]

Elutasíthatjuk ez alapján a Null hipotézist? Nem. Vagyis nincs elég bizonyítunk arra nézve, hogy az Átlagos Kezelési hatás nem 0. Ha akarjuk a p értéket is kiszámíthatjuk hozzá:

(12)  p = 2\cdot\left(1- \Phi \left(  \left|  \frac{\tau_{FP}}{\sqrt{( Var_{FP} (y_1-y_o) )}} \right| \right)\right)

(13)  p  \approx  2\cdot(1-\Phi(0.2715))  \approx   2\cdot(1-0.607 )  \approx  0.786

Ez elég távol van az áhított 0.05-től.

Irodalom

Hírdetés

Neyman randomizált, kontrollált vizsgálatot — statisztikai alapok” bejegyzéshez egy hozzászólás

Vélemény, hozzászólás?

Adatok megadása vagy bejelentkezés valamelyik ikonnal:

WordPress.com Logo

Hozzászólhat a WordPress.com felhasználói fiók használatával. Kilépés /  Módosítás )

Facebook kép

Hozzászólhat a Facebook felhasználói fiók használatával. Kilépés /  Módosítás )

Kapcsolódás: %s