Mesterséges kontroll csoport

A randomizált, kontroll vizsgálatról szóló bejegyzésben már találkoztunk azzal a problémával, hogy ideális esetben ugyanazon a kísérleti alanyon szeretnénk megvizsgálni a kezelés hatását és a kezelés hiányának következményeit. Ez persze lehetetlen, de a randomizált kontroll csoport létrehozása általában segít ebben a problémában. A mai bejegyzésben viszont egy olyan esetet fogunk megnézni, amikor nem lehet kontroll csoportot ténylegesen létrehozni.


Szóval van egy kezelésünk, amikor nem lehet létrehozni kontroll csoportot. Mi a teendő ilyenkor? Gondolom a cím elolvasása után nem árulok el titkot, ha azt mondom, hogy nekünk kell valahogy mesterségesen létrehoznunk egy fiktív kontroll csoportot.

Mikkor lehet erre szükségünk? Lényegében minden olyan eset ide tartozik, amikor a kezelést egy egyedi tulajdonságokkal rendelkező csoporton hajtjuk végre. Sok ilyen csoport létezik? Kb. végtelen mennyiségű. Én például minden egyes földrajzi terület vizsgálatát ide sorolnám. A következőkben is egy ilyen problémán keresztül fogom bemutatni, mit tehetünk ilyenkor.

2003-ban Alberto Abadie, és Javier Gardeazabal publikált egy kutatást az ETA Baszkföldi tevékenységének gazdasági hatásairól. A téma azért érdekes nekünk, mert Abadie a legismertebb alkalmazója a Mesterséges kontroll csoportnak ( angolul: Synthetic control method), amiről ez a bejegyzés szól.

A módszer lényege, hogy ha nincs kontroll csoportunk, akkor egyszerűen fogunk egy rakás más megfigyelést, amiről feltételezzük, hogy hasonló trendet követ, mint a tesztcsoport, és azokból szimuláljuk a kezelés elmaradásának hatását.

Ez talán így nem olyan egyértelmű elsőre, de egy példán keresztül gyorsan világos lesz. A fent említett kutatás témája ugye az ETA működésének gazdasági hatása Baszkföldre. A gond az, hogy Baszkföldből csak egy darab van. Tehát nem lehetséges, hogy adatot gyűjtsünk egy olyan esetről amikor az ETA nem fejtette ki a tevékenységét. Hogy megoldjuk ezt a problémát, valahogy elő kellene állítanunk azt az elszalasztott történelmi lehetőséget, amit Baszkföld befutott volna, ha a szervezet nem jött volna létre.

Kézenfekvő gondolat, hogy mi lenne ha a szomszédos régiókkal hasonlítanánk össze Baszkföld fejlődését. Végül is valószinüleg hasonló az emberek mentalitása, hasonló a gazdasági struktúra stb. Ez feltevés a Mesterséges kontroll csoport alapja. Vagyis feltételezzük, hogy vannak olyan egyedek, amik megfigyeléséből következtethetünk a vizsgált entitás kezelés nélküli állapotára.

Rendben de melyik konkrét szomszéddal hasonlítsuk össze? És hogy számszerűsítsük a különbséget? És, hogy jelenik meg ebben a kezelés (ez esetben az ETA tevékenysége) és más sajátos tulajdonságok hatása?

Az első kérdést a Mesterséges kontroll csoport megkerüli. Ahelyett, hogy egyetlen szomszéddal hasonítaná össze a kezelt egyedet, az összes szomszédról készít egyetlen mesterséges entitást. Lényegében fogjuk az egyes szomszédokat és súlyozzuk őket annak megfelelően, hogy menyire segítenek nekünk megjósolni a kezelés nélküli állapotot. Persze itt van egy probléma: nem ismerjük a kezelés nélküli állapotát.

Ezt úgy lehet feloldani, hogy adatot gyűjtünk a kezelés előtti állapotról mind a teszt, mind a kontroll csoportoknál, és az adott szomszédok súlyait ezen adatok alapján számítjuk.

Baszkföld esetében ez a következőt jelenti: Az ETA létrejötte utáni Baszkföldi adatokon kívül még szükségünk van Baszkföld és a szomszédos régiók korábbi adataira.1

A konkrét példánk esetén abban a szerencsés helyzetben vagyunk, hogy elérhetők2 a kutatásban használt adatok. Abadiék az összes többi Spanyol régió adatainak felhasználásával hozták létre a szimulált Baszkföldjüket.

Nézzük, hogy változott a GDP/fő értéke a Spanyol régiókban:

Első ránézésre ezek az adatok elégé együtt mozognak, tehát jogosnak tűnik a feltételezés, hogy a többi spanyol régió felhasználásával következtetést vonhatunk le Baszkföldre.

A következő lépésben azt kell kiszámolnunk, hogy az egyes régiók menyire segítenek nekünk a hipotetikus País Vasco (baszk nyelven) előállításában. Ehhez vezessük be néhány jelölést.

Először is jelöljük a megfigyelt egyedeket j-vel. A j = 1 legyen a teszt csoport, és legyen J számú egyed a kontroll csoportban. Vagyis összesen J+1 egyedünk van.3 A példánk esetében ezek a régiók.

A különböző egyedek párhuzamos megfigyelései helyezkedjenek el a T, tengelyen. Esetünkben ez az évek a fenti ábrán. Ez a T két részre osztható, T_0-ra ami a kezelés megkezdése előtti period, és a T_1-re ami a kezelés utáni. A T_0 legyen k hosszúságú. Esetünkben T_0 az első ETA merénylet (1968) előtti időszak, a T_1 pedig az utáni.

A fentiekből a mindent ismerünk, kivéve a j=1 egyed T_1 értékeit. Ezt szeretnénk előállítani a Mesterséges kontroll segítségével. Amit feltételezünk, hogy létezik egy olyan súlyozása a kontroll csoportban szereplő egyedeknek, ami segítségével ki tudjuk számítani ezeket a hiányzó adatokat.

Jelöljük ezt a feltételezett súlyt W-vel. Ez egy J elemű vektor lesz, ami minden elemére igaz, hogy nagyobb mint nulla de kisebb mint 1. Azt szintén tudjuk, hogy az elemek összege egy. Vagyis: w_2 + \hdots + w_{J+1}= 1 .

Legyen X_1 a teszt csoport T_0-ban megfigyelt értékei, az X_0 pedig legyen a kontroll csoport azonos időszakban észlelt értékei.

Ebben az estben végső soron egy optimalizációs problémával állunk szemben, ahol azt a W értékeket keressük amik minimalizálják a következő egyenletet:

(1)  (X_1-X_o\cdot W)

Értelemszerűen az (1) a W értének változtatásával tudjuk minimalizálni. Jelöljük a minimumnál felvett súly értékét W^{*} . Ezt az egyenletet bármiféle Loss függvényel minimalizálhatjuk, Abadiék a következőt választották:

(2)  W^{*} = \text{argmin}_{W \in } \sum_{m=1}^k v_m   (X_{1,m}-X_{o,m}\cdot W)^2

Ez egy egyszerű négyzetes hiba, az egyetlen említésre méltó része a v_m. Ez a relatív fontossága az m-ik tulajdonságnak. Ennek bevezetésével lehetségesé válik, hogy több típusú megfigyelést használjunk a kereset tulajdonság modellezésére.

Innen már csak vesszük a kedvenc optimalizációs megoldásunkat és megkeressük a W^{*}

Konkrét megvalósítás R-ben

A Synth R csomag a barátunk R-ben. A csomag dokumentációjában megtaláljuk a teljes kódot a fenti Baszkföldi kutatásra, így ezt nem is részletezném. Inkább nézzük meg egy kicsit az eredményt.

A W^{*} becslése:

Regió W^{*}
Andalucia 3.913707e-08
Aragon 4.573668e-08
Principado De Asturias 1.376002e-07
Baleares (Islas) 2.026357e-08
Canarias 4.257190e-08
Cantabria 7.925261e-07
Castilla Y Leon 4.539034e-08
Castilla-La Mancha 7.023411e-08
Cataluna 8.508741e-01
Comunidad Valenciana 2.372505e-07
Extremadura 2.938383e-08
Galicia 8.990725e-08
Madrid (Comunidad De) 1.491241e-01
Murcia (Region de) 5.040611e-08
Navarra (Comunidad Foral De) 9.780144e-08
Rioja (La) 1.280413e-07

Katalónia (súlya 0.8509) és Madridi (súlya 0.1491 ) segítségével szinte teljesen elő lehet állítani a Mesterséges kontroll csoportot.

Nézzük a v_m-t. A Synth szerint az optimális értékek:

Tulajdonság v_m
írástudatlan lakosság aránya 0.00490095078162122
legmagasabb iskola végzettség: általános 0.0152713020843237
legmagasabb iskola végzettség: félbeszakadt középfokú 0.0493686244822733
legmagasabb iskola végzettség: befejezett középfokú 0.0612985610395788
Beruhazás/GDP 0.00215387949787079
GDP/fő 0.191110046634661
mezőgazdaság részaránya a GDP-ben 0.0892283862112547
energiaszektor részaránya a GDP-ben 0.000773890806750104
ipar részaránya a GDP-ben 0.104842327742945
építőipar részaránya a GDP-ben 0.0171444929489588
vendéglátás részaránya a GDP-ben 0.0241551993170901
nem vendéglátás kategóriájú szolgáltatás a GDP-ben 0.107273407765652
népsűrűség 0.332478930687021

Végül lássuk az Mesterséges kontroll csoport és a teszt csoport ábrázolva:

Menyire bízhatunk meg ebben az eredményben? Abadiék a Synth szóló cikkben, lsd. Irodalom 2), egy placebo tesztet ajánlanak ennek eldöntésére. Magyarul készítsünk hasonló Mesterséges kontroll csoportot olyan régiókról, amiben a kezelés nem valósult meg. Esetünkben egy olyan tartományról, amiben az ETA nem volt aktív. Ezt megtehetjük az összes régióval és megnézhetjük, hogy a Baszkföldnél tapasztalt különbség a teszt és a kontroll csoport között mennyire kiugró.

Nekem ezzel annyi problémám van, hogy nehéz számszerűsíteni.

Végszó

Nagyából ennyi lenne a Mesterséges kontrol csoport előállítása. Jó módszer arra, hogy megbecsüljük a legvalószínűbb alternatív történelmet kezelés nélkül. Bizonyos kutatások esetén jól jöhet, ugyanakkor nehéz számszerűsíteni az előállított kontroll csoport megbízhatóságát.

Lábjegyzet

  1. Persze ez jelentősen leszűkíti a kutatási lehetőségeinket: semmi olyan kérdést nem vizsgálhatunk, amiről korábban nem gyűjtöttek adatokat.
  2. A Synth R csomag forrásában.
  3. Személy szerint borzalmasnak tartom ezt a J+1-es jelölést. De a legtöbb irodalom így használja, így nem akartam megkavarni az olvasót, ha összeveti ezt az írást más forrásokkal.

Irodalom

  1. Abadie, Alberto; Diamond, Alexis; Hainmueller, Jens (February 2015). “Comparative Politics and the Synthetic Control Method”. American Journal of Political Science. 59 (2): 495–510. doi:10.1111/ajps.12116
  2. Alberto Abadie, Alexis Diamond, Jens Hainmueller — Synth: An R Package for Synthetic Control Methods in Comparative Case Studies

Hírdetés

Vélemény, hozzászólás?

Adatok megadása vagy bejelentkezés valamelyik ikonnal:

WordPress.com Logo

Hozzászólhat a WordPress.com felhasználói fiók használatával. Kilépés /  Módosítás )

Twitter kép

Hozzászólhat a Twitter felhasználói fiók használatával. Kilépés /  Módosítás )

Facebook kép

Hozzászólhat a Facebook felhasználói fiók használatával. Kilépés /  Módosítás )

Kapcsolódás: %s