Korábban már volt szó néhány, a Neurális Hálózatokat érintő problémáról, mint a túlillesztés, vagy az eltűnő gradient. Mai bejegyzésemben egy újabb problémáról fogok beszélni.
A túlillesztéses kapcsolatban említettem, hogy minél több rétegből épül fel egy NH, annál összetettebb modelleket képes előállítani. Ennek egyik következménye, hogy olyan esetekben is összefüggést vél felfedezni, ahol nincsenek. Ezt a fajta hibát szerencsére jól lehet mérni a teszt- adatokkal.
Tegyük fel, hogy van két hálózatunk, A és B. Legyen A egy n rétegből álló rendszer, amit sikeresen tanítottunk, és nem szenved a túlillesztés problémájától. Készítsünk egy másolatot erről a hálózatról és adjunk hozzá még m réteget, aminek a szerkezete megegyezik az A utolsó rétegével. Ez legyen a B hálózat. A B rendszernek megfelelően n+m rétege van.
Logikusnak tűnik az a feltételezés, hogy a B teljesítménye a tréning adatokon nem rosszabb mint az A-é. Vegyük észre, hogy itt nem a teszt adatokról beszélünk, mint a túlillesztésnél! Ha A-t sikeresen tanítottuk, akkor az újabb rétegek a B-ben csak további dimenziókat adna lehetséges összefüggések találására. Mivel az új rétegek szerkezete megegyezik az A utolsó rétegével, a legrosszabb esetben azt feltételezzük, hogy ezek a rétegek maximum nem fognak munkát végezni. Vagyis módosítás nélkül továbbadják az A hálózat eredményét. Ha tényleg ez a legrosszabb eset, akkor a B hálózat eredménye minimum olyan jó a tréning adatokon mint az A rendszeré.
Sajnos gyakorlati példák mutatják, hogy ez nem igaz. Ez a Degradációs probléma. Azért degradációs, mert a rétegszám növelésével lassan csökken a tréning hatékonysága. A rétegek számának növelése valamilyen, eddig nem ismert okból bizonyos esetekben a tréning adatok elsajátítása ellen dolgozik. Ami probléma, mert összetettebb feladatok megoldására kézenfekvő megoldanak tűnik növelni a rétegszámot, de a jelek szerint ez nem feltétlenül jó ötlet.
Vannak kísérletek a probléma megkerülésére, mint például a Residual tanulás, de ezek inkább tüneti kezelésnek látszanak számomra.
Irodalom
- K. He, X. Zhang, S. Ren és J. Sun: Deep Residual Learning for Image Recognition
- Kaiming He és Jian Sun: Convolutional Neural Networks at Constrained Time Cost
- R. K. Srivastava, K. Greff és J. Schmidhuber: Highway Networks