Transformer 1. rész – általános architektúra, adat előkészítés

A mai bejegyzésben megismerkedünk a jelenleg legismertebb számítógépes nyelvészeti modellek közös elődjével, a Transformerrel. Ez a korábban megismert seq2seq+Figyelem modellekből fejlődött ki. Mivel ez az architektúra viszonylag összetett, több részben fogjuk tárgyalni. A mai bejegyzés főleg a kialakulásához vezető utat és az általános felépítését fogja körbejárni.

Figyelem + Seq2seq TensorFlowban – seq2seq 2. rész

Folytatjuk az előző részben elkezdett seq2seq modell tárgyalását. A mai bejegyzés első felében a Figyelem (Attention) mechanizmust vizsgáljuk meg közelebbről. Ezt követően második részben egy seq2seq modellt készítünk TensorFlow segítségével. Figyelem mechanizmus Mint az előző bejegyzésben megtárgyaltuk, a seq2seq modell lehetővé tette számunkra, hogy egy m hosszúságú sorozatból egy másmilyen n hosszúságú sorozatot állítsunk elő. … Figyelem + Seq2seq TensorFlowban – seq2seq 2. rész olvasásának folytatása