A mai bejegyzésben folytatom a RAG témakörét, és miután betöltöttük a szöveget a vektoradatbázisba, most megnézzük, hogyan találhatjuk meg a legrelevánsabbat. Megismerjük, mi a BM25, a Rouge-L és a hibrid keresés. A bejegyzésben a Milvus rendszert fogjuk használni, de a lényeges pontok könnyen átültethetők más adatbázisokra is.
Címke: Natural Language Processing
Szöveg darabolása – RAG adatelőkészítés
A mai bejegyzésben a Keresésalapú Szöveggenerálásnál (RAG) maradunk, de ezúttal a nagyobb szövegek darabolásáról lesz szó. Az előző írásomban kifejtettem, miért érdemes a szövegeket darabolni. Bemutattam a „tű a szénakazalban” tesztet, valamint azt is, hogy a hosszabb szövegek feldolgozása nagyobb erőforrásokat igényel. A mostani bejegyzés inkább gyakorlati megközelítést kínál, és különböző darabolási eljárásokat ismertet.
Transformer 1. rész – általános architektúra, adat előkészítés
A mai bejegyzésben megismerkedünk a jelenleg legismertebb számítógépes nyelvészeti modellek közös elődjével, a Transformerrel. Ez a korábban megismert seq2seq+Figyelem modellekből fejlődött ki. Mivel ez az architektúra viszonylag összetett, több részben fogjuk tárgyalni. A mai bejegyzés főleg a kialakulásához vezető utat és az általános felépítését fogja körbejárni.
Megerősitett Tanulás Emberi Visszajelzésből (Reinforcement Learning from Human Feedback)
A mai bejegyzésben egy igen népszerű témához kapcsolódunk: a Nagy Nyelvi Modellekhez (Large Language Models). Egy átlagos ember számára valószínűleg a ChatGPT 3.5 megjelenése volt 2022 legnagyobb mesterséges intelligenciával kapcsolatos híre. Ebben a bejegyzésben elemezzük, hogy miben lépet előre a 3.5 modell a ChatGPT 3-hoz képest. ChatGPT A ChatGPT megjelenésével egyértelműen a figyelem középpontjába kerültek … Megerősitett Tanulás Emberi Visszajelzésből (Reinforcement Learning from Human Feedback) olvasásának folytatása
doc2vec
Egy korábbi bejegyzésünkben megnismertünk egy Neurális Hálózaton alapuló számítógépes nyelvészeti eljárást a word2vec-et. Ma ennek egy egyenesági leszármazotját fogjuk górcső alá venni, a “doc2vec”-et.
Word2vec
Egy korábbi bejegyzésben megnéztük, hogy néz ki a Szózsák modell a Számítógépes nyelvészet ősmodellje. Mai bejegyzésünkbe egy modernebb eljárással fogunk megismerkedni, az ún. word2vec-el. Ami Neurális Hálózatok segítségével old meg, végez számítógépes nyelvészeti feladatokat.
Szózsák modell normalizálása
Egy korábbi bejegyzésben már átnéztük a szózsák modellt (bag-of-words), és annak problémáit. A mai bejegyzésben megnézzük, mit lehet tenni azért, hogy a szótár méretét csökkentsük és javítsuk a vektorizálás teljesítményét.
Szózsákmodell (Bag-of-words)
Ebben a bejegyzésben átnézzük a legalapvetőbb számítógépes nyelvészeti (Natural Language Processing, NLP) eljárást, az úgynevezett szózsákmodellt (bag-of-words).






