Keresés vektor adatbázisban (Milvus példákkal)

A mai bejegyzésben folytatom a RAG témakörét, és miután betöltöttük a szöveget a vektoradatbázisba, most megnézzük, hogyan találhatjuk meg a legrelevánsabbat. Megismerjük, mi a BM25, a Rouge-L és a hibrid keresés. A bejegyzésben a Milvus rendszert fogjuk használni, de a lényeges pontok könnyen átültethetők más adatbázisokra is.

Szöveg darabolása – RAG adatelőkészítés

A mai bejegyzésben a Keresésalapú Szöveggenerálásnál (RAG) maradunk, de ezúttal a nagyobb szövegek darabolásáról lesz szó. Az előző írásomban kifejtettem, miért érdemes a szövegeket darabolni. Bemutattam a „tű a szénakazalban” tesztet, valamint azt is, hogy a hosszabb szövegek feldolgozása nagyobb erőforrásokat igényel. A mostani bejegyzés inkább gyakorlati megközelítést kínál, és különböző darabolási eljárásokat ismertet.

Transformer 1. rész – általános architektúra, adat előkészítés

A mai bejegyzésben megismerkedünk a jelenleg legismertebb számítógépes nyelvészeti modellek közös elődjével, a Transformerrel. Ez a korábban megismert seq2seq+Figyelem modellekből fejlődött ki. Mivel ez az architektúra viszonylag összetett, több részben fogjuk tárgyalni. A mai bejegyzés főleg a kialakulásához vezető utat és az általános felépítését fogja körbejárni.

Megerősitett Tanulás Emberi Visszajelzésből (Reinforcement Learning from Human Feedback)

A mai bejegyzésben egy igen népszerű témához kapcsolódunk: a Nagy Nyelvi Modellekhez (Large Language Models). Egy átlagos ember számára valószínűleg a ChatGPT 3.5 megjelenése volt 2022 legnagyobb mesterséges intelligenciával kapcsolatos híre. Ebben a bejegyzésben elemezzük, hogy miben lépet előre a 3.5 modell a ChatGPT 3-hoz képest. ChatGPT A ChatGPT megjelenésével egyértelműen a figyelem középpontjába kerültek … Megerősitett Tanulás Emberi Visszajelzésből (Reinforcement Learning from Human Feedback) olvasásának folytatása →

doc2vec

Egy korábbi bejegyzésünkben megnismertünk egy Neurális Hálózaton alapuló számítógépes nyelvészeti eljárást a word2vec-et. Ma ennek egy egyenesági leszármazotját fogjuk górcső alá venni, a “doc2vec”-et.

Word2vec

Egy korábbi bejegyzésben megnéztük, hogy néz ki a Szózsák modell a Számítógépes nyelvészet ősmodellje. Mai bejegyzésünkbe egy modernebb eljárással fogunk megismerkedni, az ún. word2vec-el. Ami Neurális Hálózatok segítségével old meg, végez számítógépes nyelvészeti feladatokat.

Szózsák modell normalizálása

Egy korábbi bejegyzésben már átnéztük a szózsák modellt (bag-of-words), és annak problémáit. A mai bejegyzésben megnézzük, mit lehet tenni azért, hogy a szótár méretét csökkentsük és javítsuk a vektorizálás teljesítményét.

Szózsákmodell (Bag-of-words)

Ebben a bejegyzésben átnézzük a legalapvetőbb számítógépes nyelvészeti (Natural Language Processing, NLP) eljárást, az úgynevezett szózsákmodellt (bag-of-words).