Keresés vektor adatbázisban (Milvus példákkal)

A mai bejegyzésben folytatom a RAG témakörét, és miután betöltöttük a szöveget a vektoradatbázisba, most megnézzük, hogyan találhatjuk meg a legrelevánsabbat. Megismerjük, mi a BM25, a Rouge-L és a hibrid keresés. A bejegyzésben a Milvus rendszert fogjuk használni, de a lényeges pontok könnyen átültethetők más adatbázisokra is.

Szöveg darabolása – RAG adatelőkészítés

A mai bejegyzésben a Keresésalapú Szöveggenerálásnál (RAG) maradunk, de ezúttal a nagyobb szövegek darabolásáról lesz szó. Az előző írásomban kifejtettem, miért érdemes a szövegeket darabolni. Bemutattam a „tű a szénakazalban” tesztet, valamint azt is, hogy a hosszabb szövegek feldolgozása nagyobb erőforrásokat igényel. A mostani bejegyzés inkább gyakorlati megközelítést kínál, és különböző darabolási eljárásokat ismertet.

Transformer 1. rész – általános architektúra, adat előkészítés

A mai bejegyzésben megismerkedünk a jelenleg legismertebb számítógépes nyelvészeti modellek közös elődjével, a Transformerrel. Ez a korábban megismert seq2seq+Figyelem modellekből fejlődött ki. Mivel ez az architektúra viszonylag összetett, több részben fogjuk tárgyalni. A mai bejegyzés főleg a kialakulásához vezető utat és az általános felépítését fogja körbejárni.

Megerősitett Tanulás Emberi Visszajelzésből (Reinforcement Learning from Human Feedback)

A mai bejegyzésben egy igen népszerű témához kapcsolódunk: a Nagy Nyelvi Modellekhez (Large Language Models). Egy átlagos ember számára valószínűleg a ChatGPT 3.5 megjelenése volt 2022 legnagyobb mesterséges intelligenciával kapcsolatos híre. Ebben a bejegyzésben elemezzük, hogy miben lépet előre a 3.5 modell a ChatGPT 3-hoz képest. ChatGPT A ChatGPT megjelenésével egyértelműen a figyelem középpontjába kerültek … Megerősitett Tanulás Emberi Visszajelzésből (Reinforcement Learning from Human Feedback) olvasásának folytatása