RAG on rikki eikä kukaan puhu siitä 🤯 Stanford julkaisi juuri artikkelin "Semanttisesta romahduksesta", todistaen, että kun tietopohjasi saavuttaa ~10 000 asiakirjaa, semanttinen haku muuttuu kirjaimellisesti kolikonheitoksi. Tässä syy, miksi RAG-järjestelmäsi epäonnistuu: Yli 10 000 asiakirjan jälkeen hieno tekoälyhakusi muuttuu käytännössä kolikonheitoksi. Jokainen lisäämäsi dokumentti muuttuu korkean ulottuvuuden upotuksiksi. Pienessä mittakaavassa samankaltaiset dokumentit kokoontuvat täydellisesti yhteen. Mutta kun lisää tarpeeksi dataa, tila täyttyy. Etäisyydet kutistuvat. Kaikki näyttää "relevantilta". Se on ulottuvuuksien kirous. 1000D-tilassa 99,9 % datastasi sijaitsee ulkokuoressa, lähes yhtä kaukana kaikista kyselyistä. Stanford havaitsi 87 %:n tarkkuuden pudotuksen 50 000 docsissa. Lisäkontekstin lisääminen itse asiassa pahentaa hallusinaatioita, ei parempia. Luulimme, että RAG ratkaisee hallusinaatioita... Se vain piilotti heidät matematiikan taakse. Korjaus ei ole uudelleenluokittelu tai parempi lohkojen jakaminen. Se on hierarkkista hakua ja graafitietokantaa.