Как сделать RAG в 32 раза эффективнее по памяти
Как сделать RAG в 32 раза эффективнее по памяти.Простая техника, используемая Perplexity, Azure и HubSpot, повышает эффективность RAG в 32 раза. Вот гайд по построению RAG-системы для запросов к 36+ млн векторов за <30 мс.
Метод называется бинарная квантизация. Мы, надеюсь, скоро это внедрим как часть сервисов в рамках проекта clickfraud.ru (будет бесплатно в подписке). @bezsmuzi

Комментарии (7)
https://github.com/patchy631/ai-engineering-hub/tree/main/fastest-rag-milvus-groq
К слову, для простых RAG до 100М записей, лучше выбрать QDrant
https://www.perplexity.ai/search/milvus-ili-qdrant-dlia-rag-bBrM2tJjTHeCDEzAfpxd3g#1
Она проще в установке, обслуживании и также поддерживает бинарную квантизацию как milvus
А я пока через api - text-embedding-3-small гоняю очень хорошо дружит с QDrant базой данных и недорого выходит, но у меня и объемы небольшие