Как сделать RAG в 32 раза эффективнее по памяти

Как сделать RAG в 32 раза эффективнее по памяти.

Простая техника, используемая Perplexity, Azure и HubSpot, повышает эффективность RAG в 32 раза. Вот гайд по построению RAG-системы для запросов к 36+ млн векторов за <30 мс.

Метод называется бинарная квантизация. Мы, надеюсь, скоро это внедрим как часть сервисов в рамках проекта clickfraud.ru (будет бесплатно в подписке). @bezsmuzi

2 306

👍 7

Комментарии (7)

Лохматый Осьминог 2026-04-05 11:14

а что вам с помощью RAG искать то? Ответить

раскрыть ветку (3)
- Автор канала 2026-04-05 11:18
  
  мы дадим умный виджет. по материалам сайта Ответить
  
  раскрыть ветку (2)
  - Пепельный Витязь 2026-04-05 11:51
    
    и какой результат? Ответить
    
    раскрыть ветку (1)
    - Автор канала 2026-04-05 11:53
      
      так делаем еще. Ответить
Робкий Киллер 2026-04-05 12:37

Держите у кого X не открылся сразу репо

https://github.com/patchy631/ai-engineering-hub/tree/main/fastest-rag-milvus-groq

К слову, для простых RAG до 100М записей, лучше выбрать QDrant

https://www.perplexity.ai/search/milvus-ili-qdrant-dlia-rag-bBrM2tJjTHeCDEzAfpxd3g#1

Она проще в установке, обслуживании и также поддерживает бинарную квантизацию как milvus Ответить

раскрыть ветку (2)
- Лохматый Осьминог 2026-04-05 15:57
  
  А эмбединги чем лучше генерить, чтобы и качество было и не слишком дорого на больших объемах? Ответить
  
  раскрыть ветку (1)
  - Робкий Киллер 2026-04-05 18:40
    
    В больших объемах только если локальные ставить. Вот одну из них Макс рекомендовал https://t.me/bezsmuzi/13061
    
    А я пока через api - text-embedding-3-small гоняю очень хорошо дружит с QDrant базой данных и недорого выходит, но у меня и объемы небольшие Ответить