Русский ИТ бизнес
Русский ИТ бизнес
Post media

Как сделать RAG в 32 раза эффективнее по памяти

Как сделать RAG в 32 раза эффективнее по памяти.

Простая техника, используемая Perplexity, Azure и HubSpot, повышает эффективность RAG в 32 раза. Вот гайд по построению RAG-системы для запросов к 36+ млн векторов за <30 мс.

Метод называется бинарная квантизация. Мы, надеюсь, скоро это внедрим как часть сервисов в рамках проекта clickfraud.ru (будет бесплатно в подписке). @bezsmuzi

Комментарии (7)

  • Channel_Bot
    а что вам с помощью RAG искать то?
    • GroupAnonymousBot
      мы дадим умный виджет. по материалам сайта
      • amusinov
        и какой результат?
        • GroupAnonymousBot
          так делаем еще.
  • alexy_os
    Comment media
    Держите у кого X не открылся сразу репо

    https://github.com/patchy631/ai-engineering-hub/tree/main/fastest-rag-milvus-groq

    К слову, для простых RAG до 100М записей, лучше выбрать QDrant

    https://www.perplexity.ai/search/milvus-ili-qdrant-dlia-rag-bBrM2tJjTHeCDEzAfpxd3g#1

    Она проще в установке, обслуживании и также поддерживает бинарную квантизацию как milvus
    • Channel_Bot
      А эмбединги чем лучше генерить, чтобы и качество было и не слишком дорого на больших объемах?
      • alexy_os
        В больших объемах только если локальные ставить. Вот одну из них Макс рекомендовал https://t.me/bezsmuzi/13061

        А я пока через api - text-embedding-3-small гоняю очень хорошо дружит с QDrant базой данных и недорого выходит, но у меня и объемы небольшие