Русский ИТ бизнес
Русский ИТ бизнес

Как сделать RAG в 32 раза эффективнее по памяти

Как сделать RAG в 32 раза эффективнее по памяти
Как сделать RAG в 32 раза эффективнее по памяти.

Простая техника, используемая Perplexity, Azure и HubSpot, повышает эффективность RAG в 32 раза. Вот гайд по построению RAG-системы для запросов к 36+ млн векторов за <30 мс.

Метод называется бинарная квантизация. Мы, надеюсь, скоро это внедрим как часть сервисов в рамках проекта clickfraud.ru (будет бесплатно в подписке). @bezsmuzi

Комментарии (7)

  • Лохматый Осьминог
    Лохматый Осьминог
    а что вам с помощью RAG искать то? Ответить
    раскрыть ветку (3)
    • Автор канала
      Автор канала
      мы дадим умный виджет. по материалам сайта Ответить
      раскрыть ветку (2)
      • Пепельный Витязь
        Пепельный Витязь
        и какой результат? Ответить
        раскрыть ветку (1)
        • Автор канала
          Автор канала
          так делаем еще. Ответить
  • Робкий Киллер
    Робкий Киллер
    Comment media
    Держите у кого X не открылся сразу репо

    https://github.com/patchy631/ai-engineering-hub/tree/main/fastest-rag-milvus-groq

    К слову, для простых RAG до 100М записей, лучше выбрать QDrant

    https://www.perplexity.ai/search/milvus-ili-qdrant-dlia-rag-bBrM2tJjTHeCDEzAfpxd3g#1

    Она проще в установке, обслуживании и также поддерживает бинарную квантизацию как milvus Ответить
    раскрыть ветку (2)
    • Лохматый Осьминог
      Лохматый Осьминог
      А эмбединги чем лучше генерить, чтобы и качество было и не слишком дорого на больших объемах? Ответить
      раскрыть ветку (1)
      • Робкий Киллер
        Робкий Киллер
        В больших объемах только если локальные ставить. Вот одну из них Макс рекомендовал https://t.me/bezsmuzi/13061

        А я пока через api - text-embedding-3-small гоняю очень хорошо дружит с QDrant базой данных и недорого выходит, но у меня и объемы небольшие Ответить