Русский ИТ бизнес 👨
Подписаться
Post media
База данных... или не совсем база данных в привычном понимании (как MySQL или Postgres), - новый подход к архитектуре RAG (Retrieval-Augmented Generation). Если кратко: это «убийца» векторного поиска для сложных документов :)

Проект называется PageIndex от компании VectifyAI. Вот здесь.

Обычный RAG работает так: режет текст на куски (чанки), превращает их в цифры (вектора) и ищет похожие по смыслу фрагменты. PageIndex делает иначе: он имитирует поведение человека. Когда вы открываете сложный отчет, вы не ищете "похожие слова», вы смотрите в оглавление, понимаете структуру и идете в нужный раздел. PageIndex строит иерархическое дерево (Tree Index) документа.

Русский ИТ бизнес

Комментарии (9)

  • dpovkex
    Comment media
  • Kirilonik
    Забавно, я когда делал себе проект по сохранению инфы локально личной, то к такой же системе хранения данных пришел и реализовал у себя дерево. Чтобы ИИшка анализировала по вехам и решала куда смотреть вглубь.

    Эх что поделать, гении мыслят одинаково, но кто то делает на этом бабульки
  • DrDSmith
    ну иерархические, документные и пр.. бд давно не ноухау... нередко цепляются дополнительно к реляционным для решения спецзадач или повышения производительности отдельных подсистем
  • aura_pura
    А кто знает какую нибудь Иишку, которая из сканированного текста копирует информацию? Есть такая?
    • DADementr
      гемени отлично распознает и обрабатывает большие документы pdf , думаю и с картинками справится
    • rich_bro
      у qwen куча моделей, без впн и апи есть на алибаба клаудс
    • mpa3b
      Ищи по слову OCR. В этом канале упоминалось.
    • GroupAnonymousBot
      z.ai
      • aura_pura
        Спасибо