Русский ИТ бизнес
Русский ИТ бизнес
Post media

База данных

База данных... или не совсем база данных в привычном понимании (как MySQL или Postgres), - новый подход к архитектуре RAG (Retrieval-Augmented Generation). Если кратко: это «убийца» векторного поиска для сложных документов :)

Проект называется PageIndex от компании VectifyAI. Вот здесь.

Обычный RAG работает так: режет текст на куски (чанки), превращает их в цифры (вектора) и ищет похожие по смыслу фрагменты. PageIndex делает иначе: он имитирует поведение человека. Когда вы открываете сложный отчет, вы не ищете "похожие слова», вы смотрите в оглавление, понимаете структуру и идете в нужный раздел. PageIndex строит иерархическое дерево (Tree Index) документа.

Русский ИТ бизнес

Комментарии (9)

  • Лазерный Магнат
    Лазерный Магнат
    Comment media
  • Волшебный Конструктор
    Волшебный Конструктор
    Забавно, я когда делал себе проект по сохранению инфы локально личной, то к такой же системе хранения данных пришел и реализовал у себя дерево. Чтобы ИИшка анализировала по вехам и решала куда смотреть вглубь.

    Эх что поделать, гении мыслят одинаково, но кто то делает на этом бабульки
  • Оранжевый Агент
    Оранжевый Агент
    ну иерархические, документные и пр.. бд давно не ноухау... нередко цепляются дополнительно к реляционным для решения спецзадач или повышения производительности отдельных подсистем
  • Кожаный Карьерист
    Кожаный Карьерист
    А кто знает какую нибудь Иишку, которая из сканированного текста копирует информацию? Есть такая?
    • Добрый Павлин
      Добрый Павлин
      гемени отлично распознает и обрабатывает большие документы pdf , думаю и с картинками справится
    • Суровый Официант
      Суровый Официант
      у qwen куча моделей, без впн и апи есть на алибаба клаудс
    • Пыльный Циклон
      Пыльный Циклон
      Ищи по слову OCR. В этом канале упоминалось.
    • Автор канала
      Автор канала
      z.ai
      • Кожаный Карьерист
        Кожаный Карьерист
        Спасибо