Русский ИТ бизнес 👨
Подписаться
В Manticore Search добавили автоматическое создание эмбендингов.

Указываешь модель и при записи текста в базу сам движок делает автоматическую векторизацию (OpenAI, Hugging Face, Voyage, Jina), а потом позволяет по ней искать.

Почему это важно? Чтобы поиск сделать смыслово- похожим. Например, искать похожие товары. Крутая функция. Вот здесь детали. Выбор Manticore Search для нашего проекта poisk.im было самое умное решение :)

p.s. но это не поможет, если человек ищет "айфон 17", а в базе у нас iphone 17. Я вообще не знаю, как решить такую проблему алгоритмически :)

Русский ИТ бизнес

Комментарии (0)

  • mbkux
    А ты вручную ищешь все эти новости или парсишь нон стопом? Темпы наполняемости ленты как у РИА. Только если есть основная работа кажется, что для создания такой фактуры ленты недостаточно только своих ресурсов. Или же это команда людей?
    Подход интересует выбора новостей
    • GroupAnonymousBot
      я сам. вот как раз сижу и делаю.
      • mbkux
        некисло
    • SMaiburov
      Заходишь на профильные группы Reddit, фильтруешь популярные статьи и переводишь их на русский язык. Вот тебе и РИА новости.

      Но в любом случае не умаляю заслуг админа.
  • TrillionsUPUP
    В двух потоках.
    Один как сейчас второй если не нашел, траслит, если нашел транслитное совпадение, выдает что есть.
    Что то типа такого
    • GroupAnonymousBot
      идея неплохая. делать доп. транслит и искать. звучит интересно!
    • DADementr
      Проще локальной легкой моделью прогнать, транслит не всегда релевантный. Ифоне и айфон всеж разное
      • TrillionsUPUP
        С подключением легких моделей, если смогут
  • dotX12
    решить проблему,когда человек ищет айфон, а в базе iphone 17 можно через синонимайзеры https://manual.manticoresearch.com/Creating_a_table/NLP_and_tokenization/Exceptions
    • GroupAnonymousBot
      по идее их надо руками записать. самим.
      • dotX12
        это да)
      • s17471s
        не по айтишному как то
  • alexy_os
    Я не знаю как ищет мантикоре, но если в поиск прикрутить любую LLM, то для нее айфон 17 = 17 iPhone. А вот, чтобы найти разновидность то добавить графовую систему по категориям и тегам

    Вот и ответ, что такое ии агент

    Пользователь пишет эйфон 17 пра

    LLM понимает что речь идет об IPhone 17 Pro и задает правильный запрос в мантикоре - та возвращает все найденные по ближайшим весам iphone 17 lite, iphone 17 bro, iphone 17 pro

    LLM думает что пользователь запрос только один вариант про

    Тогда модель делает ещё один запрос по категориям - Pro и остается единственный iphone 17 pro

    Также, помимо LLM есть дедлвский способ: алгоритмы левинштейна и стемера портера
    • apshonkin
      охи накинул я примерчик 😅
  • blancmaq
    Автоэмбеддинги звучит круто, но “айфон” вместо iPhone всё равно убивает точность
    • alexy_os
      Она убивает на уровне базы данных, но не на уровне обученной LLM для которой эйфония, айфон, ifon, iphone имеют одно и то же значение
  • uglev
    Когда-то давно делал ИМ для теперь уже приятеля, впилил туда Яндекс поиск. Может кто подскажет, чем он плох? Искал отлично, хоть так набирай "fqajy17"
  • nick_2026
    В Elasticsearch есть возможность задавать синонимы
    "Айфон" = "iPhone"

    Вероятно в мантикоре такая же возможность есть
    • GroupAnonymousBot
      есть. но это надо руками. оч сложно
      • loginovleonid
        Попробуйте в какой нибудь гемени флеш, отправить запрос: напиши все варианты написания айфон на русском и английском включая варианты с ошибками. И так для каждого товара. Может и более бюджетная модель с этим справиться
      • nick_2026
        Вот бы кто-то придумал такую штуку, которая бы могла и синонимы генерить и извлекать из запросов словоформы...

        У меня даже название есть, если придумают - LLM
  • anton_cto
    Это решается нормализацией слова по звучанию. Soundex, Metaphone
  • mtrnkwas
    Manticore поддерживает поиск с учётом синонимов.
  • Gesbes
    Уже давно это все реализовано. 10 лет назад презентовали плагин поисковый. Например южане могут написать "купит кацо" т.е. купить кольцо. Даже ТБанк сдел и продает это решение... но за него надо платить копеечку ))
    • GroupAnonymousBot
      ну в мантикоре бесплатно. из коробки