Русский ИТ бизнес
Русский ИТ бизнес

В Manticore Search добавили автоматическое создание эмбендингов.

Указываешь модель и при записи текста в базу сам движок делает автоматическую векторизацию (OpenAI, Hugging Face, Voyage, Jina), а потом позволяет по ней искать.

Почему это важно? Чтобы поиск сделать смыслово- похожим. Например, искать похожие товары. Крутая функция. Вот здесь детали. Выбор Manticore Search для нашего проекта poisk.im было самое умное решение :)

p.s. но это не поможет, если человек ищет "айфон 17", а в базе у нас iphone 17. Я вообще не знаю, как решить такую проблему алгоритмически :)

Русский ИТ бизнес
  • Ирисовый Редактор
    Ирисовый Редактор
    А ты вручную ищешь все эти новости или парсишь нон стопом? Темпы наполняемости ленты как у РИА. Только если есть основная работа кажется, что для создания такой фактуры ленты недостаточно только своих ресурсов. Или же это команда людей?
    Подход интересует выбора новостей
    • Автор канала
      Автор канала
      я сам. вот как раз сижу и делаю.
      • Ирисовый Редактор
        Ирисовый Редактор
        некисло
    • Непоседливый Арбуз
      Непоседливый Арбуз
      Заходишь на профильные группы Reddit, фильтруешь популярные статьи и переводишь их на русский язык. Вот тебе и РИА новости.

      Но в любом случае не умаляю заслуг админа.
  • Аметистовый Марабу
    Аметистовый Марабу
    В двух потоках.
    Один как сейчас второй если не нашел, траслит, если нашел транслитное совпадение, выдает что есть.
    Что то типа такого
    • Автор канала
      Автор канала
      идея неплохая. делать доп. транслит и искать. звучит интересно!
    • Добрый Павлин
      Добрый Павлин
      Проще локальной легкой моделью прогнать, транслит не всегда релевантный. Ифоне и айфон всеж разное
      • Аметистовый Марабу
        Аметистовый Марабу
        С подключением легких моделей, если смогут
  • Взбаламученный Горностай
    Взбаламученный Горностай
    решить проблему,когда человек ищет айфон, а в базе iphone 17 можно через синонимайзеры https://manual.manticoresearch.com/Creating_a_table/NLP_and_tokenization/Exceptions
    • Автор канала
      Автор канала
      по идее их надо руками записать. самим.