Русский ИТ бизнес
Русский ИТ бизнес

Про векторизацию. Мы стали использовать библиотеку MiniLM-L12-v2 для создания эмбендингов. Она из текста делает 256 цифр (я упрощая пишу, как понял что мне ребята сказали). Дальше эти цифры мы записываем в Manticore и можно искать схожие товары между собой по векторам (цифрам).

Вот пример:

https://poisk.im/p/745285190732378584
https://poisk.im/p/702769798149490123

Два монитора, близость 0.92 между собой (схожесть).

Зачем? Мы используем для поиска похожих товаров и следующего матчинга. Все это работает без ускорителей, довольно шустро. А на картинке часть эмбендингов на два товара - вот так они выглядят в базе.

Русский ИТ бизнес
  • Лохматый Осьминог
    Лохматый Осьминог
    Хватает 256, что ребята говорят?
  • Раздражительный Жираф
    Раздражительный Жираф
    Макс, а почему вы из исходника не забираете характеристики в разобранном виде? На ситилинке они подробно разобраны и можно сравнивать по каким-то характеристикам между собой товары, даже в рамках векторной близости потом.
  • Пряный Берег
    Пряный Берег
    а ruBERT (заточена под русский) не пробовали? или хуже результаты?
    • Автор канала
      Автор канала
      нет. не пробовали. вот тот взяли инструмент для векторизации
  • Ядерный Медведь
    Ядерный Медведь
    Ты серьезно?

    Монитор в 34 дюйма против 23.6
    4к против фулл hd
    46к руб против 37к руб

    Она что векторизировала до герцовки и только ее сравнила?
    • Пепельный Червь
      Пепельный Червь
      Так он и написал, схожесть 0,92 (видимо процента)
      • Ядерный Медведь
        Ядерный Медведь
        ну так 0,92 если это 92% то бред, если это почти 1% то норм)
    • Автор канала
      Автор канала
      она сравнивала названия. дальше мы получаем кластер похожих и уже с помощью ИИ делаем матчинг
      • Ядерный Медведь
        Ядерный Медведь
        это твои прогеры тебе ответили? так и что в названии, тоже схожесть высокая получается?
        • Автор канала
          Автор канала
          мы с помощью векторизации делаем кластер похожих товаров. дальше можно взять их и кинуть в ИИ для получения % вероятности матчинга