- Telega.FM

Русский ИТ бизнес

29 авг 2025 12:17

Про векторизацию. Мы стали использовать библиотеку MiniLM-L12-v2 для создания эмбендингов. Она из текста делает 256 цифр (я упрощая пишу, как понял что мне ребята сказали). Дальше эти цифры мы записываем в Manticore и можно искать схожие товары между собой по векторам (цифрам).

Вот пример:

https://poisk.im/p/745285190732378584
https://poisk.im/p/702769798149490123

Два монитора, близость 0.92 между собой (схожесть).

Зачем? Мы используем для поиска похожих товаров и следующего матчинга. Все это работает без ускорителей, довольно шустро. А на картинке часть эмбендингов на два товара - вот так они выглядят в базе.

Русский ИТ бизнес

👍 0

Лохматый Осьминог 2025-08-29 12:18

Хватает 256, что ребята говорят?
Раздражительный Жираф 2025-08-29 12:27

Макс, а почему вы из исходника не забираете характеристики в разобранном виде? На ситилинке они подробно разобраны и можно сравнивать по каким-то характеристикам между собой товары, даже в рамках векторной близости потом.
Пряный Берег 2025-08-29 12:44

а ruBERT (заточена под русский) не пробовали? или хуже результаты?
- Автор канала 2025-08-29 13:09
  
  нет. не пробовали. вот тот взяли инструмент для векторизации
Ядерный Медведь 2025-08-29 13:01

Ты серьезно?

Монитор в 34 дюйма против 23.6
4к против фулл hd
46к руб против 37к руб

Она что векторизировала до герцовки и только ее сравнила?
- Пепельный Червь 2025-08-29 13:02
  
  Так он и написал, схожесть 0,92 (видимо процента)
  - Ядерный Медведь 2025-08-29 13:04
    
    ну так 0,92 если это 92% то бред, если это почти 1% то норм)
- Автор канала 2025-08-29 13:09
  
  она сравнивала названия. дальше мы получаем кластер похожих и уже с помощью ИИ делаем матчинг
  - Ядерный Медведь 2025-08-29 13:16
    
    это твои прогеры тебе ответили? так и что в названии, тоже схожесть высокая получается?
    - Автор канала 2025-08-29 13:18
      
      мы с помощью векторизации делаем кластер похожих товаров. дальше можно взять их и кинуть в ИИ для получения % вероятности матчинга