Про векторизацию. Мы стали использовать библиотеку MiniLM-L12-v2 для создания эмбендингов. Она из текста делает 256 цифр (я упрощая пишу, как понял что мне ребята сказали). Дальше эти цифры мы записываем в Manticore и можно искать схожие товары между собой по векторам (цифрам).
Вот пример:
https://poisk.im/p/745285190732378584
https://poisk.im/p/702769798149490123
Два монитора, близость 0.92 между собой (схожесть).
Зачем? Мы используем для поиска похожих товаров и следующего матчинга. Все это работает без ускорителей, довольно шустро. А на картинке часть эмбендингов на два товара - вот так они выглядят в базе.
Русский ИТ бизнес
Русский ИТ бизнес 👨
Подписаться
Комментарии (0)
Монитор в 34 дюйма против 23.6
4к против фулл hd
46к руб против 37к руб
Она что векторизировала до герцовки и только ее сравнила?
получилось сравнение только в герцовке
не забудьте что вектора цифровые, а еще надо сравнивать и другие char (текстоовые)
2. кидаем потом массив в ИИ с характеристиками
3. ИИ возвращает % схожести.
4. все что выше 0.85 - товар одинаков.