В проекте poisk.im ребята стали использовать эту модель - sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2. Цель - векторизация названий товаров для поиска схожих.
Если подать на вход два слова «автомобиль» и «машина», модель вернёт для каждого слова длинный числовой вектор (эмбеддинг) - по сути список чисел (обычно размерность 384 числа). Дальше эти два вектора сравнивают (чаще всего косинусной близостью): так как слова близки по смыслу, итоговый similarity будет высоким (ближе к 1, чем к 0).
Это я очень просто написал :) - сам сидел разбирался. Как это детально работает не знаю, да и не важно - главное что модель хорошая и русский поддерживает.
Русский ИТ бизнес
Русский ИТ бизнес 👨
Подписаться

Комментарии (0)
Вот эта модель намного лучше от Сбербанка:
https://huggingface.co/ai-forever/sbert_large_nlu_ru
Но есть ещё более новая модель от Сбербанка, специально созданная для гигачата, выпущенная в 2025 году:
https://www.sberbank.ru/ru/sberpress/tekhnologii/article?newsID=fb559e39-6233-4e49-b8b5-e618f5eac2d2&blockID=69b149cd-6db4-45aa-ade1-b6920d771b11®ionID=21&lang=ru&type=NEWS