- Telega FM

Русский ИТ бизнес

28 дек 2025 16:47

В проекте poisk.im ребята стали использовать эту модель - sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2. Цель - векторизация названий товаров для поиска схожих.

Если подать на вход два слова «автомобиль» и «машина», модель вернёт для каждого слова длинный числовой вектор (эмбеддинг) - по сути список чисел (обычно размерность 384 числа). Дальше эти два вектора сравнивают (чаще всего косинусной близостью): так как слова близки по смыслу, итоговый similarity будет высоким (ближе к 1, чем к 0).

Это я очень просто написал :) - сам сидел разбирался. Как это детально работает не знаю, да и не важно - главное что модель хорошая и русский поддерживает.

Русский ИТ бизнес

👍 0

Речной Посол 2025-12-28 16:51

локально на миниках подняли или по апишке? Ответить

раскрыть ветку (1)
- Автор канала 2025-12-28 16:56
  
  на сервере локально работает Ответить
Пушистый Ястреб 2025-12-28 16:57

а еще можно картинки векторизовать и искать по фото, а еще искать текст по фото а фото по тексту (правда понадобятся другие эмбеддинги) Ответить
Бегущий Специалист 2025-12-28 16:57

А БД векторную какую используете? В облаке? Ответить

раскрыть ветку (7)
- Пушистый Ястреб 2025-12-28 16:58
  
  скорее всего OpenSearch - раз в текстовом поиске опенсерч то логично и векторный там-же делать Ответить
  
  раскрыть ветку (3)
  - Бегущий Специалист 2025-12-28 17:00
    
    Я zilliz использовал, там бесплатные лимиты хорошие и sdk, но ркн стал блочить сервера и стало неудобно. Вот теперь ищу аналог) Ответить
    
    раскрыть ветку (2)
    - Пушистый Ястреб 2025-12-28 17:02
      
      Проще всего pgvector в постгрес подключить Ответить
      
      раскрыть ветку (1)
      - Пушистый Ястреб 2025-12-28 17:03
        
        точнее он в новых постгресах уже просто vector и часть ядра Ответить
- Автор канала 2025-12-28 17:09
  
  Manticore Search у нас стоит. Ответить
  
  раскрыть ветку (2)
  - Тающий Носорог 2025-12-28 17:17
    
    используете Vector search https://manticoresearch.com/ru/blog/vector-search/ ? Ответить
    
    раскрыть ветку (1)
    - Автор канала 2025-12-28 17:26
      
      да. там встроен векторный поиск. Ответить
Пряный Единорог 2025-12-28 19:49

Это ужасно. Вы выбрали очень плохую, древнюю мультиязычную модель, где русский язык "один из". Из-за этого результаты поиска очень плохие. Вам кажутся они хорошими, но вы не видели результатов, которые дают по-настоящему хорошие модели, которые специально тренировали на русском корпусе. Сорри.

Вот эта модель намного лучше от Сбербанка:

https://huggingface.co/ai-forever/sbert_large_nlu_ru

Но есть ещё более новая модель от Сбербанка, специально созданная для гигачата, выпущенная в 2025 году:

https://www.sberbank.ru/ru/sberpress/tekhnologii/article?newsID=fb559e39-6233-4e49-b8b5-e618f5eac2d2&blockID=69b149cd-6db4-45aa-ade1-b6920d771b11&regionID=21&lang=ru&type=NEWS Ответить