Русский ИТ бизнес 👨
Подписаться
Для создания эмбендингов (векторов) нам посоветовали (спасибо) вот эту ИИ. На русском языке показывает отличные результаты по точности. И бесплатно.

Если коротко - это компактная и быстрая модель эмбеддингов из библиотеки Sentence-Transformers, обученная распознавать смысловое сходство между текстами на многих языках...

Преобразует фразы в векторы фиксированной длины, которые можно сравнивать по сходству: близкие значения означают, что тексты похожи по смыслу.

Подходит для семантического поиска, поиска дубликатов/перефразов, кластеризации и рекомендаций. За счёт MiniLM (12 слоёв) даёт хороший баланс скорость/качество и низкие требования к ресурсам.

Иными словами - вы собрали информацию о товарах, сделали векторизацию и дальше пытаетесь найти схожие товары между собой опираясь на близость векторов :)

Русский ИТ бизнес

Комментарии (0)

  • raviluse
    а качество векторов лучше чем у openai?
    • GroupAnonymousBot
      ну... тут я не скажу точно - но openAI на 12 месте на арене.
      • forhayley
        А hugging face на каком?
  • x_nick_x
    Максим, а для кого такой продукт делаете? Примерно представляете ЦА?
    • GroupAnonymousBot
      ох... это вопрос на миллион. честно говоря я до конца сам не понимаю
  • Channel_Bot
    а бесплатно, это как? в облаке или на своем сервере?
    • GroupAnonymousBot
      можно на сервере своем.
  • king5551
    Чет не очень на самом деле
  • king5551
  • king5551
    Берите rubert-mini-frida
    • GroupAnonymousBot
      щас посмотрю.
  • ism0G
    А дадите обратную связь после использования, реально ли хороша для русского языка, буду очень благодарен
  • Juriy1c
    Бесплатно по АПИ или если на свой сервер поставить, то это минимум 3€ в месяц, а за эти деньги openai может и три месяца вектора создавать
    • GroupAnonymousBot
      У нас сервер есть туда закинем
      • Juriy1c
        так ей нужен отдельный или совсем совсем не требовательна и может поместится по совместительству? Как требования погуглить?
        • GroupAnonymousBot
          Мы на свой закинем и пусть тихонько работает
  • Juriy1c
    И сразу ещё вопрос, эта модель создает нормализованные вектора или тоже надо потом самому нормализовывать?
    • GroupAnonymousBot
      Я боюсь туповат для такого вопроса
    • braginwww
      Hugging Face's embedding services typically normalize the output vectors by default (ЧатГПТ)
  • Juriy1c
    нет ни ссылок ни названия для гугления. Яб поставил и тоже попробовал.
    Сразу нормализованные и бесплатные вектора это хорошо. Хочу пробовать
    • braginwww
      https://huggingface.co/ написано же Hugging Face.
    • GroupAnonymousBot
      название же есть :) вы что :)
  • Juriy1c
    Пишут что максимум 128 токенов эта модель тянет. Примерно 400 русских символов. Маловато
    • braginwww
      https://huggingface.co/support вот там пообщайся, скажи что нравится сервис и хочешь попробовать.
    • braginwww
      Hugging Face as a service itself does not have a specific maximum token limit that depends on the user's location (e.g., Russia). (чат гпт, он почему-то мне стал по английски писать)
    • Ut4J6
      это же векторизация - текст перед векторизацией разбивают на предложения
    • braginwww
      Russian-specific models listed on Hugging Face often have max input lengths around 512 tokens. (вот нашел) сам решай, надо тебе это или нет
    • braginwww
      Common max token limits range from 512 tokens to over 30,000 tokens in the latest large models т.е. все зависит от модели.
  • mtrnkwas
    Не совсем понятно, пользователи должны векторизовать свои товарные каталоги? Если нет, зачем им искать похожие товары в чужих каталогах?
    • braginwww
      Поисковая оптимизация: ранжирование результатов поиска по смысловым признакам. вот для этого нужны эмбеддинги
      • mtrnkwas
        Это понятно. Если поиск по своему каталогу, то вопросов нет, это полезно. Тогда в чем смысл продукта Макса, если векторизацию своего каталога нужно делать самому?
        • GroupAnonymousBot
          матчинг товаров разных поставщиков
        • braginwww
          насколько я знаю, у Макса есть поиск poisk.im. вот для пользователей этого сервиса он и проводит векторизацию.

          Макс я все правильно понимаю?
          • GroupAnonymousBot
            да. чтобы найти похожие товары между собой.
          • mtrnkwas
            Это тоже понятно. Но допустим я продаю детские коляски. Зачем мне нужно искать похожие коляски по poisk.im, если там будут коляски, которых у меня в каталоге нет? Что мне делать с этой информацией?
            • GroupAnonymousBot
              матчинг товаров между собой. вы нашли товар и сколько он стоит у других
              • mtrnkwas
                А, ясно. Полезная вещь, чтобы тырить описания товаров и сверять цены.
            • braginwww
              если вы продаете коляски, то в вашем случае векторизация нужна например: пользователь ищет 3-х колесные. а вы предложите еще похожие запросы, например с поворачивающимся первым колесом
              • mtrnkwas
                Я знаю, что такое эмбеддинги и векторный поиск. Сам занимаюсь очень плотно им. Просто не понял, зачем мне нужно показывать пользователям коляски с поворачивающимся колесом, если я их не продаю.
                • braginwww
                  если вы не продаете, тогда не показывайте. показывайте только от что продаете) как у вас реализована услуга "похожие товары"?
                  • mtrnkwas
                    Так мне ж нужно тогда автоматически заматчить четко с моим SKU по описанию, а это задачка. Смысл городить огород, если я могу провести сам векторизацию своего каталога и показывать похожие товары из своего каталога.
                    • braginwww
                      если вы сами можете, тогда да. ок. но у макса мильон товаров. вот для этого ему и нужен этот сервис
    • braginwww
      и еще вот:Рекомендательные системы: подбор товаров, фильмов, музыки и прочего контента, основанного на предпочтениях пользователей.