Русский ИТ бизнес
Русский ИТ бизнес
Post media

Стоимость и скорость обработки страниц сайта с помощью ИИ для выделения товаров

Стоимость и скорость обработки страниц сайта с помощью ИИ для выделения товаров. Это мы делаем такой сервис на мир.

Делюсь инсайтом, если кто-то хочет сказать спасибо - кидайте мне на лавандовый раф, бугага :) Ведь это живые данные, а не фантазии апологетов ИИ. А если серьезно - то пока довольно дорого выходит, т.к. слишком много токенов надо обрабатывать ИИ, чтобы из html выделять товарные сущности.

Придумываем идеи обнаружить xpath и дальше без ИИ уже выделять сущности.

Русский ИТ бизнес

Комментарии (12)

  • Океанический Гоблин
    Океанический Гоблин
    Кидайте номер карты.
    • Автор канала
      Автор канала
      +7 921 9615170 ВТБ :)
  • Дымящийся Гриб
    Дымящийся Гриб
    Немного не понял сути того что вы делаете а зачем дергать каждый раз ИИ для выделения сущности ? может я пока не в теме вашей задачи но вроде проще сделать через ии шаблон для сайта и дергать просто данные по нему, у меня так работает все сейчас
    • Автор канала
      Автор канала
      так и делаем сейчас. подошли к этому
      • Дымящийся Гриб
        Дымящийся Гриб
        я сейчас вернул миник свой ищу локальную модельку для разбора и поиска шаблонов чтобы не платить не кому так как задачка не сильно сложная и справиться опенсоурс ИИ на локалке
      • Лавандовый Ворон
        Лавандовый Ворон
        Макс, мы когда контакты с помощью ИИ собираем с сайтов компаний, перед отправкой ии сьраницы главной, чистим весь хтмл, сразу много токенов уходит. Плюс если у вас товары, например можно вообще убрать хеддер, футер, навигация. Токены упадут сразу, ну и возрат данных, в четкой джейсон структуре название товара, цена, характеристики. Попробуйте, может полоучится, если что номер скину куда благодарить 🤣
  • Свистящий Мармелад
    Свистящий Мармелад
    Пусть ии напишет под конкретный сайт один раз парсер который выковыривать данные будет, на выходе валидация json, сломалась валидация, пусть ии парсер переписывает, по токенам вообще в 10 рублей уложиться можно)
    • Дымящийся Гриб
      Дымящийся Гриб
      прям как у меня сейчас работает правда все завернуто на дипсик по апи чтобы дешевле были
  • Лохматый Осьминог
    Лохматый Осьминог
    Comment media
  • Многомерный Леопард
    Многомерный Леопард
    Ну можно сделать еще изысканнее.
    Кидаешь нейронке html и просишь написать код который будет вытягивать из страницы данные нужные. Код встраиваешь в парсер.
    Если алгоритм видит что пошли не релевантные данные (мусор html или пустые или длинные слишком) то снова просит нейронку поправить код!

    Универсальный парсер!))
  • Раздражительный Барс
    Раздражительный Барс
    Не, ну я не удивлён что все вокруг новорят от замене ИТшников на ИИ.. Читаю про то что вы делаете, у меня шерсть дыбом.. 😂
    Минимум самый, это js! Он в раз дёргает все с дерева за секунду.. 😂 Аналогично можно построчно упаковать куда вам там надо и отдать текс в ИИ, если надо.
    Js для этого и создали, чтоб бегать по html.. 😂
    Дальше не скажу, включаем голову и в бой. 😁

    Html в ИИ кидать чтоб текст дёрнуть.. Я просто мягкого говоря в ах*е.. 😂
  • Авангардный Философ
    Авангардный Философ
    клаудфлер сделал бесплатный сервис html to Markdown

    https://habr.com/ru/companies/bothub/news/996090/