Русский ИТ бизнес 👨
Подписаться
Post media
Стоимость и скорость обработки страниц сайта с помощью ИИ для выделения товаров. Это мы делаем такой сервис на мир.

Делюсь инсайтом, если кто-то хочет сказать спасибо - кидайте мне на лавандовый раф, бугага :) Ведь это живые данные, а не фантазии апологетов ИИ. А если серьезно - то пока довольно дорого выходит, т.к. слишком много токенов надо обрабатывать ИИ, чтобы из html выделять товарные сущности.

Придумываем идеи обнаружить xpath и дальше без ИИ уже выделять сущности.

Русский ИТ бизнес

Комментарии (12)

  • McConst
    Кидайте номер карты.
    • GroupAnonymousBot
      +7 921 9615170 ВТБ :)
  • maxicms
    Немного не понял сути того что вы делаете а зачем дергать каждый раз ИИ для выделения сущности ? может я пока не в теме вашей задачи но вроде проще сделать через ии шаблон для сайта и дергать просто данные по нему, у меня так работает все сейчас
    • GroupAnonymousBot
      так и делаем сейчас. подошли к этому
      • maxicms
        я сейчас вернул миник свой ищу локальную модельку для разбора и поиска шаблонов чтобы не платить не кому так как задачка не сильно сложная и справиться опенсоурс ИИ на локалке
      • saasonblood_admin
        Макс, мы когда контакты с помощью ИИ собираем с сайтов компаний, перед отправкой ии сьраницы главной, чистим весь хтмл, сразу много токенов уходит. Плюс если у вас товары, например можно вообще убрать хеддер, футер, навигация. Токены упадут сразу, ну и возрат данных, в четкой джейсон структуре название товара, цена, характеристики. Попробуйте, может полоучится, если что номер скину куда благодарить 🤣
  • DarkNet1982
    Пусть ии напишет под конкретный сайт один раз парсер который выковыривать данные будет, на выходе валидация json, сломалась валидация, пусть ии парсер переписывает, по токенам вообще в 10 рублей уложиться можно)
    • maxicms
      прям как у меня сейчас работает правда все завернуто на дипсик по апи чтобы дешевле были
  • Channel_Bot
    Comment media
  • mekeda
    Ну можно сделать еще изысканнее.
    Кидаешь нейронке html и просишь написать код который будет вытягивать из страницы данные нужные. Код встраиваешь в парсер.
    Если алгоритм видит что пошли не релевантные данные (мусор html или пустые или длинные слишком) то снова просит нейронку поправить код!

    Универсальный парсер!))
  • gari_potnyi
    Не, ну я не удивлён что все вокруг новорят от замене ИТшников на ИИ.. Читаю про то что вы делаете, у меня шерсть дыбом.. 😂
    Минимум самый, это js! Он в раз дёргает все с дерева за секунду.. 😂 Аналогично можно построчно упаковать куда вам там надо и отдать текс в ИИ, если надо.
    Js для этого и создали, чтоб бегать по html.. 😂
    Дальше не скажу, включаем голову и в бой. 😁

    Html в ИИ кидать чтоб текст дёрнуть.. Я просто мягкого говоря в ах*е.. 😂
  • btrzen
    клаудфлер сделал бесплатный сервис html to Markdown

    https://habr.com/ru/companies/bothub/news/996090/