Русский ИТ бизнес 👨
Подписаться
В чате предложили идею парсинга сложных проектов через OCR. У нас на xmldatafeed.com бывают запросы на парсинг так, что данные можно собрать только из мобильных приложений. Например - сеть Монеточка.

Решение простое, только что опробовал - эмуляция Android, делаем скрин, кидаем в ИИ и просим вернуть Google Merchant Feed JSON. Вот что получилось у меня лично:

title: Огурцы короткоплодные люкс 450 г

description: Свежие короткоплодные огурцы категории люкс; пищевая ценность на 100 г: 15 ккал, белки 0.8 г, жиры 0.1 г, углеводы 3 г.

availability: in_stock

price: 129.00 RUB

brand: —

condition: new

google_product_category: Еда, напитки и табак > Продукты питания > Овощи > Огурцы

unit_pricing_measure: 450g

unit_pricing_base_measure: 100g

Цена копеечная, можно переложить на клиента. Кто тут чертов гений? :) (шучу). Вопрос лишь один - кто-то будет из заказчиков готов к такому НИОКР...

Русский ИТ бизнес

Комментарии (0)

  • dmitry236
    а есть решения по массовой эмуляции андроидов и управлению по API? Я что-то не видел, чё китайцы мучаются и ставят фермы с реальными устройствами?
    • GroupAnonymousBot
      мы поставим 1 устройство, делов то. :)
    • a_a_ovchinnikov
      Скорее всего самым популярным и доступны вариантом сейчас являются эмуляторы от гугл и аналоги, в связке с базовой автоматизацией через adb
  • j0in_alex
    Ты совсем зашкваренный кажись. Burp + ssl bypass просто так изобретали...
    • dmitry236
      под кем ходишь, фраер?
    • GroupAnonymousBot
      вы, кто, мама? :)
    • ZeroSearcher
      Ssl unpin
  • agidayte
    Не проще fiddler поставить, вместо возни с картинками
  • yury_webscraping
    Так данные туда попадают в виде json/xml пакетов данных. Зачем заниматься распознаванием, вместо перехвата условного трафика?

    Ну типа то что стоит условно 1руб, начать продавать за 100руб, так как ИИ, сервера, и тд и тп
    • GroupAnonymousBot
      трафик то зашифрован же.
      • agidayte
        Трафик расшифровывается при наличии своего сертификата, если речь про https
      • maxsafonkin
        burp + frida

        если нужна консультация, welcome в лс - занимаюсь этим уже более трех лет
      • rusrich1
        В браузере во вкладке network получилось json список объектов вытащить из Яндекса карт, кажется. Карта была встроена на сайт Не знаю, это на уровне самих карт допустимо или мега разработчик сайта так сделал.
        • dmitry236
          речь про приложение
          • rusrich1
            Я так, к слову, что данные шифруются.
            Рассказал про случай. Не изучал, хз, почему получилось данные вытащить.
            • agidayte
              Потому что во вкладке network всё уже расшифровано😁
  • roman_pst
    В примере выше 👆, какая моделька? Что-то из OpenAI?
    • GroupAnonymousBot
      gpt-5. но это избыточно.
  • roman_pst
    Нууу это не очень дёшево будет)
  • a_a_ovchinnikov
    Агрегаторы цен, например Купер, тоже парсят подобные магазины без сайтов. Скорее всего тоже через андроид устройства. Можно через них данные брать, хотя и не из первых рук