Русский ИТ бизнес
Русский ИТ бизнес

В чате предложили идею парсинга сложных проектов через OCR. У нас на xmldatafeed.com бывают запросы на парсинг так, что данные можно собрать только из мобильных приложений. Например - сеть Монеточка.

Решение простое, только что опробовал - эмуляция Android, делаем скрин, кидаем в ИИ и просим вернуть Google Merchant Feed JSON. Вот что получилось у меня лично:

title: Огурцы короткоплодные люкс 450 г

description: Свежие короткоплодные огурцы категории люкс; пищевая ценность на 100 г: 15 ккал, белки 0.8 г, жиры 0.1 г, углеводы 3 г.

availability: in_stock

price: 129.00 RUB

brand: —

condition: new

google_product_category: Еда, напитки и табак > Продукты питания > Овощи > Огурцы

unit_pricing_measure: 450g

unit_pricing_base_measure: 100g

Цена копеечная, можно переложить на клиента. Кто тут чертов гений? :) (шучу). Вопрос лишь один - кто-то будет из заказчиков готов к такому НИОКР...

Русский ИТ бизнес
  • Раздражительный Жираф
    Раздражительный Жираф
    а есть решения по массовой эмуляции андроидов и управлению по API? Я что-то не видел, чё китайцы мучаются и ставят фермы с реальными устройствами?
    • Автор канала
      Автор канала
      мы поставим 1 устройство, делов то. :)
    • Звонкий Дух
      Звонкий Дух
      Скорее всего самым популярным и доступны вариантом сейчас являются эмуляторы от гугл и аналоги, в связке с базовой автоматизацией через adb
  • Гнутый Дракон
    Гнутый Дракон
    Ты совсем зашкваренный кажись. Burp + ssl bypass просто так изобретали...
    • Раздражительный Жираф
      Раздражительный Жираф
      под кем ходишь, фраер?
    • Автор канала
      Автор канала
      вы, кто, мама? :)
    • Пряный Единорог
      Пряный Единорог
      Ssl unpin
  • Тающий Орангутан
    Тающий Орангутан
    Не проще fiddler поставить, вместо возни с картинками
  • Призматический Буффало
    Призматический Буффало
    Так данные туда попадают в виде json/xml пакетов данных. Зачем заниматься распознаванием, вместо перехвата условного трафика?

    Ну типа то что стоит условно 1руб, начать продавать за 100руб, так как ИИ, сервера, и тд и тп
    • Автор канала
      Автор канала
      трафик то зашифрован же.
      • Тающий Орангутан
        Тающий Орангутан
        Трафик расшифровывается при наличии своего сертификата, если речь про https
      • Пушистый Грифон
        Пушистый Грифон
        burp + frida

        если нужна консультация, welcome в лс - занимаюсь этим уже более трех лет
      • Пухлый Воробей
        Пухлый Воробей
        В браузере во вкладке network получилось json список объектов вытащить из Яндекса карт, кажется. Карта была встроена на сайт Не знаю, это на уровне самих карт допустимо или мега разработчик сайта так сделал.
        • Раздражительный Жираф
          Раздражительный Жираф
          речь про приложение
          • Пухлый Воробей
            Пухлый Воробей
            Я так, к слову, что данные шифруются.
            Рассказал про случай. Не изучал, хз, почему получилось данные вытащить.
            • Тающий Орангутан
              Тающий Орангутан
              Потому что во вкладке network всё уже расшифровано😁
  • Электрический Капитан
    Электрический Капитан
    В примере выше 👆, какая моделька? Что-то из OpenAI?
    • Автор канала
      Автор канала
      gpt-5. но это избыточно.
  • Электрический Капитан
    Электрический Капитан
    Нууу это не очень дёшево будет)
  • Звонкий Дух
    Звонкий Дух
    Агрегаторы цен, например Купер, тоже парсят подобные магазины без сайтов. Скорее всего тоже через андроид устройства. Можно через них данные брать, хотя и не из первых рук