Русский ИТ бизнес 👨
Подписаться
Post media
Кто отлично шарит в парсинге и в JavaScript? Задачка есть и нужен совет бывалых :)

Есть карточка товара у нас на проекте poisk.im (слева на картинке) и мы хотим сразу, при загрузке этой страницы, показать примеры товаров на ОЗОНе (справа). Лучше это сделать с клиента, дабы не создавать сложности с серверной частью.

Подгрузить "на лету", иными словами, когда человек смотрит нашу карточку. Как это лучше сделать? Подставить в поиск, получить итог, вывести карточки с ОЗОНа. А еще бы потом с ВБ. В нашем дизайне, отмечу - нужна цена, название товара и ссылка на картинку.

Тогда люди смогут сразу увидеть цены на похожие товары на МП, что довольно полезно... Есть идеи? :) С помощью JS это реально сделать?

p.s. как верно написали, там cors :( и это портит малину :)

Русский ИТ бизнес

Комментарии (53)

  • quokkus
    Так админ писал, что айтишники не нужны и все решает нейронка. Как так?
    • GroupAnonymousBot
      я ИИ еще не спрашивал :)
    • Igor_pgrm
      это тестовое задание😁
    • Mrlackride
      Токены закончились наверное😂
      (Шутка не баньте пж)
      • GroupAnonymousBot
        у меня безлимитка :)
  • Unlimitedtor
    нереально, cors
    • GroupAnonymousBot
      вот и хреново :( мы тоже так решили
      • McConst
        Вроде бы надстройки можно делать для браузеров. И в надстройках прописывается какие сайты кроссдоменные можно сделать доступными для cors
        • quokkus
          Это только для разработки пойдет. У клиентов не выключить корс
          Или предлагать скачать свой браузер))
          • McConst
            Предлагать устанавливать надстройку.
            • quokkus
              Озон не даст
            • quokkus
              А! Точно нет, это уровень: отключите https
    • Igor_pgrm
      через самописное расширение например, реально таки но есть нюанс😁
  • rakovskiy28
    Если правильно понял задачу, тогда:

    1) Подгружать страницу с товаром Озона в фрейме (если Озон позволяет)
    2) Делать скриншот с локального браузера (может не всегда грузить страницу из-за антибот системы)
  • quokkus
    У озона есть апи, парсить его можно
    То, что в f12
    • parser_market
      Долго, как для клиента.
      У яндекса такое есть, но он использует свои яндекс-товары.
      На озон лезет только за favicon. Непонятно, зачем )
  • mdatrash
    Интересно, а вы либы для рендера страниц через движок хрома используете ? Через него можно принудительно вызывать функции или скрипты на странице, если они есть такие и получать результат
  • rakovskiy28
    3) Самому отрисовать карточку имея данные о товаре
    • GroupAnonymousBot
      нужна ссылка на картинку и цена+ название. остальное нарисуем
      • Unlimitedtor
        спп на мп не даст актуальных цен
        • GroupAnonymousBot
          да пофигу. порядок. я понимаю о чем речь да.
      • rakovskiy28
        Картинку и название я думаю для вас не проблема получить, а вот цена постоянно меняется, её проблемотично будет держать актуальной
        • GroupAnonymousBot
          я думаю цену обновлять... не знаю. сами ломаем голову
          • McConst
            Так озон говорят разным клиентам может подсовывать разные цены.
            • dmitry236
              мне кажется для неавторизованных вряд ли
      • dmitry236
        если браузер пользователя тянет содержимое со страницы ozon, чё бы тогда пользователями вообще не парсить что угодно?)
  • mdatrash
    Я так парсил однажды сайт один, нашел у них функцию которую они выполняют будучи на странице, понял как она заполняется и через движок хрома вызвал и результат функции получил
    • mdatrash
      Правда, если у них там все сгенерировано, то не получится , названия меняются постоянно
  • Unlimitedtor
    спп + доставка.
  • j0in_alex
    Люди изобретают CORS, чтобы защищаться от такого вида атак

    Автор канала (который "занимается" парсингом):
    • GroupAnonymousBot
      вдруг :) есть же надежда на чудо.
      • j0in_alex
        Если только делать серверный прокси на скачку (пусть даже по прямой ссылке, можно whitelist, чтобы избежать CSRF), только так
  • Unlimitedtor
    в мск одна цена будет, в нижневартовске другая и тп. так что пальцем в небо.
    если вопрос стоит чисто аналоги, то можно распарсить, но на прокси и антибан будет слишком дорого, не рентабельно 100%
  • rakovskiy28
    Comment media
    Да, cors не даст через Iframe
    • j0in_alex
      iframe — там вроде другие механизмы защиты (в хеадерах приходят)
      • rakovskiy28
        Мм, а если прокси на nginx, чтобы свой домен проксировал Ozon и для своего же домена делать iframe?
        • j0in_alex
          iframe тогда вообще в этой схеме не нужно (это просто лишнее)
          • rakovskiy28
            а как страницу кроме как через iframe отобразить на другой странице?
            • j0in_alex
              DOM просто отображаешь и все)
  • dmitriylanets
    в любом случае через сервер нужно
  • dmitriylanets
    1000 клиентов откроют один и тот же товар, 1000 запросов? нет, один серверный запрос + кеш
    • GroupAnonymousBot
      прокси на сервере помогут :)
  • myscode
    Через сколько запросов МП банят ip, fingerprint или там challenges?
    • Hapiks
      Нашёл у кого спросить
    • McConst
      Через фингерпринт не банят, так как это вообще стрельба по площадям. У эпплов все фингерпринты одинаковые, хрен забанишь. ip от провайдера динамические.
      • myscode
        Ну так мне интересно по каким признакам сейчас банят МП, какими методами ограничивают парсинг
        • McConst
          Максим в этой теме спец. То что парсил я, там были простые защиты, которые легко обходились.
          • dmitry236
            крутят вертят какой-нибудь puppeteer с библиотекой в stealth режиме, а потом хуяк, не работает. Виталик! Доставай Zennoposter, оставляй ноут открытым на ночь, будем по старинке парсить
            • McConst
              Не, ну это классика. Вопрос же был как жертва парсинга защищается и отсекает парсер-ботов от клиентов.
              • dmitry236
                если не лезут в поведение пользователя, то обычно проверка браузера на наличие систем автоматизации, проверка всяких webgl, webrtc, сверка часового пояса с временем пользователя

                интересно недавно было про то как google смотрит на поведение пользователя. Inside SearchGuard: How Google detects bots and what the SerpAPI lawsuit reveals - https://searchengineland.com/inside-google-searchguard-467676
            • dmaltt
              Зенопостер
  • isaev_an
    Макс, ты же сам рекомендовал плагин который на карточке товара на озоне или ВБ показывает альтернативы. Можно спросить у автора плагина что у него внутри.
  • maxicms
    А можно вопрос а поиск карточек по названию будет? Просто напряму в браузере да не получиться но можно поставить свой CORS proxy и все реалистичнее уже, нужно будет дальше смотреть но задача вполне реализуемая