Русский ИТ бизнес
Русский ИТ бизнес
Post media

"Ты должен был бороться со злом, а не примкнуть к нему" :)

"Ты должен был бороться со злом, а не примкнуть к нему" :)

Cloudflare запустил сервис, который одним вызовом парсит весь сайт. Чужой. Целиком. Если забыли, то Cloudflare – абсолютный лидер как раз в защите сайтов от нежелательных краулеров и ботов, которые собирают данные для обучения ИИ.

Правда их бот уважает правила в robots.txt (но кто там в детали вникает...)

К слову, в clickfraud.ru мы скоро очень запустим сервис - на вход Excel с товарами, а на выходе цены на них на Ozon + Wb. Мы ведь боремся с плохими ботами, но делаем хороших :)

@bezsmuzi

Комментарии (16)

  • Алый Повар
    Алый Повар
    Сейчас хайп в сфере майнинга даты и продажи ИИ сервисам
  • Лохматый Осьминог
    Лохматый Осьминог
    а за сколько денег парсит?
    • Автор канала
      Автор канала
      а я не нашел цены.
  • Аметистовый Марабу
    Аметистовый Марабу
    Это просто другое, тут понимать надо 😂
  • Оранжевый Агент
    Оранжевый Агент
    Крошка сын к отцу пришёл,
    и спросила кроха:
    - Что такое хорошо и что такое плохо?
    - У меня секретов нет, слушайте, детишки, —
    папы этого ответ помещаю
    в книжке.
  • Маслянистый Посол
    Маслянистый Посол
    можно сделать робот открытым - потом закрытым
    и в суд )
  • Лохматый Осьминог
    Лохматый Осьминог
    Я долго ждал этот момент
  • Скрипучий Миротворец
    Скрипучий Миротворец
    А API у вас на этом продукте будет, чтобы с Экселем не возиться?
  • Океанический Гоблин
    Океанический Гоблин
    И вы так делайте. На тех площадках, где не стоит clickfraud можете продавать скликивание рекламы 😊
  • Океанический Гоблин
    Океанический Гоблин
    А много он нарарсит, если сайт рендерится через JS на клиенте? Обычно парсить надо не одну страницу, а всю базу данных. Для этого нужно изучать структуру запроса страниц на площадке и способы их перебрать.
    • Бирюзовый Андроид
      Бирюзовый Андроид
      Comment media
      Там browser rendering

      Но как именно он на выходе отдает пока вопрос

      Вероятно это просто дамп контента страниц, который можно локально разобрать уже самостоятельно, а не полноценный продукт Парсинга
      • Океанический Гоблин
        Океанический Гоблин
        Просто сайт google.com - это условно пустая страница со строкой поиска. Думаете он эту площадку распарсит? Всю?
        • Бирюзовый Андроид
          Бирюзовый Андроид
          Думаю что по ссылкам связанным будет, как автокравлеры
          А потом прогружать страницу, рендерить и отдавать HTML/MD

          Но там мусора много будет

          А вот что будет если ему дать прям огроменный сайт по типу паркетплейса или условно Гугла (он в блеклисте по любому)
          То это вопрос, надо тестить, но уверен будет квота и денег просить

          Хотя cloudflare и так почти единственный бесплатно проксиует трафик, так что надо тестить или доку читать подробнее

          Но JS явно не проблема
  • Пылкий Андроид
    Пылкий Андроид
    Генерацию токена в ВБ сделали? А обход защиты в Ozon? TLS fingerprint(JA3/JA4) + challenge page. Чтобы все на запросах гонять
  • Вспотевший Бутерброд
    Вспотевший Бутерброд
    Это у врагов шпионы, а у нас благородные разведчики
  • Экологичный Боб
    Экологичный Боб
    curl принято запрещать извне в мапе и делать доступным только локально