Русский ИТ бизнес 👨
Подписаться
Post media
Тут на Реддите парень сделал крутой инструмент для скрейперов - caniscrape.org 😎

Суть проекта:

Показывает, насколько сложно спарсить любой сайт, прежде чем ты начнешь писать код.

Что проверяет:

• Cloudflare, Akamai и другие защиты
• JavaScript-рендеринг
• CAPTCHAs и honeypots
• TLS-фингерпринтинг
• Рейт-лимиты

На выходе получаешь:

• Оценку сложности от 0 до 10
• Список активных защит
• Рекомендации по инструментам

Фишка в том, что это не обход защиты, а диагностика - чтобы не тратить время на сайты, которые всё равно не получится спарсить.

Есть и веб-версия, и CLI через pip.

А я смотрю и думаю: насколько же выросла индустрия парсинга, если уже появляются такие специализированные инструменты!

Русский ИТ бизнес

Комментарии (0)

  • kirillswed
    Прикольно, можно и свои сайты так тестить если от парсерменов горит жопа
  • coolelvis
    Comment media
  • qzqwx
    х*йня сервис, авито дал 0\10, с пятерочкой тоже 0\10
    • dmitry236
      Comment media
      вы нахуя всё сломали
      • qzqwx
        Comment media
        он после 200 секунд домклика упал(
        • Ut4J6
          эти знаменитые могучие парни с редита
    • bonchb
      Вы б почитали ЧЗВ прям на первой странице сайта (почему никто никогда нихера не читает это вопрос ))) Почему не работают российские (.ru) сайты?
      - Большинство российских сайтов автоматически блокируют IP-адреса западных дата-центров из соображений безопасности. Наш бесплатный тарифный план работает на Railway (США), который часто блокируется.

      Решение: CLI-версия отлично работает на российских сайтах, поскольку использует ваш IP-адрес.
  • coolelvis
  • Gesbes
    Ага не работает
  • dmitry236
    завтра читаем на реддите, как чувак рассказывает, что толпа русских положила ему сайт
  • Null_Solid
    Для озона - DIFFICULTY SCORE: 0/10 (Easy)
    Шляпный сервис
  • alef_nul
    Free tier limitation: Some sites (especially .ru domains, e-commerce, and banking sites) may block our datacenter IP. For best results, use the CLI version:pip install caniscrape
    • dmitry236
      подсуетился шкет, видит что паства Макса всё сломала)
  • alef_nul
    плохая новость. сейчас все начнут свои сайты гонять и прикручивать анти-парсинг тулзы
    • dmitry236
      т.е. они даже не в курсе, что у них там на сайте, что его надо гонять?
    • bonchb
      Все эт кто? ))) Для того чтобы цвет кнопки на сайте поменять надо в этом глубоко разбираться. А тут прикрутить кучу фич. Не... И да, не надо про ИИ который даст советы и даже владельцы этих сайтов которые предприниматели торгующие тапочками за 5 минут все сделают. Открою секретик - многие понятия не имеют как пользоваться ИИ до сих пор. Они об ентом токма по телевизору слышали.
  • coolelvis
    Comment media
  • coolelvis
    cli не cli - все равно easy