"Ты должен был бороться со злом, а не примкнуть к нему" :)
"Ты должен был бороться со злом, а не примкнуть к нему" :)Cloudflare запустил сервис, который одним вызовом парсит весь сайт. Чужой. Целиком. Если забыли, то Cloudflare – абсолютный лидер как раз в защите сайтов от нежелательных краулеров и ботов, которые собирают данные для обучения ИИ.
Правда их бот уважает правила в robots.txt (но кто там в детали вникает...)
К слову, в clickfraud.ru мы скоро очень запустим сервис - на вход Excel с товарами, а на выходе цены на них на Ozon + Wb. Мы ведь боремся с плохими ботами, но делаем хороших :)
@bezsmuzi

Комментарии (16)
и спросила кроха:
- Что такое хорошо и что такое плохо?
- У меня секретов нет, слушайте, детишки, —
папы этого ответ помещаю
в книжке.
и в суд )
Но как именно он на выходе отдает пока вопрос
Вероятно это просто дамп контента страниц, который можно локально разобрать уже самостоятельно, а не полноценный продукт Парсинга
А потом прогружать страницу, рендерить и отдавать HTML/MD
Но там мусора много будет
А вот что будет если ему дать прям огроменный сайт по типу паркетплейса или условно Гугла (он в блеклисте по любому)
То это вопрос, надо тестить, но уверен будет квота и денег просить
Хотя cloudflare и так почти единственный бесплатно проксиует трафик, так что надо тестить или доку читать подробнее
Но JS явно не проблема