Google дает нам просраться :) В сутки до 2 млн. запросов на индексацию делает на проекте poisk.im. Видимо то, что сайт очень быстро откликается приносит плоды. Так то, чем больше страниц в индексе, тем лучше - ибо больше трафик (это в теории).
Проблема одна - боты. Парсят. Раньше на проекте была защита cloudflare, а теперь отключили, ибо РКН ругается на нее... но альтернатив нет (бесплатный тариф тоже неплохо работал).
Русский ИТ бизнес
Русский ИТ бизнес 👨
Подписаться

Комментарии (34)
А то боты задрали на ряде клиентских проектов, иногда перекос в сторону ботья 70 на 30, хер знает что делать. Думаю, что мудрейший Макс точно знает как это сделать, если научился гасить ботов с рекламного трафика.
Crowdsec, бесплатно, пару часов времени заняло.1. автоматически анализирует логи nginx, банит, если пытаются заюзать известные уязвимости или слишком активно ходят по сайту.
2. настроил пару кастомных правил на быстрые и медленные парсеры, потому что меня тоже активно парсят. Правила типа "больше 60 запросов в минуту", "больше 500 запросов за 6 часов" (цифры подбираются в зависимости от реального трафика проекта по метрикам эмпирически - сколько бы не сделал обычный юзер)
3. Есть белые и черные списки IP, можно доустанавливать
4. Есть WEB админка, шлют отчеты на почту.
Работает хорошо. Полностью конечно от парсинга не убережет, но защищает он основной массы простых парсеров и сильно удорожает парсинг (понадобится много-много прокси, чтоб спарсить меня полностью)
По факту вся работа происходит локально, не представляю, к чему тут можно было бы докопаться.
Если для ГОС учреждений с прям строгим контролем - можно форкнуть репу и сказать, что это не CrowdSec, а настоящий русский продукт ЗащитаТолпы 1.3.2 😏
Нюанс: с сервера он отстукивает данные за границу (потому что суть проекта по факту в обмене IP адресов злоумышленников, на их основе он свои эвристики строит), но это скорее всего можно отключить, если сильно надо (или, опять же, форкнуть решение - это open-source)