Русский ИТ бизнес 👨
Подписаться
Post media
Google дает нам просраться :) В сутки до 2 млн. запросов на индексацию делает на проекте poisk.im. Видимо то, что сайт очень быстро откликается приносит плоды. Так то, чем больше страниц в индексе, тем лучше - ибо больше трафик (это в теории).

Проблема одна - боты. Парсят. Раньше на проекте была защита cloudflare, а теперь отключили, ибо РКН ругается на нее... но альтернатив нет (бесплатный тариф тоже неплохо работал).

Русский ИТ бизнес

Комментарии (34)

  • MyBests
    Ох уж эти негодяи что парсят сайт
  • Channel_Bot
    Вот кстати, многоуважаемый коллега, а есть ли какой-то скрепный костыль-замена Cloudflare? Может вы свой кликфрауд адаптируете? Куплю )
    • dmitry236
      И сколько в год готов платить?
      • Channel_Bot
        Предлагай )

        А то боты задрали на ряде клиентских проектов, иногда перекос в сторону ботья 70 на 30, хер знает что делать. Думаю, что мудрейший Макс точно знает как это сделать, если научился гасить ботов с рекламного трафика.
        • dmitry236
          Да у тебя всё равно денег нет)
          • Ut4J6
            вдруг есть
        • AlexandrAdolfovih
          Магнитик с, холодильника на сервер повесить, что бы роботы прилипали. 😂
    • Ut4J6
      у Макса облачная капча была где-то
    • GroupAnonymousBot
      мы уже делаем. вовсю. скоро будет.
  • Dahock
    так тыж сам продаёшь защиту от ботов. что пошло не так?
    • jromka68
      видимо это другое ))
  • noobmaster111
    Гугл входит в 10% айти сервисов, которые вы не импортозаменили?
    • amllexxx
      Заменили и Гугл - есть же Яндекс. Максим просто по доброте душевной поддерживает еще этих гугловцев (рублем с карты Кыргызстана). Я вон на своих проектах их ботам и индексацию закрыл. Только российским роботам разрешают индексировать свой ценный контент.
  • hedint
    Настроил у себя Crowdsec, бесплатно, пару часов времени заняло.
    1. автоматически анализирует логи nginx, банит, если пытаются заюзать известные уязвимости или слишком активно ходят по сайту.
    2. настроил пару кастомных правил на быстрые и медленные парсеры, потому что меня тоже активно парсят. Правила типа "больше 60 запросов в минуту", "больше 500 запросов за 6 часов" (цифры подбираются в зависимости от реального трафика проекта по метрикам эмпирически - сколько бы не сделал обычный юзер)
    3. Есть белые и черные списки IP, можно доустанавливать
    4. Есть WEB админка, шлют отчеты на почту.

    Работает хорошо. Полностью конечно от парсинга не убережет, но защищает он основной массы простых парсеров и сильно удорожает парсинг (понадобится много-много прокси, чтоб спарсить меня полностью)
    • servis_nn
      А РКН их одобряет? Есть опыт согласования?
      • hedint
        Без понятия, если честно)
        По факту вся работа происходит локально, не представляю, к чему тут можно было бы докопаться.
        Если для ГОС учреждений с прям строгим контролем - можно форкнуть репу и сказать, что это не CrowdSec, а настоящий русский продукт ЗащитаТолпы 1.3.2 😏
        • servis_nn
          Ставится локально на сервер и не гоняет трафик заграницу?
          • hedint
            Да, всё так.
            Нюанс: с сервера он отстукивает данные за границу (потому что суть проекта по факту в обмене IP адресов злоумышленников, на их основе он свои эвристики строит), но это скорее всего можно отключить, если сильно надо (или, опять же, форкнуть решение - это open-source)
            • Ut4J6
              я сделал проще - обучил дерево решений распознавать логи нормальных браузеров и логи паразитов. все работает локально - парсеры и дидосы блочит на ура
              • servis_nn
                Часто приходится переобучать?
                • Ut4J6
                  ни разу с октября не переобучал
            • servis_nn
              А само решение называется CrowdSec Blocklists?
              • McConst
                Вспомнил. Называется clickfraud. Во, пусть Макс её вместо claudflare поставит. Отечественная защита от ботов. Хвалят.
                • Ut4J6
                  а капча еще была
    • Ut4J6
      так ведь находятся те которые берут по 10 тыщ ip чтоб собрать карточки
      • hedint
        ну если кто-то купил несколько десятков тыщ прокси, чтоб меня спарсить, пусть приходит ко мне напрямую - я ему за эти деньги мог прямое API сделать 😂
        • Ut4J6
          но они контакты не оставляют почему-то
  • McConst
    Поставьте отечественную альтернативу. Попробую вспомнить название. Кажется xmldatafeed, но это не точно.
    • servis_nn
      Блин, такое не запомнишь...
      • McConst
        А что делать? Норм домены уже заняты и стоят от 400 тыс. 😊
  • access_unauthorized
    Comment media
    Мне нравится поиск в poisk.fm, хочу iphone 16 pro max, но получаю "кран шаровой маршал", почти нашел, осталось еще чуть-чуть поискать
    • GroupAnonymousBot
      берите лучше кран шаровой. а не телефон
  • gromov812
    https://antibot.cloud/ альтернатива клауду есть
  • Alexfilus
    А в чём собственно проблема когда боты по вашему сайту ходят? Контент крадут? Нагрузка-то от них копеечная, зато разговоров много.