Русский ИТ бизнес
Русский ИТ бизнес
Post media

Google дает нам просраться :) В сутки до 2 млн

Google дает нам просраться :) В сутки до 2 млн. запросов на индексацию делает на проекте poisk.im. Видимо то, что сайт очень быстро откликается приносит плоды. Так то, чем больше страниц в индексе, тем лучше - ибо больше трафик (это в теории).

Проблема одна - боты. Парсят. Раньше на проекте была защита cloudflare, а теперь отключили, ибо РКН ругается на нее... но альтернатив нет (бесплатный тариф тоже неплохо работал).

Русский ИТ бизнес

Комментарии (34)

  • Мудрый Козел
    Мудрый Козел
    Ох уж эти негодяи что парсят сайт
  • Лохматый Осьминог
    Лохматый Осьминог
    Вот кстати, многоуважаемый коллега, а есть ли какой-то скрепный костыль-замена Cloudflare? Может вы свой кликфрауд адаптируете? Куплю )
    • Раздражительный Жираф
      Раздражительный Жираф
      И сколько в год готов платить?
      • Лохматый Осьминог
        Лохматый Осьминог
        Предлагай )

        А то боты задрали на ряде клиентских проектов, иногда перекос в сторону ботья 70 на 30, хер знает что делать. Думаю, что мудрейший Макс точно знает как это сделать, если научился гасить ботов с рекламного трафика.
        • Раздражительный Жираф
          Раздражительный Жираф
          Да у тебя всё равно денег нет)
          • Экологичный Священник
            Экологичный Священник
            вдруг есть
        • Невидимый Гриб
          Невидимый Гриб
          Магнитик с, холодильника на сервер повесить, что бы роботы прилипали. 😂
    • Экологичный Священник
      Экологичный Священник
      у Макса облачная капча была где-то
    • Автор канала
      Автор канала
      мы уже делаем. вовсю. скоро будет.
  • Острый Посол
    Острый Посол
    так тыж сам продаёшь защиту от ботов. что пошло не так?
    • Вышитый Пирожок
      Вышитый Пирожок
      видимо это другое ))
  • Полуразрушенный Козел
    Полуразрушенный Козел
    Гугл входит в 10% айти сервисов, которые вы не импортозаменили?
    • Вибрирующий Слон
      Вибрирующий Слон
      Заменили и Гугл - есть же Яндекс. Максим просто по доброте душевной поддерживает еще этих гугловцев (рублем с карты Кыргызстана). Я вон на своих проектах их ботам и индексацию закрыл. Только российским роботам разрешают индексировать свой ценный контент.
  • Заляпанный Сухарь
    Заляпанный Сухарь
    Настроил у себя Crowdsec, бесплатно, пару часов времени заняло.
    1. автоматически анализирует логи nginx, банит, если пытаются заюзать известные уязвимости или слишком активно ходят по сайту.
    2. настроил пару кастомных правил на быстрые и медленные парсеры, потому что меня тоже активно парсят. Правила типа "больше 60 запросов в минуту", "больше 500 запросов за 6 часов" (цифры подбираются в зависимости от реального трафика проекта по метрикам эмпирически - сколько бы не сделал обычный юзер)
    3. Есть белые и черные списки IP, можно доустанавливать
    4. Есть WEB админка, шлют отчеты на почту.

    Работает хорошо. Полностью конечно от парсинга не убережет, но защищает он основной массы простых парсеров и сильно удорожает парсинг (понадобится много-много прокси, чтоб спарсить меня полностью)
    • Мифический Пеликан
      Мифический Пеликан
      А РКН их одобряет? Есть опыт согласования?
      • Заляпанный Сухарь
        Заляпанный Сухарь
        Без понятия, если честно)
        По факту вся работа происходит локально, не представляю, к чему тут можно было бы докопаться.
        Если для ГОС учреждений с прям строгим контролем - можно форкнуть репу и сказать, что это не CrowdSec, а настоящий русский продукт ЗащитаТолпы 1.3.2 😏
        • Мифический Пеликан
          Мифический Пеликан
          Ставится локально на сервер и не гоняет трафик заграницу?
          • Заляпанный Сухарь
            Заляпанный Сухарь
            Да, всё так.
            Нюанс: с сервера он отстукивает данные за границу (потому что суть проекта по факту в обмене IP адресов злоумышленников, на их основе он свои эвристики строит), но это скорее всего можно отключить, если сильно надо (или, опять же, форкнуть решение - это open-source)
            • Экологичный Священник
              Экологичный Священник
              я сделал проще - обучил дерево решений распознавать логи нормальных браузеров и логи паразитов. все работает локально - парсеры и дидосы блочит на ура
              • Мифический Пеликан
                Мифический Пеликан
                Часто приходится переобучать?
                • Экологичный Священник
                  Экологичный Священник
                  ни разу с октября не переобучал
            • Мифический Пеликан
              Мифический Пеликан
              А само решение называется CrowdSec Blocklists?
              • Океанический Гоблин
                Океанический Гоблин
                Вспомнил. Называется clickfraud. Во, пусть Макс её вместо claudflare поставит. Отечественная защита от ботов. Хвалят.
                • Экологичный Священник
                  Экологичный Священник
                  а капча еще была
    • Экологичный Священник
      Экологичный Священник
      так ведь находятся те которые берут по 10 тыщ ip чтоб собрать карточки
      • Заляпанный Сухарь
        Заляпанный Сухарь
        ну если кто-то купил несколько десятков тыщ прокси, чтоб меня спарсить, пусть приходит ко мне напрямую - я ему за эти деньги мог прямое API сделать 😂
        • Экологичный Священник
          Экологичный Священник
          но они контакты не оставляют почему-то
  • Океанический Гоблин
    Океанический Гоблин
    Поставьте отечественную альтернативу. Попробую вспомнить название. Кажется xmldatafeed, но это не точно.
    • Мифический Пеликан
      Мифический Пеликан
      Блин, такое не запомнишь...
      • Океанический Гоблин
        Океанический Гоблин
        А что делать? Норм домены уже заняты и стоят от 400 тыс. 😊
  • Песчаный Робот
    Песчаный Робот
    Comment media
    Мне нравится поиск в poisk.fm, хочу iphone 16 pro max, но получаю "кран шаровой маршал", почти нашел, осталось еще чуть-чуть поискать
    • Автор канала
      Автор канала
      берите лучше кран шаровой. а не телефон
  • Бегущий Специалист
    Бегущий Специалист
    https://antibot.cloud/ альтернатива клауду есть
  • Прагматичный Мутант
    Прагматичный Мутант
    А в чём собственно проблема когда боты по вашему сайту ходят? Контент крадут? Нагрузка-то от них копеечная, зато разговоров много.