Русский ИТ бизнес
Русский ИТ бизнес
Post media

Энтузиас собрал для парсинга

Энтузиас собрал для парсинга. Система из 50 узлов (нод), которая за 2 года собрала более 3,9 млн записей с одного очень популярного сайта по поиску работы.

Если вы не заметили, у него микро-ПК :) - ферма.

Автор использует полноценный браузер Chrome вместо "headless" (безголового) режима, так как сайт легко вычисляет автоматизацию и при этом применяется подмена параметров navigator.webdriver через JavaScript, чтобы сайт не видел, что браузером управляет робот.

Я только по поводу прокси не понял.

@bezsmuzi

Комментарии (10)

  • Мудрый Козел
    Мудрый Козел
    Фото из 2020 ?
  • Чесночный Минотавр
    Чесночный Минотавр
    Ну осталось на этом заработать, да?
  • Заляпанный Сухарь
    Заляпанный Сухарь
    Извращенец, лучше бы просто купил подписку на scrapingbee за 50$/мес
  • Буржуазный Фермер
    Буржуазный Фермер
    Вебдрайвер палится на раз два три
  • Речной Посол
    Речной Посол
    как будто очень слабое соотношение приложенных усилий к полученным данным
  • Плывущий Фанат
    Плывущий Фанат
    Вот хз, на одном выделенном серваке крутил 10-12 плейрайтов в параллель, полет нормальный
  • Ядерный Капитан
    Ядерный Капитан
    чем умеет махать, на том и взлетает
  • Ясный Единорог
    Ясный Единорог
    Просто не будет у зрителя ВАУ эффекта, комп и комп, у тут куча коробочек, цветные провода
  • Модный Шериф
    Модный Шериф
    а зачем нужно видео при парсинге?
    • Взлетающий Продюсер
      Взлетающий Продюсер
      Чтобы хедлесс режим не использовать, но есть и более простые решения, конечно