- Telega.FM

Русский ИТ бизнес

31 авг 2025 18:31

Читаю такие комментарии и диву даюсь. Мол любая ИИ напишет код парсинга любого сайта за 5 минут. Рабочий код, подразумевая, что парситься будет без проблем.

Фантастические ребята, признаюсь. ИИ вообще может написать любой код, 100%. Но толку от этого кода в парсинге будем мало, т.к. вам надо: ротировать адреса, решать капчу, эмулировать человека и т.п.

Но я рад, что есть апологеты такой херни, т.к. это пока дает нам шанс зарабатывать :)

Русский ИТ бизнес

👍 0

Покинутый Плов 2025-08-31 18:33

Что типа ротировать адреса нейронка не напишет или капчу через какой то сервис не решит?)
- Ворчливый Монстр 2025-08-31 18:37
  
  Нет, не решит. Даешь задачу чуть сложнее "парсинга html", или "ротации прокси для запросов, с подменой юзер агента и т д" и все, ИИ садится в лужу, особенно, если попросишь написать это еще и с соблюдением текущей архитектуры проекта
  - Покинутый Плов 2025-08-31 18:38
    
    Не согласен, все зависит как промпт напишешь, конкретизируешь, уверен что справится, возможно не с первого раза, чуть чуть указывая на что обратить внимание
    - Ворчливый Монстр 2025-08-31 18:39
      
      По-всякому писал. Пока он выдаст нормальное решение и ты его направишь в нужное русло много времени пройдет. Проще и быстрее самому написать. В моей практике ИИ годится только для рутинных задач
      - Покинутый Плов 2025-08-31 18:40
        
        Хорошо каждый останется при своим мнении, по мне в нужных руках ИИ сделает эту задачу
        
        Ворчливый Монстр 2025-08-31 18:41
        
        Описанные мной сделает, а если нужна имитация присутствия человека на сайте, а не бота, тут не справляется уже
    - Раздражительный Жираф 2025-08-31 18:41
      
      Так это надо хоть чутка шарить. Заказчик или не шарит или не готов конвертить своё время на это.
Раздражительный Жираф 2025-08-31 18:49

Побуду немного душнилой. По факту парсер - как часть софта, которая извлекает данные из html, ИИ делает без проблем. Последние парсинги мы скармливали просто html страницу и просили ChatGPT написать парсер с промптом:

на входе html страница, на выходе плоский массив из данных. И перечисляли что нужно. Он пишет нормальный класс, я даже не вникал что там, мы вкинули набор страниц, получили данные. На нескольких сайтах при валидации выходных данных были ошибки, просто описываешь ИИ ошибки и он вносит исправления, всё работает.

А вот что касается краулинга/индексации страниц, ротации прокси, действия, очереди и пр - вот тут уже более сложная логика. Вот только есть ощущение, что крупняк типа brightdata, oxylabs и др. просто реализуют обход страниц с себя, а уже парсинг страниц поверх накидает ИИшка. Последний раз выгрузку данных из YC мы так и делали, я лишь указал морду, наш бот прошел на robots.txt, сохранил правила, потом пошел по всем страницам с пролистыванием страниц до низа. Дальше класс парсинга написал через ChatGPT.

Я не думаю что это будет решение для всех, особенно в мониторинге данных. Но разовый сбор данных многие будут делать сами, используя инфраструктуру этих игроков. Не просто так на инфраструктуре они заработали кратно больше агентств по парсингу. Сейчас на рынке все агентства собирают в пределах $2m/год, крупнее никого. А окси и брайтдата больше $30-50м каждый
- Прохладный Сурок 2025-08-31 19:08
  
  Блин.
  Как самому научиться так управлять AI)
  Где этому учат?)
  - Робкий Киллер 2025-08-31 19:16
    
    Включусь в полемику
    
    В комментариях мы никогда не указываем какие модели используем, в каких IDE работаем, насколько у нас продвинутый опыт работы помимо промптов - с инструментами самой IDE и провайдера LLM. Какой опыт в разработке и какие поднимание архитектуры. Какие вводные данные
    
    От всего этого и даже больше будет зависеть качество
    
    И здесь вопрос не к ИИ - справится ли модель обученная на данных всего мирового кода и имеющая доступ к интернету и инструментам MCP типа Context7, здесь все завязано на самого разработчика и те инструменты которые он использует