Читаю такие комментарии и диву даюсь. Мол любая ИИ напишет код парсинга любого сайта за 5 минут. Рабочий код, подразумевая, что парситься будет без проблем.
Фантастические ребята, признаюсь. ИИ вообще может написать любой код, 100%. Но толку от этого кода в парсинге будем мало, т.к. вам надо: ротировать адреса, решать капчу, эмулировать человека и т.п.
Но я рад, что есть апологеты такой херни, т.к. это пока дает нам шанс зарабатывать :)
Русский ИТ бизнес
Русский ИТ бизнес
31 авг 2025 18:31
на входе html страница, на выходе плоский массив из данных. И перечисляли что нужно. Он пишет нормальный класс, я даже не вникал что там, мы вкинули набор страниц, получили данные. На нескольких сайтах при валидации выходных данных были ошибки, просто описываешь ИИ ошибки и он вносит исправления, всё работает.
А вот что касается краулинга/индексации страниц, ротации прокси, действия, очереди и пр - вот тут уже более сложная логика. Вот только есть ощущение, что крупняк типа brightdata, oxylabs и др. просто реализуют обход страниц с себя, а уже парсинг страниц поверх накидает ИИшка. Последний раз выгрузку данных из YC мы так и делали, я лишь указал морду, наш бот прошел на robots.txt, сохранил правила, потом пошел по всем страницам с пролистыванием страниц до низа. Дальше класс парсинга написал через ChatGPT.
Я не думаю что это будет решение для всех, особенно в мониторинге данных. Но разовый сбор данных многие будут делать сами, используя инфраструктуру этих игроков. Не просто так на инфраструктуре они заработали кратно больше агентств по парсингу. Сейчас на рынке все агентства собирают в пределах $2m/год, крупнее никого. А окси и брайтдата больше $30-50м каждый
Как самому научиться так управлять AI)
Где этому учат?)
В комментариях мы никогда не указываем какие модели используем, в каких IDE работаем, насколько у нас продвинутый опыт работы помимо промптов - с инструментами самой IDE и провайдера LLM. Какой опыт в разработке и какие поднимание архитектуры. Какие вводные данные
От всего этого и даже больше будет зависеть качество
И здесь вопрос не к ИИ - справится ли модель обученная на данных всего мирового кода и имеющая доступ к интернету и инструментам MCP типа Context7, здесь все завязано на самого разработчика и те инструменты которые он использует