Читаю такие комментарии и диву даюсь. Мол любая ИИ напишет код парсинга любого сайта за 5 минут. Рабочий код, подразумевая, что парситься будет без проблем.
Фантастические ребята, признаюсь. ИИ вообще может написать любой код, 100%. Но толку от этого кода в парсинге будем мало, т.к. вам надо: ротировать адреса, решать капчу, эмулировать человека и т.п.
Но я рад, что есть апологеты такой херни, т.к. это пока дает нам шанс зарабатывать :)
Русский ИТ бизнес
Русский ИТ бизнес 👨
Подписаться
Комментарии (0)
на входе html страница, на выходе плоский массив из данных. И перечисляли что нужно. Он пишет нормальный класс, я даже не вникал что там, мы вкинули набор страниц, получили данные. На нескольких сайтах при валидации выходных данных были ошибки, просто описываешь ИИ ошибки и он вносит исправления, всё работает.
А вот что касается краулинга/индексации страниц, ротации прокси, действия, очереди и пр - вот тут уже более сложная логика. Вот только есть ощущение, что крупняк типа brightdata, oxylabs и др. просто реализуют обход страниц с себя, а уже парсинг страниц поверх накидает ИИшка. Последний раз выгрузку данных из YC мы так и делали, я лишь указал морду, наш бот прошел на robots.txt, сохранил правила, потом пошел по всем страницам с пролистыванием страниц до низа. Дальше класс парсинга написал через ChatGPT.
Я не думаю что это будет решение для всех, особенно в мониторинге данных. Но разовый сбор данных многие будут делать сами, используя инфраструктуру этих игроков. Не просто так на инфраструктуре они заработали кратно больше агентств по парсингу. Сейчас на рынке все агентства собирают в пределах $2m/год, крупнее никого. А окси и брайтдата больше $30-50м каждый
Как самому научиться так управлять AI)
Где этому учат?)
В комментариях мы никогда не указываем какие модели используем, в каких IDE работаем, насколько у нас продвинутый опыт работы помимо промптов - с инструментами самой IDE и провайдера LLM. Какой опыт в разработке и какие поднимание архитектуры. Какие вводные данные
От всего этого и даже больше будет зависеть качество
И здесь вопрос не к ИИ - справится ли модель обученная на данных всего мирового кода и имеющая доступ к интернету и инструментам MCP типа Context7, здесь все завязано на самого разработчика и те инструменты которые он использует
Если делегировать это ии то это еще процессы по управлению железом: терраформ, кубернетис, ci/cd автоматизация
И еще отдельно все равно ручная работа по согласованию схем данных для разных сайтов
Можно ли спарсить самому? - можно
И при этом не вспотеть? - не можно
Быстрее и дешевле обратиться к готовому сервису? - да
Если Вам не нужен Озон а достаточно распарсить все курсы яндекс практикума (программа) то справится и FireCrawl AI
Тут один спец есть в чате, который наговорит, напостит всякого, заражает других хулиганским примером не думая, что чат могут читать дети
Так вот, иногда он делится инсайдами своего SEO бизнеса и почему бы и не да? Бережно сохраняю его реки. Думаю вот аналог такого SEO сервиса запилить, благо, много API сейчас доступно и Букварикс, и Текст Ру, и Search Engine и другие. Сейчас добью конструктор фронтенда и вперед, к великим целям!