Русский ИТ бизнес 👨
Подписаться
Читаю такие комментарии и диву даюсь. Мол любая ИИ напишет код парсинга любого сайта за 5 минут. Рабочий код, подразумевая, что парситься будет без проблем.

Фантастические ребята, признаюсь. ИИ вообще может написать любой код, 100%. Но толку от этого кода в парсинге будем мало, т.к. вам надо: ротировать адреса, решать капчу, эмулировать человека и т.п.

Но я рад, что есть апологеты такой херни, т.к. это пока дает нам шанс зарабатывать :)

Русский ИТ бизнес

Комментарии (0)

  • alexar95
    Что типа ротировать адреса нейронка не напишет или капчу через какой то сервис не решит?)
    • maruspro
      Нет, не решит. Даешь задачу чуть сложнее "парсинга html", или "ротации прокси для запросов, с подменой юзер агента и т д" и все, ИИ садится в лужу, особенно, если попросишь написать это еще и с соблюдением текущей архитектуры проекта
      • alexar95
        Не согласен, все зависит как промпт напишешь, конкретизируешь, уверен что справится, возможно не с первого раза, чуть чуть указывая на что обратить внимание
        • maruspro
          По-всякому писал. Пока он выдаст нормальное решение и ты его направишь в нужное русло много времени пройдет. Проще и быстрее самому написать. В моей практике ИИ годится только для рутинных задач
          • alexar95
            Хорошо каждый останется при своим мнении, по мне в нужных руках ИИ сделает эту задачу
            • maruspro
              Описанные мной сделает, а если нужна имитация присутствия человека на сайте, а не бота, тут не справляется уже
        • dmitry236
          Так это надо хоть чутка шарить. Заказчик или не шарит или не готов конвертить своё время на это.
  • dmitry236
    Побуду немного душнилой. По факту парсер - как часть софта, которая извлекает данные из html, ИИ делает без проблем. Последние парсинги мы скармливали просто html страницу и просили ChatGPT написать парсер с промптом:

    на входе html страница, на выходе плоский массив из данных. И перечисляли что нужно. Он пишет нормальный класс, я даже не вникал что там, мы вкинули набор страниц, получили данные. На нескольких сайтах при валидации выходных данных были ошибки, просто описываешь ИИ ошибки и он вносит исправления, всё работает.

    А вот что касается краулинга/индексации страниц, ротации прокси, действия, очереди и пр - вот тут уже более сложная логика. Вот только есть ощущение, что крупняк типа brightdata, oxylabs и др. просто реализуют обход страниц с себя, а уже парсинг страниц поверх накидает ИИшка. Последний раз выгрузку данных из YC мы так и делали, я лишь указал морду, наш бот прошел на robots.txt, сохранил правила, потом пошел по всем страницам с пролистыванием страниц до низа. Дальше класс парсинга написал через ChatGPT.

    Я не думаю что это будет решение для всех, особенно в мониторинге данных. Но разовый сбор данных многие будут делать сами, используя инфраструктуру этих игроков. Не просто так на инфраструктуре они заработали кратно больше агентств по парсингу. Сейчас на рынке все агентства собирают в пределах $2m/год, крупнее никого. А окси и брайтдата больше $30-50м каждый
    • ReTurbo
      Блин.
      Как самому научиться так управлять AI)
      Где этому учат?)
      • alexy_os
        Включусь в полемику

        В комментариях мы никогда не указываем какие модели используем, в каких IDE работаем, насколько у нас продвинутый опыт работы помимо промптов - с инструментами самой IDE и провайдера LLM. Какой опыт в разработке и какие поднимание архитектуры. Какие вводные данные

        От всего этого и даже больше будет зависеть качество

        И здесь вопрос не к ИИ - справится ли модель обученная на данных всего мирового кода и имеющая доступ к интернету и инструментам MCP типа Context7, здесь все завязано на самого разработчика и те инструменты которые он использует
      • dmitry236
        хз, я строительный техникум колледж заканчивал)
  • dmitry236
    Самое что смешное, что прокси фермы в итоге мне кажется запретят, а вот то что трафик тихо гонится через чужие мобильные приложения - это останется и крупные операторы будут по-прежнему предлагать очень большие объемы, которые никто у себя повторить не сможет, к тому же они всю эту инфраструктуру делят (продают) на всех
  • bonchb
    Мысли интересные вокруг, но не полные. Я партии по малой нужде как обычный скраппер где нет защиты. Если бы стояла задача сломать антипарсинговый форт Нокс то сломал бы. Не было в моей жизни того чего я бы не смог взломать. Была цена - приемлемая и неприемлимвя. Муж при капитализме живем и бьемся за улучшение уровня жизни своего а не ради любви к искусству и не ради признания всех соседей что у тебя самый длинный и толстый.
  • bonchb
    Я к чему (часть 2). Скоро научат ИИ парсить все. Обучат алгоритмы и создадут новый срнет 55.0 парсинг ломатель. Если с юр. Точки зрения не этично - ну значит откроют компанию на Науру или вуануту, и будут показательно бороться с интернет анархистами на протяжении 10 лет в американских судах. Ну типа бороться. Спасение утопающих дело рук самих утопающих. Я вижу это как в рендомном загрязнении html кода. Парсеры начнут глючить от спамного html. А как вы думаете коллеги?
    • alexy_os
      Проблема не в том справится ли ии, а в самой инфраструктуре. Сколько Максу приходится поднимать железа и ручных правок

      Если делегировать это ии то это еще процессы по управлению железом: терраформ, кубернетис, ci/cd автоматизация

      И еще отдельно все равно ручная работа по согласованию схем данных для разных сайтов
  • stepanov_nikolai
    В итоге

    Можно ли спарсить самому? - можно

    И при этом не вспотеть? - не можно

    Быстрее и дешевле обратиться к готовому сервису? - да
    • bonchb
      Аха. Только методичку и чек лист добавить с таймингом. 10 минут и проверочный список действий. Не уложился? Тогда к Максу и Ко что дешевле. И естессно эта методичка должна быть разработана, оплачена и распространена Максом и Ко, ибо эта сцуко Се Ля Ви. Ну так весь мир живет. Переместить бы наши жопы в венчурных среду, и поиск м хуем Макса который на старт ЦТ пролетел сделал бы из него Брина 2.0. И он бы щас давал интервью на миллионные аудитории что гениями как я не становятся, ими блядь рождаются 👀
    • alexy_os
      Да

      Если Вам не нужен Озон а достаточно распарсить все курсы яндекс практикума (программа) то справится и FireCrawl AI
      • mtrnkwas
        А вы бурж SEO не занимаетесь?
        • alexy_os
          Пока нет, но планирую

          Тут один спец есть в чате, который наговорит, напостит всякого, заражает других хулиганским примером не думая, что чат могут читать дети

          Так вот, иногда он делится инсайдами своего SEO бизнеса и почему бы и не да? Бережно сохраняю его реки. Думаю вот аналог такого SEO сервиса запилить, благо, много API сейчас доступно и Букварикс, и Текст Ру, и Search Engine и другие. Сейчас добью конструктор фронтенда и вперед, к великим целям!
          • mtrnkwas
            Понятно. А то я свой сервис пилю семантического поиска по буржу. Думал показать кому знающему свой MVP
          • dmitry236
            Если соберешься, посмотри у этих ребят тоже есть текстовый анализатор, но за качество не знаю - https://www.rush-analytics.ru/faq/rukovodstvo-po-tekstovomu-analizatoru
            • mtrnkwas
              Можно скину тебе в личку ссылку на свой MVP семантического поиска?
              • dmitry236
                да, конечно
  • yury_webscraping
    Скоро будет 90% вайб кодинга и 10% тех кто потом это разгребает после них
  • miiikaaa
    По поводу все на ИИ