Русский ИТ бизнес 👨
Подписаться
Post media
Не уверен, что мы бы в xmldatafeed.com вообще взялись бы за такую задачу - парсинг регулярны 300 000 сайтов. Можно, полагаю, использовать наши наработки в ИИ анализе, но это не быстро и будут баги (мы такое уже делаем, я вижу как тяжко идет).

В общем почитайте на картинке, задача реально сложная, но занятная технически.

Русский ИТ бизнес

Комментарии (0)

  • ksv77777
    альтман шифруется
  • DADementr
    Раз в минуту 300к.. Не думаю, что у него есть столько бабла
    • yury_webscraping
      Не думаю что они построят такую систему и у них есть экспертиза. Это не монолитное решение
      • Ut4J6
        почему не монолитное, ну субд только
        • yury_webscraping
          Один сервер не вытащит парсинг со скоростью 300тым сайтов в минуту или 5 тыс в сек
          • Ut4J6
            а может вытащит?
            • yury_webscraping
              Не... Или. Там такой монстр должен быть
  • Maxim279
    Просто ЦОД нужен, а программно - вполне решаемо ))
    • DADementr
      Дак да, все упирается только в бабло
  • Jury_yavkin
    это из разряда "здравствуйте, нам нужен аналог яндекс доставки, такие же приложения для пользователя и курьера, чтоб было в реально времени где идет курьер на карте и т.д., бюджет хороший - 1 млн руб"
    • DADementr
      Это еще хорошо. Ко мне тут пришел один. Хочу приложение помощника для врача. Расшифровка анализов, опросник итд.
      Я грит с чатгпт начал делать, но что-то не срослось, но все просто вы разберётесь. Спросил о бюджете. Бюджет 100€
      Порекомендовал ему у гпт уточнить стоимость разработки и сроки.
      В общем похоже уточнил. Так как больше его никто не видел 🤷
    • khaydukov
      случайно не Дмитрий обращался с таким запросом?😂
      один в один задачу пытались поставить
  • KTarasov
    У большинства новостников есть RSS, т.ч. вообще не проблема. А вот 300 тыс. раз в минуту мало реально.
    • Ut4J6
      на rss давно забили хер, можно гуглоновостную схему юзать, но не у всех она доступна
      • KTarasov
        У большинства он генерируется автоматом.
        И, как Вы верно заметили, есть ещё разметки JSON+LD и Schema.org
      • McConst
        А если проверять не rss, а robots.txt?
        • dmitry236
          можно найти ссылки на sitemap или новостной sitemap и уже потом его дергать
        • Ut4J6
          да, там может быть намек на sitemap-news
  • p4eline
    откуда интересно такая цифра взялась - 300 000? Он собрал все СМИ мира? так у 90% наверное перепосты, смысл их все мониторить?
    • DADementr
      А это уже следующая задача разработки. Отфильтровать дубли за туже минуту 😅
    • dmitry236
      мы собрали, сайтов меньше)
  • maxicms
    300к это хотелка на перспективу понятно что начнут с 5к - 10к рсс не везде есть но где есть это да облегчает жизнь парсить нужно только заголовок и анонс и только у новых материалов про остальное я пока умолчу :)))) но интересно. Я пообщался с ребятами с хостинг компании сказали что упремся в ширину канала даже если поставим 10Гб то не больше 3к-5к на сервер источников а так порядка 30 дедиков могут вытянуть задачу при этом настроить правильно распараллеливание и очереди с воркерами
  • maxicms
    Бюджет чисто на железо и трафик примерно 1М в месяц но точно будет понятно через месяц , я поологаю что сумма будет в районе 5М
  • maxicms
    😂 но полагаю клиент поидет искать дешевле :)
  • McConst
    Согласно специальной теории относительности 300 000 - это предел
    • rznvlxndr
      Новости больше 300 000 показывают будущее получается)
  • RatioEkb
    мне кажется дешевле(даже с учетом кривых дорог и санкций) подключить терминал Блумберг. Который делает то, что попросили примерно за 5000$ в месяц
  • roman_pst
    Как же лениво людям подумать и внимательно поискать готовый сервис, просто диву даёшься)
    И да, парсинг для этого кейса тупиковая по костам техноложка
  • Madmages
    Раздел энокомики tass.ru вести 297кб(округлим до 300кб). Предположим, это усредненный вариант.

    сеть
    300 000 * 300kb = 90гб в минуту. И это идеальный вариант, если не идеальный то будет больше.
    90гб / 60сек * 8 = 12гигабит должен быть весь кластер.
    Гигабит в ЦОДе стоит около 40к руб\мес (скорей всего можно меньше найти)
    480к руб.\мес.

    сервера
    300к запросов / 60сек = 5к RPS.
    Если прикинуть что у нас 12 серверов по гигабиту то 5к/12 = 417 rps на сервер что на сервак баксов за 100 должно быть норм(+- предположительно)
    100 * 12 * ~90(курс бакса) = 108к руб\мес

    508к это +- идеальная стоимость в месяц за железо за то, чтобы просто скачать страничку и куда-то сохранить ее без сложных манипуляций.
    Сюда накидываем стоимость работников, проксей, сложность бизнес логики, сложность обхода блокировок и стоимость проекта почти наверняка улетает за милион если экономить на всех спичках мира.
    • dmitry236
      У меня на год также получилось примерно, $120к только себестоимость с учетом, что знаешь что и как будешь делать