Русский ИТ бизнес 👨
Подписаться
Post media
Мы делаем сервис (на мир, к слову) - на вход домен, на выходе структурированные данные. Собрали контент, обработали ИИ и т.п. Задача самая важная и первая - сделать sitemap всего сайта и собрать сырой контент.

На картинке делюсь промежточными итогами скорости сбора. Не айс, но зато мы не очень нагрузим сайты. А то боялись, что с помощью нашего сервиса будут неприятно нагружать сайты, мешая работе.

Русский ИТ бизнес

Комментарии (0)

  • SergeevDev
    Сколько у вас сборщиков на один сайт?
    • GroupAnonymousBot
      пока один сервер. это маловато
  • SergeevDev
    Есть проект заграничный, не буду рекламировать… у них на один сайт больше 50 сборщиков, думаю 🤔 принцип работы понятен
  • Channel_Bot
    Почему не берете официальную sitemap?
    • 316174981
      за ней же часто не следят
      • Channel_Bot
        что-то мне кажется, что любая современная cms следим за ним автоматом
        • 316174981
          неа. далеко не всегда. да и много сайтов не на коммерческих цмс, а на самописных. там часто на это забивают
    • SergeevDev
      Будто создать карту сайта это просто :) смешной такой
      • dmitry236
        а что в этом сложного? Ходи по страницам, смотри canonical и заголовки
        • Ut4J6
          пока тебя не внесут во все блеклисты планеты земля
          • dmitry236
            ну не внесли до сих пор, хожу
            • Ut4J6
              они ж хотят сделать сервис и парсить любой сайт на который покажет рандомный китаец
              • dmitry236
                слабаки, надо было просто заранее обойти все сайты
                • Ut4J6
                  проще флешку с интернетом заказать
                  • dmitry236
                    у меня на ноутбуке нет USB порта
                    • Ut4J6
                      чтож, значит жди пока Максим Владимирович сделает сервис, скачаешь у него
                  • alexy_os
                    Или изучить аолгоритмы HTTrack единственная стабильная прога с которой не было проблем с закачкой любых сайтов
                    • Ut4J6
                      Максим со своими студентами изобретает велосипед? Я так и думал
                      • alexy_os
                        Вообще-то это я вам с Димоном скинул прогу чтобы скачали для нас интернет на флэшки
                        • Ut4J6
                          у него нет юэсби, мне одному что ли качать?
                          • McConst
                            Дай угадаю. Он из секты яблочников и там забыли поставить USB. Или не умеют этого делать.
                            • alexy_os
                              Всё верно. Девайс работает без usb и сам является носителем
                            • Ut4J6
                              или кгб им тоже не продлила лицензию
                          • alexy_os
                            Купите у меня девайс https://t.me/Russian_IT_Business/312016
                            • Ut4J6
                              а зачем он?
                              • alexy_os
                                Чтобы стать единственным владельцем своих данных и никакой депутат вас не обокрал https://t.me/Russian_IT_Business/311976
                                • Ut4J6
                                  а что там за железо, какая ось? все ли китайские закладки установлены, хорошо ли припаяны?
                                  • McConst
                                    Так локально же работает. Ставьте файрвол или физически убивайте интернет и всё ОК. К тому же китайцы пока на 300 млрд. мою Родину не обкрадывали. Им больше доверия.
                                    • Ut4J6
                                      так у меня уже есть 2 телефона без симкарт
                                      • McConst
                                        Судебные приставы через суд сим-карты изъяли? Сочувствую.
                                        • Ut4J6
                                          просто кгб лицензию не продлила
                                          • McConst
                                            Comment media
                                            Прикольно. Скрипты, кажись, в бесконечный цикл ушли
                                            • Ut4J6
                                              наверное кгб лицензию не продлила
                                    • alexy_os
                                      А когда заорут: «лежать руки на пол», что будет с вашим телефоном / компом / хдиском?
                                      • McConst
                                        Я с кнопочной звонилкой хожу. Здесь с десктопа печатаю. Но если оценить трезво, то ничего крамольного не писал.
                                        • alexy_os
                                          Ну мы же обсуждаем как уберечь данные, например корпоративные, - от конкурентов, которые юзают лубянку в своих коммерческих целях
                                  • alexy_os
                                    А вот это уже от Вас зависит. Смотря по нуждам в конструкторе соберете. Вы сами решаете как упаковать ось и полностью владеете информацией как что устроено и какие библиотеки / драйвера / компоненты установлены

                                    Опционально

                                    - сжигание начинки от вторжения
                                    - нано корпус не горит в огне
                                    - водонепроницаем
                                    - амортизация от ударов

                                    И так далее. Корпус открывается и активируется при открытии только во время работы. В мертвом (не спящем) режиме защищен физически и можно колоть орехи
      • DADementr
        Один скрипт не большой, раз в сутки проверять базу и обновлять карту.
  • SergeevDev
    Проблема в том, чтобы правильно ✅ найти и корректно обработать информацию все URL
  • DarkNet1982
    Делал подобное на гошке. Порядка 1000 сайтов, 5м страниц с 4 серверов парсилось где-то час. И не по сайтмапу, а по поиску ссылок на страницах
    • blaqdog
      посчитал
      допустим 1000 сайтов доноров выдержат по 5000 запросов в час - 2 запроса в секунду
      а ваш сервер получается выполнял 1.25м запросов в час - это 347 запросов в секунду?
      там были только запросы или еще какая-то логика, записи в базу данных выполнялись?
      как-то жирно выходит
      • MikFoxi
        это выглядит как ддос сайтов, за это можно привлечь.
        • Ut4J6
          говоришь как агент обхсс
      • DarkNet1982
        4 сервера, сам парсинг больше 500 потоков. И нагрузка то не на один сайт в 347 запросов. Логики никакой, получили контент отправили в кафку
      • Ut4J6
        347 в секунду жирно?