Совет нужен - есть ли вообще механизм (сервис) скачать весь текстовый контент с сайта, включая файлы pdf/word/excel? Без html/js/css и т.п. Мне нужно получить Google.Doc с всеми текстами (нужно сплошником в одном документе) и файлы отдельно.
Купил тут программку даже для этого на MacOs за цельных 6$, промучался час, но она скачивает сайт целиком, включая структуру, а мне для ИИ это лишнее...
Кто подскажет, поможет? :) Спасибо.
p.s. можно привлечь команду парсинга, это ясно, но вдруг есть более простые решения, сайт не защищается, сделать нужно один раз. prouniver.ru - вот этот. Хочу в rag закинуть.
Русский ИТ бизнес
10 апр 2026 16:58
Комментарии (75)
Он вам тестовое по этой теме писал. Дайте решить эту задачу ему.
git clone https://github.com/DaveRattan/webscraper-cli.git
cd webscraper-cli
pip install -r requirements.txt
# 2. Запустить (укажите ваш URL)
./webscraper scrape https://ваш-сайт.ru --depth 5
Ничего устанавливать не нужно, он там же в ноутбуке его запустит и выполнит
Он сделал :)
Гораздо более сложные приложения создаю, неужели такую легкотню не соберет?
Это bolt.new
На дополнительный импрувмент бесплатных токенов не хватило, хотел его попросить сделать кнопки чтобы сразу архивом скачивать все файлы - он говорит фигу, завтра приходи, дам дополнительные токены. Но если бабосиков не жалко - кидайте ему, он сразу сделает.
Риски. Когда бабулек много, как у Сбера, то рисковать малой долей выстрелит/не выстрелит легко. Когда их мало - страшно.
Когда будут соревнования на ринге, пишите в чат. Мы на вас ставки будем делать. Заработаем вам на стартап. 😊
Даже не пойму что триггером в 40+ послужило. Наверное книг про выживальщиков начитался. Готовится к апокалипсису.
1. По логике время руководителя сильно дороже и вообще бесценно, потому что как раз то, что делает босс зачастую не отчуждаемо и не делегируемо, т.е. ему остаются самые сложные задачи
2. Но, рисовые головастики заняты и вопрос с простейшим парсингом пытается решить Барбос лично
3. Он использует свой ресурс и приходит в чат, где ему предлагают заюзать парсер, common crawl или консоль
4. Он даёт жидкую трель, что это всё сложно и, не понимая о чём речь, идёт пить чай
5. Сообщество в ахуе от навыков псины и предлагает его выгнать из собственной конторы
6. Часть считает, что он не достоин складывать остатки от награбленного с головастиков на депозиты и шиковать, покупая новые авто и императорский фарфор
Так и живём
https://www.firecrawl.dev/playground?endpoint=scrape&url=prouniver.ru
При регистрации дарят 500 кредитов - на весь сайт хватит