Это выпотрошит все изображения из pdf в отдельные файлы.
Проблем три конкретно с этим каталогом:
- картики в CMYK (цветовое пространство печати).
- маска (ч.б карта прозрачности) отдельно.
- картинки не подписаны.
GroupAnonymousBot
пробовали. картинки не айс. мусор. что только не пробовали уже
polnodobra
Это фактически те изображения, что есть внутри pdf. Если они не подходят, то брать картиник нужно из других источников. Например, по описанию товара искать на сайте Монетки.
inishev
Тоже есть задача вытаскивать из трёх разных видов ПДФ данные структурированно для последующего анализа. (файлы с отчётом о кредитной истории пользователя). У кого если был опыт, напишите в лс, готов заплатить за консультацию. Пробовал писать скрипты с чатжпт обращаясь по апи в яндекс облаке к квену, лламе — не смог завести чтобы стабильно работало на трёх разных пдф. Сначала естественно перевожу всё в json. Классический парсинг делать не можем, тк анализировать пдф надо будет регулярно и если "поставщик" что-то поменяет в вёрстке — пиши пропало.
Комментарии (0)
pdfimages -tiff maket-kataloga-set_hmao_sfo_2209-280925.pdf ./images/
Это выпотрошит все изображения из pdf в отдельные файлы.
Проблем три конкретно с этим каталогом:
- картики в CMYK (цветовое пространство печати).
- маска (ч.б карта прозрачности) отдельно.
- картинки не подписаны.