Это выпотрошит все изображения из pdf в отдельные файлы.
Проблем три конкретно с этим каталогом:
- картики в CMYK (цветовое пространство печати).
- маска (ч.б карта прозрачности) отдельно.
- картинки не подписаны.
Автор канала
пробовали. картинки не айс. мусор. что только не пробовали уже
Морщинистый Шериф
Это фактически те изображения, что есть внутри pdf. Если они не подходят, то брать картиник нужно из других источников. Например, по описанию товара искать на сайте Монетки.
Арктический Хореограф
Тоже есть задача вытаскивать из трёх разных видов ПДФ данные структурированно для последующего анализа. (файлы с отчётом о кредитной истории пользователя). У кого если был опыт, напишите в лс, готов заплатить за консультацию. Пробовал писать скрипты с чатжпт обращаясь по апи в яндекс облаке к квену, лламе — не смог завести чтобы стабильно работало на трёх разных пдф. Сначала естественно перевожу всё в json. Классический парсинг делать не можем, тк анализировать пдф надо будет регулярно и если "поставщик" что-то поменяет в вёрстке — пиши пропало.
pdfimages -tiff maket-kataloga-set_hmao_sfo_2209-280925.pdf ./images/
Это выпотрошит все изображения из pdf в отдельные файлы.
Проблем три конкретно с этим каталогом:
- картики в CMYK (цветовое пространство печати).
- маска (ч.б карта прозрачности) отдельно.
- картинки не подписаны.