Русский ИТ бизнес 👨
Подписаться

Комментарии (0)

  • dmitry236
    Барбос, Монеточка - иноагент, а сеть - Монетка
  • 625115967
    Не благодари
    • GroupAnonymousBot
      картинок то нет. вот это главное
      • rich_bro
        Я извлекаю через опен сорс docling, его можно докрутить под кастом. Он в md формат отдельно текст, отдельно картинки
  • olegsoko
    Пора аутсорсить в Индию - там по линии OCR умеют приблизительно все.
  • rich_bro
    Новую qwen3 ocr модель по апи попробуйте
  • oleshko_alexey
    в файлы разные форматы цен, нужно резать на квадратики, и писать парсер на каждый формат вида цены
    • bonchb
      Я токма так и сделал. Qwen3-Max. Коряво выходит. Надо найти нейросеть которая лучше всего переводит фото в текст
  • oleshko_alexey
    вот пример для ТСД работы с ActveCV https://habr.com/ru/articles/874560/ - в эту сторону копать,
  • polnodobra
    На маке (на debian/ubuntu тоже вроде есть) выполнить команду

    pdfimages -tiff maket-kataloga-set_hmao_sfo_2209-280925.pdf ./images/

    Это выпотрошит все изображения из pdf в отдельные файлы.
    Проблем три конкретно с этим каталогом:
    - картики в CMYK (цветовое пространство печати).
    - маска (ч.б карта прозрачности) отдельно.
    - картинки не подписаны.
    • GroupAnonymousBot
      пробовали. картинки не айс. мусор. что только не пробовали уже
      • polnodobra
        Это фактически те изображения, что есть внутри pdf. Если они не подходят, то брать картиник нужно из других источников. Например, по описанию товара искать на сайте Монетки.
  • inishev
    Тоже есть задача вытаскивать из трёх разных видов ПДФ данные структурированно для последующего анализа. (файлы с отчётом о кредитной истории пользователя). У кого если был опыт, напишите в лс, готов заплатить за консультацию. Пробовал писать скрипты с чатжпт обращаясь по апи в яндекс облаке к квену, лламе — не смог завести чтобы стабильно работало на трёх разных пдф. Сначала естественно перевожу всё в json. Классический парсинг делать не можем, тк анализировать пдф надо будет регулярно и если "поставщик" что-то поменяет в вёрстке — пиши пропало.
  • DADementr
    Gemini отлично парсит 300 страниц pdf