Русский ИТ бизнес
Русский ИТ бизнес

  • Раздражительный Жираф
    Раздражительный Жираф
    Барбос, Монеточка - иноагент, а сеть - Монетка
  • Неоновый Клон
    Неоновый Клон
    Не благодари
    • Автор канала
      Автор канала
      картинок то нет. вот это главное
      • Суровый Официант
        Суровый Официант
        Я извлекаю через опен сорс docling, его можно докрутить под кастом. Он в md формат отдельно текст, отдельно картинки
  • Сонный Голубь
    Сонный Голубь
    Пора аутсорсить в Индию - там по линии OCR умеют приблизительно все.
  • Суровый Официант
    Суровый Официант
    Новую qwen3 ocr модель по апи попробуйте
  • Внеземной Мышонок
    Внеземной Мышонок
    в файлы разные форматы цен, нужно резать на квадратики, и писать парсер на каждый формат вида цены
    • Закатный Писатель
      Закатный Писатель
      Я токма так и сделал. Qwen3-Max. Коряво выходит. Надо найти нейросеть которая лучше всего переводит фото в текст
  • Внеземной Мышонок
    Внеземной Мышонок
    вот пример для ТСД работы с ActveCV https://habr.com/ru/articles/874560/ - в эту сторону копать,
  • Морщинистый Шериф
    Морщинистый Шериф
    На маке (на debian/ubuntu тоже вроде есть) выполнить команду

    pdfimages -tiff maket-kataloga-set_hmao_sfo_2209-280925.pdf ./images/

    Это выпотрошит все изображения из pdf в отдельные файлы.
    Проблем три конкретно с этим каталогом:
    - картики в CMYK (цветовое пространство печати).
    - маска (ч.б карта прозрачности) отдельно.
    - картинки не подписаны.
    • Автор канала
      Автор канала
      пробовали. картинки не айс. мусор. что только не пробовали уже
      • Морщинистый Шериф
        Морщинистый Шериф
        Это фактически те изображения, что есть внутри pdf. Если они не подходят, то брать картиник нужно из других источников. Например, по описанию товара искать на сайте Монетки.
  • Арктический Хореограф
    Арктический Хореограф
    Тоже есть задача вытаскивать из трёх разных видов ПДФ данные структурированно для последующего анализа. (файлы с отчётом о кредитной истории пользователя). У кого если был опыт, напишите в лс, готов заплатить за консультацию. Пробовал писать скрипты с чатжпт обращаясь по апи в яндекс облаке к квену, лламе — не смог завести чтобы стабильно работало на трёх разных пдф. Сначала естественно перевожу всё в json. Классический парсинг делать не можем, тк анализировать пдф надо будет регулярно и если "поставщик" что-то поменяет в вёрстке — пиши пропало.
  • Добрый Павлин
    Добрый Павлин
    Gemini отлично парсит 300 страниц pdf