Русский ИТ бизнес 👨
Подписаться

Комментарии (0)

  • Epsiloncool
    Пока что нейросети плохо справляются с OCR. Если документ сложный - либо пропускают, либо додумывают от себя. Результат выглядит чистенько, только вот полная муть. Для извлечения же инфы из других типов файлов (где уже есть нормальный текст) уже есть вполне приличные штуки, встроенные в Apache Lucene, например. Я сам не пробовал, но там нормальные алгоритмы.
  • ReTurbo
    В word можно ?