- Telega.FM

Русский ИТ бизнес

3 авг 2025 11:35

👍 0

Epsiloncool
2025-08-03 12:07

Пока что нейросети плохо справляются с OCR. Если документ сложный - либо пропускают, либо додумывают от себя. Результат выглядит чистенько, только вот полная муть. Для извлечения же инфы из других типов файлов (где уже есть нормальный текст) уже есть вполне приличные штуки, встроенные в Apache Lucene, например. Я сам не пробовал, но там нормальные алгоритмы.
ReTurbo
2025-08-03 14:28

В word можно ?