Мне посоветовали для RAG (спасибо) - Apache Tika - универсальный инструмент (а-ля “швейцарский нож” для айтишника), который умеет извлекать текст и метаданные из более чем тысячи типов файлов (от стандартных DOC, PDF и XLS до экзотики), облегчая жизнь при поиске, анализе, переводе и автоматизации работы с контентом через единый интерфейс.
Сказали, лучшее из существующего и наш спец подтвердил, что очень круто работает с PDF.
Русский ИТ бизнес
Русский ИТ бизнес 👨
Подписаться
Комментарии (0)
Комментариев пока нет.