В общем остановились на этой могучей библиотеки для получения текстовых сущностей из разного формата файлов. Если по простому - на вход любой тип файла, на выходе plain text.
Эксперименты показали - с русским языком лучше всего работает именно она. 200 релизов, огромное количество контрибуторов, лицения MIT. Рекомендую. И да, это бесплатно.
Библиотека Unstructured в 2025 году поддерживает более 25 типов файлов (в платной версии платформы - более 65).
Русский ИТ бизнес
Русский ИТ бизнес 👨
Подписаться

Комментарии (0)
ну или json →plained text? Структура хранит саму суть данных, которую plained text теряет.
2. ИИ задержка по времени на API.
3. Мы транскрибацию делаем на сервере, затем полученный текст отправляем в ИИ, например в Нано Банана, Сора, ЖПТ.
PS: если можно сделать на сервере, то на ИИ не логично отправлять.