Русский ИТ бизнес 👨
Подписаться
Post media
В общем остановились на этой могучей библиотеки для получения текстовых сущностей из разного формата файлов. Если по простому - на вход любой тип файла, на выходе plain text.

Эксперименты показали - с русским языком лучше всего работает именно она. 200 релизов, огромное количество контрибуторов, лицения MIT. Рекомендую. И да, это бесплатно.

Библиотека Unstructured в 2025 году поддерживает более 25 типов файлов (в платной версии платформы - более 65).

Русский ИТ бизнес

Комментарии (0)

  • servis_nn
    Кто пишет тект?
  • servis_nn
    Кто пишет текст?
  • McConst
    На вход таблица excel, а на выход plained text? Объясните прикол, какой смысл в plained text, полученный из таблицы excel?
    ну или json →plained text? Структура хранит саму суть данных, которую plained text теряет.
    • GroupAnonymousBot
      Markdown достаточно
  • Gesbes
    Аудио может в текст перевести?
    • GroupAnonymousBot
      Хороший вопрос
      • Gesbes
        Мы сейчас что-то поставили для транскрибации аудио в текст для русского языка, Оперативы гигов 4-6 сервера кушает, но хочется понять все предложения рынка )
        • GroupAnonymousBot
          а разве ИИ не осилит любая?
          • Gesbes
            1. ИИ платно.
            2. ИИ задержка по времени на API.
            3. Мы транскрибацию делаем на сервере, затем полученный текст отправляем в ИИ, например в Нано Банана, Сора, ЖПТ.

            PS: если можно сделать на сервере, то на ИИ не логично отправлять.
  • lcantstop
    Я тоже еë юзаю, хорошая, только утечка памяти там имеет место, и эта проблема не решается ими уже давно и задекларирована на github.