Русский ИТ бизнес
Русский ИТ бизнес
Post media

В общем остановились на этой могучей библиотеки для получения текстовых сущностей из разного формата файлов. Если по простому - на вход любой тип файла, на выходе plain text.

Эксперименты показали - с русским языком лучше всего работает именно она. 200 релизов, огромное количество контрибуторов, лицения MIT. Рекомендую. И да, это бесплатно.

Библиотека Unstructured в 2025 году поддерживает более 25 типов файлов (в платной версии платформы - более 65).

Русский ИТ бизнес
  • Мифический Пеликан
    Мифический Пеликан
    Кто пишет тект?
  • Мифический Пеликан
    Мифический Пеликан
    Кто пишет текст?
  • Океанический Гоблин
    Океанический Гоблин
    На вход таблица excel, а на выход plained text? Объясните прикол, какой смысл в plained text, полученный из таблицы excel?
    ну или json →plained text? Структура хранит саму суть данных, которую plained text теряет.
    • Автор канала
      Автор канала
      Markdown достаточно
  • Пряный Пирог
    Пряный Пирог
    Аудио может в текст перевести?
    • Автор канала
      Автор канала
      Хороший вопрос
      • Пряный Пирог
        Пряный Пирог
        Мы сейчас что-то поставили для транскрибации аудио в текст для русского языка, Оперативы гигов 4-6 сервера кушает, но хочется понять все предложения рынка )
        • Автор канала
          Автор канала
          а разве ИИ не осилит любая?
          • Пряный Пирог
            Пряный Пирог
            1. ИИ платно.
            2. ИИ задержка по времени на API.
            3. Мы транскрибацию делаем на сервере, затем полученный текст отправляем в ИИ, например в Нано Банана, Сора, ЖПТ.

            PS: если можно сделать на сервере, то на ИИ не логично отправлять.
  • Сальтирующий Кот
    Сальтирующий Кот
    Я тоже еë юзаю, хорошая, только утечка памяти там имеет место, и эта проблема не решается ими уже давно и задекларирована на github.