Русский ИТ бизнес
Русский ИТ бизнес
Post media

Китайцы выпустили генератор речи OmniVoice, превосходящий ElevenLabs

Китайцы выпустили генератор речи OmniVoice, превосходящий ElevenLabs. Он создаёт аудио на 600+ языках, клонирует голоса без цензуры по записи 5–10 секунд, работает в 40 раз быстрее реального времени и запускается на слабом железе.

Возможна настройка параметров (пол, возраст, шепот). Сервис бесплатен.

Демо: https://huggingface.co/spaces/k2-fsa/OmniVoice
Модель: https://huggingface.co/k2-fsa/OmniVoice
Код: https://github.com/k2-fsa/OmniVoice

Комментарии (14)

  • David_Tamoyan
    Пробовал я месяц назад использовать в "производстве" модель Qwen3TTS. На клонирование голоса и последующего его использования. На русском языке.
    Ну чё, замучался я генерить правильные произношения, ну очень трудно вытянуть. У модели нет каких то правил ударений и подсказки в произношении звуков и это главный пиздец. Ну и клонирование - бухой оригинал.
    Пока так на русском языке.
    • ptflp
      у модели от майкрософт есть
      • David_Tamoyan
        В открытом доступе не нашел, чтоб можно было предметно потестить. Прям на хорошем тексте и глубоко.
        • ptflp
          новую почту заведи, там в azure demo период есть
          • David_Tamoyan
            Ок. Посмотрю, спасибо за наводку
      • David_Tamoyan
        Там с клонированием голоса? Или голоса по-умолчанию?
        • ptflp
          вот это точно не подскажу
    • mike_kozyakov
      Тем же самым сейчас занимаюсь) мучаюсь в этой модели с ударениями.
      • David_Tamoyan
        Я два дня использовал. В одной задаче получил нужный результат. Воодушевился, перешел ко второй, а там куча названий и более расширенный словарный запас - и всё, провал. Не смог задачу решить, никак не поддается. Понял, что пока еще рано.
        • mike_kozyakov
          Ну, мне кажется, я добью)
          Пока лучший результат получался только с этой моделью: https://huggingface.co/Misha24-10/F5-TTS_RUSSIAN но у нее другие проблемы. Не удалось добиться стабильной работы на большом контексте. Стабильно падает. Только всего несколько предложений если.
          • David_Tamoyan
            Вот вот. Еще большая проблема - большие объёмы. Ну не получается даже с абзацем текста. "Кормил" модель по 2 предложения - так проще чистить баги.
  • bykost
    Еще никогда работать мошенником не было так просто и выгодно. Куда катится этот мир. Им просто инструменты на блюдечке приносят.
  • TheLanskov
    Каждый месяц выходят новые модели убивающие ElevenLabs. Потом куда-то пропадают
  • bykost
    Идея стартапа. Подтверждение в разговоре/телефоне, что на том конце реальный "владелец" голоса. Начальные инвестиции приветствуются, Возврат не гарантируется. :)