Русский ИТ бизнес
Русский ИТ бизнес

Китайцы выпустили генератор речи OmniVoice, превосходящий ElevenLabs

Китайцы выпустили генератор речи OmniVoice, превосходящий ElevenLabs
Китайцы выпустили генератор речи OmniVoice, превосходящий ElevenLabs. Он создаёт аудио на 600+ языках, клонирует голоса без цензуры по записи 5–10 секунд, работает в 40 раз быстрее реального времени и запускается на слабом железе.

Возможна настройка параметров (пол, возраст, шепот). Сервис бесплатен.

Демо: https://huggingface.co/spaces/k2-fsa/OmniVoice
Модель: https://huggingface.co/k2-fsa/OmniVoice
Код: https://github.com/k2-fsa/OmniVoice

Комментарии (14)

  • Милый Эксперт
    Милый Эксперт
    Пробовал я месяц назад использовать в "производстве" модель Qwen3TTS. На клонирование голоса и последующего его использования. На русском языке.
    Ну чё, замучался я генерить правильные произношения, ну очень трудно вытянуть. У модели нет каких то правил ударений и подсказки в произношении звуков и это главный пиздец. Ну и клонирование - бухой оригинал.
    Пока так на русском языке. Ответить
    раскрыть ветку (10)
    • Изумрудный Космонавт
      Изумрудный Космонавт
      у модели от майкрософт есть Ответить
      раскрыть ветку (5)
      • Милый Эксперт
        Милый Эксперт
        В открытом доступе не нашел, чтоб можно было предметно потестить. Прям на хорошем тексте и глубоко. Ответить
        раскрыть ветку (2)
        • Изумрудный Космонавт
          Изумрудный Космонавт
          новую почту заведи, там в azure demo период есть Ответить
          раскрыть ветку (1)
          • Милый Эксперт
            Милый Эксперт
            Ок. Посмотрю, спасибо за наводку Ответить
      • Милый Эксперт
        Милый Эксперт
        Там с клонированием голоса? Или голоса по-умолчанию? Ответить
        раскрыть ветку (1)
        • Изумрудный Космонавт
          Изумрудный Космонавт
          вот это точно не подскажу Ответить
    • Сквознячный Судья
      Сквознячный Судья
      Тем же самым сейчас занимаюсь) мучаюсь в этой модели с ударениями. Ответить
      раскрыть ветку (3)
      • Милый Эксперт
        Милый Эксперт
        Я два дня использовал. В одной задаче получил нужный результат. Воодушевился, перешел ко второй, а там куча названий и более расширенный словарный запас - и всё, провал. Не смог задачу решить, никак не поддается. Понял, что пока еще рано. Ответить
        раскрыть ветку (2)
        • Сквознячный Судья
          Сквознячный Судья
          Ну, мне кажется, я добью)
          Пока лучший результат получался только с этой моделью: https://huggingface.co/Misha24-10/F5-TTS_RUSSIAN но у нее другие проблемы. Не удалось добиться стабильной работы на большом контексте. Стабильно падает. Только всего несколько предложений если. Ответить
          раскрыть ветку (1)
          • Милый Эксперт
            Милый Эксперт
            Вот вот. Еще большая проблема - большие объёмы. Ну не получается даже с абзацем текста. "Кормил" модель по 2 предложения - так проще чистить баги. Ответить
  • Чесночный Режиссер
    Чесночный Режиссер
    Еще никогда работать мошенником не было так просто и выгодно. Куда катится этот мир. Им просто инструменты на блюдечке приносят. Ответить
  • Шерстяной Круассан
    Шерстяной Круассан
    Каждый месяц выходят новые модели убивающие ElevenLabs. Потом куда-то пропадают Ответить
  • Чесночный Режиссер
    Чесночный Режиссер
    Идея стартапа. Подтверждение в разговоре/телефоне, что на том конце реальный "владелец" голоса. Начальные инвестиции приветствуются, Возврат не гарантируется. :) Ответить