Китайцы выпустили генератор речи OmniVoice, превосходящий ElevenLabs
Китайцы выпустили генератор речи OmniVoice, превосходящий ElevenLabs. Он создаёт аудио на 600+ языках, клонирует голоса без цензуры по записи 5–10 секунд, работает в 40 раз быстрее реального времени и запускается на слабом железе.Возможна настройка параметров (пол, возраст, шепот). Сервис бесплатен.
Демо: https://huggingface.co/spaces/k2-fsa/OmniVoice
Модель: https://huggingface.co/k2-fsa/OmniVoice
Код: https://github.com/k2-fsa/OmniVoice

Комментарии (14)
Ну чё, замучался я генерить правильные произношения, ну очень трудно вытянуть. У модели нет каких то правил ударений и подсказки в произношении звуков и это главный пиздец. Ну и клонирование - бухой оригинал.
Пока так на русском языке.
Пока лучший результат получался только с этой моделью: https://huggingface.co/Misha24-10/F5-TTS_RUSSIAN но у нее другие проблемы. Не удалось добиться стабильной работы на большом контексте. Стабильно падает. Только всего несколько предложений если.