Qwen представили универсальную систему распознавания речи. Работает только через API. Qwen3-ASR-Flash.
Поддерживаются 11 языков включая русский и китайский, язык определяется автоматически, а на сложном аудио вроде песен рэпа и речи с музыкой модель удерживает менее 8 процентов WER, при этом нормально тянет шум, низкое качество и дальний микрофон.
В сообществе LocalLLaMA народ хвалит качество, но ворчит что доступ только через API и локально не покрутить :)
Русский ИТ бизнес
Русский ИТ бизнес 👨
Подписаться
Комментарии (0)
Попробовал у Qwen добиться инфу по прайсу за токены и ссылок на страницы где можно пройти регистрацию и получить API-ключ.
Задолбал. Спамит пустыми ссылками или на сайты с иероглифами.
Ну нахрен.
На Python собрать свой пайп с LLM для постобработки проще, чем кажется, а Java опять не в тему )