Русский ИТ бизнес 👨
Подписаться
Qwen представили универсальную систему распознавания речи. Работает только через API. Qwen3-ASR-Flash.

Поддерживаются 11 языков включая русский и китайский, язык определяется автоматически, а на сложном аудио вроде песен рэпа и речи с музыкой модель удерживает менее 8 процентов WER, при этом нормально тянет шум, низкое качество и дальний микрофон.

В сообществе LocalLLaMA народ хвалит качество, но ворчит что доступ только через API и локально не покрутить :)

Русский ИТ бизнес

Комментарии (0)

  • McConst
    Хорошая новость. да хоть бы и по API - если дешевле чем у Яндекса.
    Попробовал у Qwen добиться инфу по прайсу за токены и ссылок на страницы где можно пройти регистрацию и получить API-ключ.
    Задолбал. Спамит пустыми ссылками или на сайты с иероглифами.

    Ну нахрен.
  • Devops_like_a_boss
    Qwen ASR по цифрам анриал — 11 языков и низкий WER на рэпе это серьёзно, но API-only pпц тормозит локальные проекты и приватность.

    На Python собрать свой пайп с LLM для постобработки проще, чем кажется, а Java опять не в тему )