Часто приходится слышать жалобы на дорогие GPU для AI-разработки
Буквально на днях услышал на конференции про кейс маленькой нижегородской компании, которая делает большую платформу речевой аналитики DEERAY, и тоже столкнулась с проблемой дорогого железа. Ребятам нужно было обрабатывать 4М минут речи ежемесячно. Когда они посчитали стоимость GPU для инференса LLM, то уперлись в цены провайдеров. Но оказалось, если вместо аренды GPU для инференса пользоваться Evolution Foundation Models от Cloud.ru, затраты сокращаются в десятки раз 🙌
Для сравнения: если судить по тарифной сетке, Qwen 235B может обойтись по 2 копейки за 1 000 входных токенов вместо 60 копеек в среднем по рынку. По самым скромным прикидкам 4M минут речи — это где-то 672М токенов. Для стартапов, которые строят ML-сервисы — это не просто сбережения, это разница между банкротством и масштабированием.
Посмотрите кейс и тарифы, возможно, пригодится.
Русский ИТ бизнес 👨
Подписаться

Комментарии (0)