Продолжая тему запуска больших ИИ локально... Вот смотрите, для GLM‑4.6 без квантизации (BF16) реально подходит только аренда «узлов» с большим числом H100/H200 (HPC‑класс).
В США (в РФ вообще не нашел) самый прямой вариант по цене/доступности - брать готовый узел 8×H100 80GB (и масштабировать до 16×H100, если модель/контекст не влезают в один узел).
Цена, которую часто упоминают для сборки 8×H100 SXM 80GB узла: $23.92/час :) ...в месяц (730ч): $17,461.
А скорость какая? Условно вы тратите 20к$ в месяц за аренду сервера и получаете на выходе аж целых 50 токенов в секунду (150 символов). Цифры могут меняться, но порядок, думаю, вы осознали.
Вы понимаете, насколько несопоставимы затраты к итогу?
Русский ИТ бизнес
Русский ИТ бизнес 👨
Подписаться
Комментарии (0)
MINISFORUM Мини-ПК (AMD Ryzen AI Max+ 395, RAM 128 ГБ, SSD 2000 ГБ, AMD Radeon 8060S, Windows), черный
https://ozon.ru/t/Qonylap
и запускают модели 50-90Гб, - получается очень хорошая скорость) но подавляющему большинству (включая меня), конечно, лучше подписку