Русский ИТ бизнес 👨

23.12.2025 10:44

Продолжая тему запуска больших ИИ локально... Вот смотрите, для GLM‑4.6 без квантизации (BF16) реально подходит только аренда «узлов» с большим числом H100/H200 (HPC‑класс).

В США (в РФ вообще не нашел) самый прямой вариант по цене/доступности - брать готовый узел 8×H100 80GB (и масштабировать до 16×H100, если модель/контекст не влезают в один узел).

Цена, которую часто упоминают для сборки 8×H100 SXM 80GB узла: $23.92/час :) ...в месяц (730ч): $17,461.

А скорость какая? Условно вы тратите 20к$ в месяц за аренду сервера и получаете на выходе аж целых 50 токенов в секунду (150 символов). Цифры могут меняться, но порядок, думаю, вы осознали.

Вы понимаете, насколько несопоставимы затраты к итогу?

Русский ИТ бизнес

0/17 Открыть в Telegram

Комментарии (0)

rich_bro
2025-12-23 10:50

Конвертируй из fp16 в NVFP4. Потеряешь пару процентов точности но сэкономишь 95%
vtroc7
2025-12-23 13:44

для локальных ллм люди покупают такие штуки

MINISFORUM Мини-ПК (AMD Ryzen AI Max+ 395, RAM 128 ГБ, SSD 2000 ГБ, AMD Radeon 8060S, Windows), черный
https://ozon.ru/t/Qonylap

и запускают модели 50-90Гб, - получается очень хорошая скорость) но подавляющему большинству (включая меня), конечно, лучше подписку