Русский ИТ бизнес 👨
Подписаться
Продолжая тему запуска больших ИИ локально... Вот смотрите, для GLM‑4.6 без квантизации (BF16) реально подходит только аренда «узлов» с большим числом H100/H200 (HPC‑класс).

В США (в РФ вообще не нашел) самый прямой вариант по цене/доступности - брать готовый узел 8×H100 80GB (и масштабировать до 16×H100, если модель/контекст не влезают в один узел).

Цена, которую часто упоминают для сборки 8×H100 SXM 80GB узла: $23.92/час :) ...в месяц (730ч): $17,461.

А скорость какая? Условно вы тратите 20к$ в месяц за аренду сервера и получаете на выходе аж целых 50 токенов в секунду (150 символов). Цифры могут меняться, но порядок, думаю, вы осознали.

Вы понимаете, насколько несопоставимы затраты к итогу?

Русский ИТ бизнес

Комментарии (0)

  • rich_bro
    Конвертируй из fp16 в NVFP4. Потеряешь пару процентов точности но сэкономишь 95%
  • vtroc7
    для локальных ллм люди покупают такие штуки

    MINISFORUM Мини-ПК (AMD Ryzen AI Max+ 395, RAM 128 ГБ, SSD 2000 ГБ, AMD Radeon 8060S, Windows), черный
    https://ozon.ru/t/Qonylap

    и запускают модели 50-90Гб, - получается очень хорошая скорость) но подавляющему большинству (включая меня), конечно, лучше подписку