Бесконечный Цикл
Бесконечный Цикл

Расчет по VRAM для более менее полноценных моделей LLM

Расчет по VRAM для более менее полноценных моделей LLM
Расчет по VRAM для более менее полноценных моделей LLM


Конфигурации для DeepSeek R1 671B
Минимум (с квантизацией Q4/AWQ):

8× H100 80ГБ = 640 ГБ суммарно → 671B в AWQ Q4 (~400 ГБ весов) влезает
Скорость: ~33 tok/s при одном пользователе, ~600 output tok/s при 100 concurrent users

Комфортный вариант (FP8 native):

8× H200 141ГБ = 1128 ГБ → 671B FP8 (~750 ГБ) с запасом на KV cache
Скорость: ~821 output tok/s (vLLM benchmark)

Альтернатива без GPU (экзотика):

Сервер с 768+ ГБ DDR5 RAM + llama.cpp → 671B Q2 работает, но ~1–2 tok/s

@DevsRoot

Комментарии (4)

Комментариев пока нет.