Признавайтесь, кто мечтает купить h100? Цена на Авито - 2.5 млн. руб. (без гарантии качества).
Что вам даст такая карта? Qwen 110B и LLaMA 3.3 70B = 20 токенов (40 символов) в секунду при таких больших ИИ... Надо ли? Вопрос открытый, но для систем, которые обрабатывает очень чувствительные данные и только локально - вполне себе.
Например, вы делаете RAG для внутренних документов компании. А можно h200 еще взять - 3 млн. руб. (+42% увеличение производительности: до 31 токенов/сек против 22 на H100).
Русский ИТ бизнес
Русский ИТ бизнес 👨
Подписаться
Комментарии (0)
20В
total duration: 8.4960423s
load duration: 38.4008ms
prompt eval count: 73 token(s)
prompt eval duration: 503.8953ms
prompt eval rate: 144.87 tokens/s
eval count: 1099 token(s)
eval duration: 7.9537462s
eval rate: 138.17 tokens/s
120В
total duration: 4m0.6657461s
load duration: 41.8852ms
prompt eval count: 73 token(s)
prompt eval duration: 681.0137ms
prompt eval rate: 107.19 tokens/s
eval count: 1555 token(s)
eval duration: 3m59.9423444s
eval rate: 6.48 tokens/s
Я в целом олламу обновил и установил.
Насколько я понял половина 120В ушла в оперативную память. Там около 50гб заполнилось.
А GPU нагрузалась процентов на 40% всего
Я пока склоняюсь к "скважине" - мне qwen3:1.7b новости сортирует на хостинге за 150 руб, и думаю сможет рерайтить, мозгов хватит