А знаете, я вот вообще не удивлен тенденции на локальные ИИ-решения
А знаете, я вот вообще не удивлен тенденции на локальные ИИ-решения. Корпораты хотят технологического суверенитета, никто в здравом уме не хочет гонять чувствительные внутренние данные через чужие закрытые API, какими бы удобными они ни были.Тут Сбер весьма вовремя выложил под MIT-лицензией свою флагманскую GigaChat Ultra. Для понимания ситуации: это открытая ИИ-база, нативно обученная на русском, которая по внутренним замерам обходит Qwen3-235B и DeepSeek-V3 в математике и рассуждениях. Любой условный банк или гаражный стартап теперь может развернуть мощного ИИ-помощника в своем закрытом контуре и дообучить на внутренних документах. Делать свои продукты на открытой русскоязычной базе становится просто выгоднее и безопаснее, чем зависеть от вендоров.
ГигаЧат еще и прокачался в функциях - научился искать информацию в интернете прямо во время диалога и получил долгосрочную память. Теперь модель запоминает все важные данные для пользователя и использует их в чатах.
Все последние обновления ГигаЧат доступны для всех пользователи и независимых разработчиков. Но для рынка главное именно инженерное движение в сторону опенсорса и поддержка открытого инструментария. @bezsmuzi

Комментарии (19)
https://www.cnews.ru/news/top/2026-03-24_biznes_svernul_ili_zamorozil
Никогда небыло и вот опять.
Grok: Требования к железу для инференса (локальный запуск):
Не для одного GPU. Нужно минимум 16+ мощных датацентровских GPU (NVIDIA H100 80 ГБ, A100 80 ГБ или аналог) с tensor parallelism (TP) + expert parallelism (EP) = 16.
VRAM: ≈ 1,4 ТБ только на веса модели в BF16 (702 млрд × 2 байта). Плюс KV-кэш и оверхед. Даже в FP8 — около 700+ ГБ.
Фреймворки: vLLM, SGLang, LMDeploy или TensorRT-LLM (с поддержкой MoE и MTP — Multi-Token Prediction).
CPU/RAM: мощный сервер (сотни ГБ RAM) + быстрый interconnect (NVLink).
Сколько может стоить такое железо?
Минимальная конфигурация (16 × H100 80 ГБ + сервер): от 400–700 тыс. долларов (один H100 сейчас ≈ 30–40 тыс. USD + шасси, охлаждение, питание).
Полноценный кластер под production — легко миллион+ долларов.
Альтернатива: аренда в облаке (Yandex Cloud, Selectel, AWS, RunPod и т.д.) — от нескольких долларов в минуту до десятков в час в зависимости от нагрузки. Для теста/прототипа это дешевле, чем покупать.