Gemma 4 e2b сходит с ума на 4 ГБ VRAM: как и почему она тупеет после 40 запросов
Накопление фрагментации KV cache на картах с 4 ГБ VRAM приводит к постепенной деградации качества генерации без явного OOM. Проблема стабильно воспроизводится при контексте ~4096 токенов и не проявляется на 6+ ГБ, что указывает на жёсткую границу памяти.
Типичные симптомы — пустые ответы, повторения и потеря логики после 30–40 инференсов. Сброс контекста или перезагрузка сервера временно восстанавливают нормальную работу, но коренной баг пока не исправлен.
Пользователям с 4 ГБ VRAM рекомендуется мониторить качество генераций, периодически сбрасывать контекст и ограничивать количество последовательных запросов до 30, чтобы избежать неявной деградации.
Читать статью →
Подписаться на канал
AiManual - База знаний по ИИ
24 мая 2026 18:20
Комментариев пока нет.