Gemma 4 e2b сходит с ума на 4 ГБ VRAM: как и почему она тупеет после 40 запросов

Gemma 4 e2b сходит с ума на 4 ГБ VRAM: как и почему она тупеет после 40 запросов

Накопление фрагментации KV cache на картах с 4 ГБ VRAM приводит к постепенной деградации качества генерации без явного OOM. Проблема стабильно воспроизводится при контексте ~4096 токенов и не проявляется на 6+ ГБ, что указывает на жёсткую границу памяти.

Типичные симптомы — пустые ответы, повторения и потеря логики после 30–40 инференсов. Сброс контекста или перезагрузка сервера временно восстанавливают нормальную работу, но коренной баг пока не исправлен.

Пользователям с 4 ГБ VRAM рекомендуется мониторить качество генераций, периодически сбрасывать контекст и ограничивать количество последовательных запросов до 30, чтобы избежать неявной деградации.

Читать статью →

Подписаться на канал

212

👍 0

Комментариев пока нет.