AiManual - База знаний по ИИ
AiManual - База знаний по ИИ

OSCAR KV Quant: как Together AI ужал KV-кэш до 2 бит без потери качества

OSCAR KV Quant: как Together AI ужал KV-кэш до 2 бит без потери качества
Разбор OSCAR KV Quant — новой open-source техники квантования KV-кэша. Сравнение с TurboQuant, Attn-rot, Subquadratic Attention. Бенчмарки и примеры.
Кластеризация подпространств онлайн требует дополнительных вычислений, что может увеличить latency на малых контекстах.
Читать статью →

Подписаться на канал

Комментариев пока нет.