Проблема повторной обработки больших промптов в llama.cpp: причины и решения для llama-swap
1. Определите длину повторяющейся части промпта (история чата, системные инструкции) — именно она вызывает репроцессинг при каждом запросе.
2. Установите llama-swap — легковесный менеджер моделей, который берет на себя управление KV-кэшем без изменения кода основной сборки llama.cpp.
3. Настройте кэширование: включите параметры --cache-type-k и --cache-type-v (тип кэша) и задайте --cache-capacity под ваш объем VRAM.
4. Запустите сервер с llama-swap — при повторных запросах с совпадающим префиксом он подхватит готовый кэш, сократив TTFT с десятков секунд до миллисекунд.
Читать статью →
Подписаться на канал
AiManual - База знаний по ИИ
15 мая 2026 03:20
Комментариев пока нет.