MTP в LMStudio: разрекламированное ускорение, которое убивает качество

MTP в LMStudio: разрекламированное ускорение, которое убивает качество
Multi-Token Prediction (MTP) в LMStudio 0.5.1 обещает ускорение до 30%, но на практике снижает качество генерации на 8–12% в логических задачах и делает текст шаблонным. Разбор тестов показывает, что реализация speculative decoding некорректно работает с квантованными моделями, вызывая "мыльный" текст и ошибки в коде. В статье — объяснение проблемы и рекомендация отключить MTP, если важна точность.
Читать статью →

Подписаться на канал

172

👍 0

Комментариев пока нет.