Железо:
• i5-6500 за копейки
• 2 RTX 3060 по 12GB VRAM
• 40GB RAM (докупил 32GB)
• Мешанина из SSD и HDD
А оптимизация - просто песня:
• Квантование qwen3:4b-q4_K_M в Ollama
• Настройка num_batch и num_ctx
• Под undervolting GPU до 145W - чтобы избежать троттлинга!
• Весь RAG и чат-боты работают на 6.7GB VRAM вместо 10.5GB
Итог: скорость 50-65 токенов/сек, общие затраты ~$700.
Пишет:
Мой RAG и чат-боты теперь работают всего с 6,7 ГБ видеопамяти вместо 10,5 ГБ! Это почти эквивалентно бесплатному добавлению третьего графического процессора с 6 ГБ видеопамяти!
- Используйте первый графический процессор для всех задач, связанных с выводом данных Ollama, для всей сети. Благодаря тщательному планированию, всё умещается в 6,7 ГБ видеопамяти, оставляя 5,3 ГБ для любых новых моделей, которые могут быть установлены без необходимости извлечения/перезагрузки.
- Далее я планирую использовать второй графический процессор для запуска PyTorch для обработки дистилляции.
Зачем? Да хобби у него такое.
Русский ИТ бизнес

Комментарии (0)
>4b
Монстре просто 👍