Русский ИТ бизнес 👨
Подписаться
Post media
На Реддите парень собрал LLM-монстра за копейки 😄

Железо:
• i5-6500 за копейки
• 2 RTX 3060 по 12GB VRAM
• 40GB RAM (докупил 32GB)
• Мешанина из SSD и HDD

А оптимизация - просто песня:

• Квантование qwen3:4b-q4_K_M в Ollama
• Настройка num_batch и num_ctx
• Под undervolting GPU до 145W - чтобы избежать троттлинга!
• Весь RAG и чат-боты работают на 6.7GB VRAM вместо 10.5GB

Итог: скорость 50-65 токенов/сек, общие затраты ~$700.

Пишет:

Мой RAG и чат-боты теперь работают всего с 6,7 ГБ видеопамяти вместо 10,5 ГБ! Это почти эквивалентно бесплатному добавлению третьего графического процессора с 6 ГБ видеопамяти!

- Используйте первый графический процессор для всех задач, связанных с выводом данных Ollama, для всей сети. Благодаря тщательному планированию, всё умещается в 6,7 ГБ видеопамяти, оставляя 5,3 ГБ для любых новых моделей, которые могут быть установлены без необходимости извлечения/перезагрузки.

- Далее я планирую использовать второй графический процессор для запуска PyTorch для обработки дистилляции.


Зачем? Да хобби у него такое.

Русский ИТ бизнес

Комментарии (0)

  • Channel_Bot
    >Кантованная модель
    >4b
    Монстре просто 👍
    • kon_f
      ага)
  • morrowbord1
    Я тестил несколько llm, 8b, квантированный q4 на rx570 4gb запускается без проблем через специальные утилиты для запуска квантированных моделей, по крайней мере на пк 2020 года довольно шустро, без особых настроек.