ИИ MobileLLM R1 имеет меньше 1 млрд параметров и обучалась на 4,2 трлн токенов это примерно одна десятая от объема данных Qwen. Но на ряде тестов на рассуждение результаты конкурентны или выше чем у Qwen 3 с 0,6 млрд параметров что звучит как щелчок по носу крупняку :)
Веса модели уже выложены и за две недели их скачали более 10к раз затем вышел технический отчет. Открыт полный рецепт обучения от предобучения через основные этапы до постобработки так что желающие могут повторить процесс с нуля. Если хватит ума, конечно.
Пишут, что будущее за такими маленькими ИИ, которые можно встроить хоть в холодильник :)
Русский ИТ бизнес
Русский ИТ бизнес 👨
Подписаться
Комментарии (0)