Русский ИТ бизнес 👨
Подписаться
ИИ MobileLLM R1 имеет меньше 1 млрд параметров и обучалась на 4,2 трлн токенов это примерно одна десятая от объема данных Qwen. Но на ряде тестов на рассуждение результаты конкурентны или выше чем у Qwen 3 с 0,6 млрд параметров что звучит как щелчок по носу крупняку :)

Веса модели уже выложены и за две недели их скачали более 10к раз затем вышел технический отчет. Открыт полный рецепт обучения от предобучения через основные этапы до постобработки так что желающие могут повторить процесс с нуля. Если хватит ума, конечно.

Пишут, что будущее за такими маленькими ИИ, которые можно встроить хоть в холодильник :)

Русский ИТ бизнес

Комментарии (0)

  • dmitry236
    Больше чем уверен, что Барбос смотрел на эти графики как на многоэтажки и даже не вникал что там
    • GroupAnonymousBot
      умное... куда мне. я же блоггер.
  • mtrnkwas
    Говорят, что Apple делает ставку на маленькие LLM, работающие локально на устройстве. Когда выкатит, наверное, опять устроит революцию.
    • Channel_Bot
      Мощные LLM, с большим контекстным окном, маленьким весом и быстрой выдачей токенов в секунду, которая при этом работает локально и потребляет маленькое количество ресурсов устройства - вот что действительно может стать революционным решением.
      • mtrnkwas
        По всей видимости, Apple разрабатывает малые LLM плюс специальные чипы под них.
  • uglev
    И какой вывод? А вывод такой, учится надо у умных, а не у многих
  • Dmitrii_Mihalev
    Интересно, а что по сайзингу тогда ?