Русский ИТ бизнес 👨
Подписаться
Выпустили DeepSeek v.3.2. Она является продолжением модели V3.1 и использует новую технологию DeepSeek Sparse Attention, или DSA (оч. сложно, чтобы тут писать, сам половину не понял).

Идея в том, чтобы ускорить обработку больших объемов текста и снизить затраты на вычисления. При этом авторы оставили параметры обучения такими же, как у прошлой версии, чтобы чисто оценить эффективность нового подхода к вниманию.

Цифры по тестам вышли довольно пёстрые. По тесту MMLU Pro результат не изменился, оставшись на отметке 85.0. В то же время по GPQA и Humanity’s Last Exam есть небольшое снижение на 0.8 и 1.9 балла соответственно. Более заметно просел математический тест HMMT, потеряв 2.5 балла. Зато есть и явные улучшения.

Рейтинг в задачах по программированию Codeforces вырос на 75 пунктов, а в китайском тесте BrowseComp показатель увеличился на 2.9 пункта.

А что главное? ЦЕНА! Цитирую: $0.28/M input tokens and $0.42/M output tokens. Снижение по сравнению с 3.1 и очень ощутимое...

Русский ИТ бизнес

Комментарии (0)

  • 579774691
    А как эти токены перевести в вопросы для чата?
    • GroupAnonymousBot
      ну вопрос-ответ это же токены :0
  • 579774691
    Например один вопрос сколько токенов стоит?
    • kirillswed
      import tiktoken

      enc = tiktoken.get_encoding("cl100k_base") # токенизатор для GPT-4/3.5
      text = "Привет, мир!"
      tokens = enc.encode(text)
      print("Количество токенов:", len(tokens))
  • 579774691
    Например попросить написать Тетрис на javaScript, сколько токенов нужно?