Русский ИТ бизнес 👨

29.09.2025 10:55

Выпустили DeepSeek v.3.2. Она является продолжением модели V3.1 и использует новую технологию DeepSeek Sparse Attention, или DSA (оч. сложно, чтобы тут писать, сам половину не понял).

Идея в том, чтобы ускорить обработку больших объемов текста и снизить затраты на вычисления. При этом авторы оставили параметры обучения такими же, как у прошлой версии, чтобы чисто оценить эффективность нового подхода к вниманию.

Цифры по тестам вышли довольно пёстрые. По тесту MMLU Pro результат не изменился, оставшись на отметке 85.0. В то же время по GPQA и Humanity’s Last Exam есть небольшое снижение на 0.8 и 1.9 балла соответственно. Более заметно просел математический тест HMMT, потеряв 2.5 балла. Зато есть и явные улучшения.

Рейтинг в задачах по программированию Codeforces вырос на 75 пунктов, а в китайском тесте BrowseComp показатель увеличился на 2.9 пункта.

А что главное? ЦЕНА! Цитирую: $0.28/M input tokens and $0.42/M output tokens. Снижение по сравнению с 3.1 и очень ощутимое...

Русский ИТ бизнес

0/8 Открыть в Telegram

Комментарии (0)

579774691
2025-09-29 11:05

А как эти токены перевести в вопросы для чата?
- GroupAnonymousBot
  2025-09-29 11:05
  
  ну вопрос-ответ это же токены :0
579774691
2025-09-29 11:05

Например один вопрос сколько токенов стоит?
- kirillswed
  2025-09-29 11:06
  
  import tiktoken
  
  enc = tiktoken.get_encoding("cl100k_base") # токенизатор для GPT-4/3.5
  text = "Привет, мир!"
  tokens = enc.encode(text)
  print("Количество токенов:", len(tokens))
579774691
2025-09-29 11:09

Например попросить написать Тетрис на javaScript, сколько токенов нужно?