Выпустили DeepSeek v.3.2. Она является продолжением модели V3.1 и использует новую технологию DeepSeek Sparse Attention, или DSA (оч. сложно, чтобы тут писать, сам половину не понял).
Идея в том, чтобы ускорить обработку больших объемов текста и снизить затраты на вычисления. При этом авторы оставили параметры обучения такими же, как у прошлой версии, чтобы чисто оценить эффективность нового подхода к вниманию.
Цифры по тестам вышли довольно пёстрые. По тесту MMLU Pro результат не изменился, оставшись на отметке 85.0. В то же время по GPQA и Humanity’s Last Exam есть небольшое снижение на 0.8 и 1.9 балла соответственно. Более заметно просел математический тест HMMT, потеряв 2.5 балла. Зато есть и явные улучшения.
Рейтинг в задачах по программированию Codeforces вырос на 75 пунктов, а в китайском тесте BrowseComp показатель увеличился на 2.9 пункта.
А что главное? ЦЕНА! Цитирую: $0.28/M input tokens and $0.42/M output tokens. Снижение по сравнению с 3.1 и очень ощутимое...
Русский ИТ бизнес
Русский ИТ бизнес 👨
Подписаться
Комментарии (0)
enc = tiktoken.get_encoding("cl100k_base") # токенизатор для GPT-4/3.5
text = "Привет, мир!"
tokens = enc.encode(text)
print("Количество токенов:", len(tokens))