Новинки LLM Z.ai представила GLM-5.1 — флагманскую MoE-модель с 754 млрд параметров, которую, судя
Новинки LLMZ.ai представила GLM-5.1 — флагманскую MoE-модель с 754 млрд параметров, которую, судя по бенчмаркам, особенно продвигают как инструмент для программистов и задач агентного кодинга.
По заявленным результатам, модель показывает сильные показатели в прикладных тестах:
SWE-Bench Pro — 58,4, что выше Claude Opus 4.6, GPT-5.4 и Gemini 3.1 Pro.
Terminal-Bench 2.0 — 63,5, немного уступая Claude Code с 66,5.
CyberGym — 68,7 против 48,3 у GLM-5.
BrowseComp — 68,0 без внешнего менеджера контекста.
При этом в более общих и академических тестах вроде HLE, AIME 2026 и GPQA-Diamond модель, по словам разработчиков, находится примерно на уровне конкурентов, а в ряде случаев впереди остаются Gemini 3.1 Pro и GPT-5.4.
Параллельно Anthropic показала Claude Mythos Preview — модель общего назначения, в которой сделали упор на программирование и логическое мышление. Несмотря на то, что модель не создавалась специально под кибербезопасность, в этой сфере она тоже оказалась очень сильной.
По данным Anthropic, Mythos Preview нашли настолько мощной, что компания не выпустила ее в открытый доступ. Вместо этого модель предоставят только ограниченному кругу организаций, чтобы они могли искать и исправлять уязвимости в критически важном ПО. В проекте участвуют 40 компаний, а сама Anthropic выделяет до 100 миллионов долларов в виде кредитов на использование Mythos Preview.
В компании утверждают, что модель уже помогла обнаружить тысячи серьезных уязвимостей, включая проблемы в OpenBSD, FFmpeg и ядре Linux. Часть найденных багов уже исправлена, но работа продолжается еще над тысячами других случаев.
Anthropic отдельно подчеркивает, что в ближайшем будущем выйдет новая версия Opus с усиленными мерами безопасности. Параллельно компания консультируется с представителями правительства США по поводу наступательных и оборонительных возможностей Claude Mythos Preview в киберсфере.
ТТХ
Z.ai GLM-5.1: MoE-модель,
754
754 млрд параметров, акцент на кодинг и агентные задачи.
Anthropic Claude Mythos Preview: модель общего назначения, усилена в программировании, логике и кибербезопасности.
Формат релиза Mythos Preview: закрытый доступ для партнерских компаний, а не публичный запуск.
Масштаб программы Anthropic:
40 компаний-участников, до
100 млн долларов в виде кредитов.
#AI #LLM #ZAI #Anthropic #Новости #Нейросети #Моё
@DevsRoot
В MAX
Комментариев пока нет.