Новинки LLM Z.ai представила GLM-5.1 — флагманскую MoE-модель с 754 млрд параметров, которую, судя

Новинки LLM

Z.ai представила GLM-5.1 — флагманскую MoE-модель с 754 млрд параметров, которую, судя по бенчмаркам, особенно продвигают как инструмент для программистов и задач агентного кодинга.

По заявленным результатам, модель показывает сильные показатели в прикладных тестах:

SWE-Bench Pro — 58,4, что выше Claude Opus 4.6, GPT-5.4 и Gemini 3.1 Pro.

Terminal-Bench 2.0 — 63,5, немного уступая Claude Code с 66,5.

CyberGym — 68,7 против 48,3 у GLM-5.

BrowseComp — 68,0 без внешнего менеджера контекста.

При этом в более общих и академических тестах вроде HLE, AIME 2026 и GPQA-Diamond модель, по словам разработчиков, находится примерно на уровне конкурентов, а в ряде случаев впереди остаются Gemini 3.1 Pro и GPT-5.4.

Параллельно Anthropic показала Claude Mythos Preview — модель общего назначения, в которой сделали упор на программирование и логическое мышление. Несмотря на то, что модель не создавалась специально под кибербезопасность, в этой сфере она тоже оказалась очень сильной.

По данным Anthropic, Mythos Preview нашли настолько мощной, что компания не выпустила ее в открытый доступ. Вместо этого модель предоставят только ограниченному кругу организаций, чтобы они могли искать и исправлять уязвимости в критически важном ПО. В проекте участвуют 40 компаний, а сама Anthropic выделяет до 100 миллионов долларов в виде кредитов на использование Mythos Preview.

В компании утверждают, что модель уже помогла обнаружить тысячи серьезных уязвимостей, включая проблемы в OpenBSD, FFmpeg и ядре Linux. Часть найденных багов уже исправлена, но работа продолжается еще над тысячами других случаев.

Anthropic отдельно подчеркивает, что в ближайшем будущем выйдет новая версия Opus с усиленными мерами безопасности. Параллельно компания консультируется с представителями правительства США по поводу наступательных и оборонительных возможностей Claude Mythos Preview в киберсфере.

ТТХ
Z.ai GLM-5.1: MoE-модель,
754
754 млрд параметров, акцент на кодинг и агентные задачи.

Anthropic Claude Mythos Preview: модель общего назначения, усилена в программировании, логике и кибербезопасности.

Формат релиза Mythos Preview: закрытый доступ для партнерских компаний, а не публичный запуск.

Масштаб программы Anthropic:
40 компаний-участников, до
100 млн долларов в виде кредитов.

#AI #LLM #ZAI #Anthropic #Новости #Нейросети #Моё
@DevsRoot
В MAX

👍 3

Комментариев пока нет.