Кто уже успел попробовать Kimi 2.6? Эта штука в половине тестов обходит GPT-5.4, Claude Opus 4.6 и Gemini 3.1 Pro. Все профильные каналы в восторге, даже левый мужик у К&Б тоже радуется...
Физически разные уровни объемы железа, видеокарт, вливания инвесторов, обучающие материалы и самое главное экспертиза инженеров Ответить
раскрыть ветку (8)
Сказочный Пёс
Уже сейчас Kimi и GLM на уровне пол года назад для Opus по ощущениям. Да тормознее работают, но работают.
Поэтому мне кажется отставание будет, но в целом если осенью у меня будет китайская модель уровня Opes 4.7 при наличии Opus 5 - буду доволен. Ответить
раскрыть ветку (7)
Робкий Киллер
И любят ставить иероглифы и уходить от контекста
Впрочем спорить не стану кому то и нива нормик впрочем как и мне Ответить
раскрыть ветку (3)
Сказочный Пёс
Раньше да.
Но уже давно не видел иероглифов, да и контекст держит не плохо.
Вы сами пользуетесь? Я просто ради интереса на всех подписки оформил и гоняю их периодически, пока прогресс радует.
Ну а основная модель конечно Opus Ответить
раскрыть ветку (2)
Робкий Киллер
Я к сожалению только 2.5 кими пробовал. Конечно по любому развиваются
В курсоре режим авто лучше тащит чем кими да и гпт 5.3 сейчас безлимит. так что могу ошибаться так как в основном на гпт и опус работаю
Опять же, для каких задач, смотря. Bash скрипты и bunjs и алиса неплохо тащит на результат. А когда просишь опуса проверить - выясняется очень много интересного от чего волосы дыбом Ответить
раскрыть ветку (1)
Сквознячный Судья
Да, я аналогично. Opus лучше тащит слабодетерминированные задачи, а gpt дотошнее и лучше ищет в интернете. Ответить
Сквознячный Судья
Да ну. Нет, конечно. GLM чуть лучше, чем sonnet. И то, если к ней подключить mcp, которые прилагаются к подписке + superpowers, например. Ответить
раскрыть ветку (2)
Сказочный Пёс
Где бы взять ту линейку, которая точно измерит :) У меня от аналитических способностей GLM очень хорошие впечатления.
Например review когда он делает, бывает косяки находит которые ChatGPT в codex не нашел. Ответить
раскрыть ветку (1)
Робкий Киллер
Не факт что такая линейка найдется. Уверен, кими легко найдет косяки в коде опуса :)
Так что единственный критерий это максимально покрывать тестами tdd, e2e, coverage, гонять через линтеры ci cd пайплайнов - это как минимум гарантирует базовый уровень и возможность для реальных программистов валидировать и ревьювить код Ответить
Оранжевый Агент
А может есть тут те кто пробует вот это все новое и на примерах показывает что и как там? Я бы подписался Ответить
раскрыть ветку (1)
Лохматый Осьминог
Вот-вот, а то если все пробовать, когда работать? :) Ответить
Толпящийся Торт
Узкое место во всех этих тестах, являются сами же тесты. Дело в том, что качество модели может быть намного больше чем тест показывает. Это как дальтоник смотрит 4К фильм :) Ответить
Речной Посол
Прошлая k2.5 тоже обходила топовые нейронки в их тестах, но чуть меняешь профиль задачи - пишешь не фронт, а бэк, меняешь язык программирования и качество сразу падает в дно. Скорее всего здесь также - на некоторых агентных сценариях, которые они декларируют очень хорошо, а в остальном сильно отстают. Ответить
Дымящийся Гриб
Одно хрено что теперь после выхода GLM 5.1 подписка сразу стала почти 700$ в год :( раньше на 4.7 не упирался не разу в лимиты а теперь 5.1 сьедает за 30 минут все лимиты :( печалька и в продавцы не береут нужно искать место для коробки где нить в лесочке еще оплата за впн трафик и будем программировать на калькуляторах ну или на листочках. Ответить
раскрыть ветку (2)
Добрый Павлин
Да не стоит вообще программить, если не окупает с лихвой 700 в год Ответить
раскрыть ветку (1)
Дымящийся Гриб
согласен но нужно как то на плаву держаться и пока кодю в полку как то опа быстра началась и особо бесит возрастная дискриминация при найме. Ответить
Комментарии (18)
Поэтому мне кажется отставание будет, но в целом если осенью у меня будет китайская модель уровня Opes 4.7 при наличии Opus 5 - буду доволен.
Впрочем спорить не стану кому то и нива нормик впрочем как и мне
Но уже давно не видел иероглифов, да и контекст держит не плохо.
Вы сами пользуетесь? Я просто ради интереса на всех подписки оформил и гоняю их периодически, пока прогресс радует.
Ну а основная модель конечно Opus
В курсоре режим авто лучше тащит чем кими да и гпт 5.3 сейчас безлимит. так что могу ошибаться так как в основном на гпт и опус работаю
Опять же, для каких задач, смотря. Bash скрипты и bunjs и алиса неплохо тащит на результат. А когда просишь опуса проверить - выясняется очень много интересного от чего волосы дыбом
Например review когда он делает, бывает косяки находит которые ChatGPT в codex не нашел.
Так что единственный критерий это максимально покрывать тестами tdd, e2e, coverage, гонять через линтеры ci cd пайплайнов - это как минимум гарантирует базовый уровень и возможность для реальных программистов валидировать и ревьювить код