Русский ИТ бизнес
Русский ИТ бизнес

Кто уже успел попробовать Kimi 2.6

Кто уже успел попробовать Kimi 2.6
Кто уже успел попробовать Kimi 2.6? Эта штука в половине тестов обходит GPT-5.4, Claude Opus 4.6 и Gemini 3.1 Pro. Все профильные каналы в восторге, даже левый мужик у К&Б тоже радуется...

🟪 MAXTG

Комментарии (18)

  • Робкий Киллер
    Робкий Киллер
    Она физически не может и никогда не будет обходить гпт и опус Ответить
    раскрыть ветку (10)
    • Сказочный Пёс
      Сказочный Пёс
      почему? Ответить
      раскрыть ветку (9)
      • Робкий Киллер
        Робкий Киллер
        Физически разные уровни объемы железа, видеокарт, вливания инвесторов, обучающие материалы и самое главное экспертиза инженеров Ответить
        раскрыть ветку (8)
        • Сказочный Пёс
          Сказочный Пёс
          Уже сейчас Kimi и GLM на уровне пол года назад для Opus по ощущениям. Да тормознее работают, но работают.
          Поэтому мне кажется отставание будет, но в целом если осенью у меня будет китайская модель уровня Opes 4.7 при наличии Opus 5 - буду доволен. Ответить
          раскрыть ветку (7)
          • Робкий Киллер
            Робкий Киллер
            И любят ставить иероглифы и уходить от контекста

            Впрочем спорить не стану кому то и нива нормик впрочем как и мне Ответить
            раскрыть ветку (3)
            • Сказочный Пёс
              Сказочный Пёс
              Раньше да.
              Но уже давно не видел иероглифов, да и контекст держит не плохо.

              Вы сами пользуетесь? Я просто ради интереса на всех подписки оформил и гоняю их периодически, пока прогресс радует.
              Ну а основная модель конечно Opus Ответить
              раскрыть ветку (2)
              • Робкий Киллер
                Робкий Киллер
                Я к сожалению только 2.5 кими пробовал. Конечно по любому развиваются

                В курсоре режим авто лучше тащит чем кими да и гпт 5.3 сейчас безлимит. так что могу ошибаться так как в основном на гпт и опус работаю

                Опять же, для каких задач, смотря. Bash скрипты и bunjs и алиса неплохо тащит на результат. А когда просишь опуса проверить - выясняется очень много интересного от чего волосы дыбом Ответить
                раскрыть ветку (1)
                • Сквознячный Судья
                  Сквознячный Судья
                  Да, я аналогично. Opus лучше тащит слабодетерминированные задачи, а gpt дотошнее и лучше ищет в интернете. Ответить
          • Сквознячный Судья
            Сквознячный Судья
            Да ну. Нет, конечно. GLM чуть лучше, чем sonnet. И то, если к ней подключить mcp, которые прилагаются к подписке + superpowers, например. Ответить
            раскрыть ветку (2)
            • Сказочный Пёс
              Сказочный Пёс
              Где бы взять ту линейку, которая точно измерит :) У меня от аналитических способностей GLM очень хорошие впечатления.
              Например review когда он делает, бывает косяки находит которые ChatGPT в codex не нашел. Ответить
              раскрыть ветку (1)
              • Робкий Киллер
                Робкий Киллер
                Не факт что такая линейка найдется. Уверен, кими легко найдет косяки в коде опуса :)

                Так что единственный критерий это максимально покрывать тестами tdd, e2e, coverage, гонять через линтеры ci cd пайплайнов - это как минимум гарантирует базовый уровень и возможность для реальных программистов валидировать и ревьювить код Ответить
  • Оранжевый Агент
    Оранжевый Агент
    А может есть тут те кто пробует вот это все новое и на примерах показывает что и как там? Я бы подписался Ответить
    раскрыть ветку (1)
    • Лохматый Осьминог
      Лохматый Осьминог
      Вот-вот, а то если все пробовать, когда работать? :) Ответить
  • Толпящийся Торт
    Толпящийся Торт
    Узкое место во всех этих тестах, являются сами же тесты. Дело в том, что качество модели может быть намного больше чем тест показывает. Это как дальтоник смотрит 4К фильм :) Ответить
  • Речной Посол
    Речной Посол
    Прошлая k2.5 тоже обходила топовые нейронки в их тестах, но чуть меняешь профиль задачи - пишешь не фронт, а бэк, меняешь язык программирования и качество сразу падает в дно. Скорее всего здесь также - на некоторых агентных сценариях, которые они декларируют очень хорошо, а в остальном сильно отстают. Ответить
  • Дымящийся Гриб
    Дымящийся Гриб
    Одно хрено что теперь после выхода GLM 5.1 подписка сразу стала почти 700$ в год :( раньше на 4.7 не упирался не разу в лимиты а теперь 5.1 сьедает за 30 минут все лимиты :( печалька и в продавцы не береут нужно искать место для коробки где нить в лесочке еще оплата за впн трафик и будем программировать на калькуляторах ну или на листочках. Ответить
    раскрыть ветку (2)
    • Добрый Павлин
      Добрый Павлин
      Да не стоит вообще программить, если не окупает с лихвой 700 в год Ответить
      раскрыть ветку (1)
      • Дымящийся Гриб
        Дымящийся Гриб
        согласен но нужно как то на плаву держаться и пока кодю в полку как то опа быстра началась и особо бесит возрастная дискриминация при найме. Ответить