Русский ИТ бизнес 👨
Подписаться
Я в восторге, все в восторге, зрители хлопают и улыбаются, но если очень внимательно посмотреть на график с презентации GPT-5 то можно слегка удивиться :)

Маркетинг, хуле. На диаграмме на картинке результат 52.8% выглядит визуально больше чем 69.1% :) Ну и по результатам тестов GPT 5 показал 74.9% на бенчмарке SWE bench Verified, что лишь незначительно превосходит Claude Opus 4.1 с результатом 74.5%...

А еще ждем Gemini 3.0 на днях.

Русский ИТ бизнес

Комментарии (0)

  • GroupAnonymousBot
    а вот вам еще в копилку картинка с презентации ГПТ-5... смешно тоже.
  • kirill_kolyshkin
    Так картинка в презе GPT это «ответ» на картинку в презе OPEN AI, т.е. это не ошибка, а намеренная фишка)
  • IT_Truck
    1. Масштаб осей.

    Если у тебя падение с 1000 до 900 пользователей, не показывай ось от 900 до 1200. Покажи от 0 до 1500 – и твои жалкие -10% уже никто не примет всерьёз.

    2 Абсолютные цифры.

    Упало количество новых заказов на 20%? Не беда. Пиши, что в «этом месяце мы получили 10к заказов», а дальше сравни с полугодием. Люди плохо считают в уме.

    3. Накладывай тренды.

    Любой график можно сгладить трендовой линией. Даже если у тебя пилообразная херня, тренд покажет "общий рост".

    4. Сравнивай с худшими.

    «Мы опережаем 60% конкурентов» звучит лучше, чем «мы на 4 месте из 10».

    5. Переходи на другую метрику.

    MAU падает? Говори про вовлеченность.

    Вовлеченность падает? Говори про ретеншен.

    Ретеншен говно? Говори про ретеншен тех, кто никогда не уйдет.
  • apavlyut_p
  • zawex
    Просчитались, но где..
  • Must_have_test
    Опережает незначительно Claude opus 4.1, но стоит, при этом, в 7.5 раз меньше. Да и опережает, на самом деле, значительно. Там нужно смотреть, что процент ошибок снизился с 27.5% до 25.1% - странно, что они так не показали. При приближении точности к 100% каждый процент уже большое достижение.