- Telega.FM

Русский ИТ бизнес

7 авг 2025 22:40

Я в восторге, все в восторге, зрители хлопают и улыбаются, но если очень внимательно посмотреть на график с презентации GPT-5 то можно слегка удивиться :)

Маркетинг, хуле. На диаграмме на картинке результат 52.8% выглядит визуально больше чем 69.1% :) Ну и по результатам тестов GPT 5 показал 74.9% на бенчмарке SWE bench Verified, что лишь незначительно превосходит Claude Opus 4.1 с результатом 74.5%...

А еще ждем Gemini 3.0 на днях.

Русский ИТ бизнес

👍 0

GroupAnonymousBot
2025-08-07 22:44

а вот вам еще в копилку картинка с презентации ГПТ-5... смешно тоже.
kirill_kolyshkin
2025-08-07 22:46

Так картинка в презе GPT это «ответ» на картинку в презе OPEN AI, т.е. это не ошибка, а намеренная фишка)
IT_Truck
2025-08-07 22:52

1. Масштаб осей.

Если у тебя падение с 1000 до 900 пользователей, не показывай ось от 900 до 1200. Покажи от 0 до 1500 – и твои жалкие -10% уже никто не примет всерьёз.

2 Абсолютные цифры.

Упало количество новых заказов на 20%? Не беда. Пиши, что в «этом месяце мы получили 10к заказов», а дальше сравни с полугодием. Люди плохо считают в уме.

3. Накладывай тренды.

Любой график можно сгладить трендовой линией. Даже если у тебя пилообразная херня, тренд покажет "общий рост".

4. Сравнивай с худшими.

«Мы опережаем 60% конкурентов» звучит лучше, чем «мы на 4 месте из 10».

5. Переходи на другую метрику.

MAU падает? Говори про вовлеченность.

Вовлеченность падает? Говори про ретеншен.

Ретеншен говно? Говори про ретеншен тех, кто никогда не уйдет.
apavlyut_p
2025-08-07 23:12
zawex
2025-08-07 23:44

Просчитались, но где..
Must_have_test
2025-08-08 00:25

Опережает незначительно Claude opus 4.1, но стоит, при этом, в 7.5 раз меньше. Да и опережает, на самом деле, значительно. Там нужно смотреть, что процент ошибок снизился с 27.5% до 25.1% - странно, что они так не показали. При приближении точности к 100% каждый процент уже большое достижение.