Как понять, что ИИ «отупел»?
Сервис Margin Evals Degradation Trackers объективно отслеживает качество работы ИИ-помощников в реальном времени, избавляя от субъективных догадок об их деградации.
Как это работает и почему это полезно:
* Реальные условия: Ежедневные тесты Claude Code и Codex идут напрямую через официальные CLI. Это значит, что метрики отражают именно то, с чем сталкивается реальный пользователь.
* Глубокая аналитика: Помимо успешности решения задач (pass rate), сервис фиксирует расход токенов, время работы и количество вызовов инструментов (tool calls).
* Умный мониторинг: Трекер автоматически подсвечивает статистически значимые просадки в качестве ответов.
> Важный нюанс: Дневная выборка тестов небольшая (N=50), поэтому для объективной картины лучше смотреть на графики за неделю или месяц.
>
Если вам снова показалось, что Opus или Codex стали хуже справляться с кодом — теперь это можно проверить на цифрах:
🦀 Claude Code: marginlab.ai/trackers/claude-code
🧑💻 Codex: marginlab.ai/trackers/codex
Автор https://t.me/vercello_notes
Русский ИТ бизнес
23 мая 2026 18:34
Комментарии (517)
Комментариев пока нет.