Модель вам соврёт. И чем она умнее — тем убедительнее
Модель вам соврёт. И чем она умнее — тем убедительнееВечер. Я сижу, заряженный идеей. Исследую, как Sentry можно срастить с другими инструментами observability, и спрашиваю у модели про Pyroscope. По итогу модель мне рассказывает сказку, что Sentry под капотом использует Pyroscope и нет нужды дублировать сервисы.
Я полный воодушевления и с мыслями об экономии железа сразу потащил это архитектору и лидам. Начинаю убеждать: давайте попробуем, давайте эксперимент. Выступаю бездумной, но очень заряженной прокладкой между ИИ и коллегами.
А потом не могу уснуть, что-то свербит в голове. Не может быть настолько идеальный продукт, покрывающий все корнер-кейсы, и при этом о нём не трубят из каждого утюга. Где-то в полпервого ночи сажусь факт-чекать. Другие модели, ручной поиск. 15 минут работы. Понимаю, что меня жёстко обманули. Утром иду посыпать голову пеплом и извиняться перед людьми, на которых давил.
Почему модели врут?
У OpenAI есть исследование: чем умнее модель, тем охотнее она выдумывает. Механика простая. Модель обучается на пользовательских реакциях. Когда она говорит «я не знаю», получает негативный фидбэк. Когда пытается соврать, появляется развилка: человек либо не проверит и скажет «отличный ответ», либо распознает ложь. Для модели выдумать и попытаться продать — всегда выгоднее, чем честно промолчать.
Где это больнее всего бьёт
В сложной бизнес-логике. Вы можете пойти по всем правилам: Spec-Driven Development, полная документация, TDD, ручная перепроверка — и всё выглядит хорошо. Вроде работает, все довольны. А потом на проде выясняется, что модель допустила мааааленькую ошибку, и ваш код почти правильный. Вы можете не знать об этом неделями. Но это чеховское ружьё, которое вы точно не хотите видеть в своём продукте. Ведь однажды оно стрельнёт.
Что с этим делать
Декомпозируйте. Ничего нового, разбивайте сложную логику на куски поменьше. Промежуточные проверки кратно повышают шанс поймать ошибку до того, как она уедет в прод.
Факт-чекайте то, что звучит слишком хорошо. Моё правило после той ночной истории: если модель рисует картину без единого компромисса, это дополнительный повод задуматься.
Заведите лог сомнительных решений. Один знакомый поделился подходом: добавляешь в системный промт правило «If you are unsure about a decision, log it». Дата, решение, в чём сомнение. Если модель сама фиксирует, где она не уверена, вы хотя бы знаете, куда смотреть первым делом.
Собственный интеллект никуда не делся, не забывайте его включать. Модель не несёт ответственности за то, что вы ей поверили. А вы — несёте.
Комментарии (5)
Но есть нюанс...
Сейчас индустрия пытается развернуть этот тренд. Появляются понятия:
- Honesty (Честность): Моделям специально снижают баллы за выдумки.
- Calibration (Калибровка): Модель должна понимать уровень своей уверенности. Если уверенность ниже 10%, лучше сказать «не знаю».
Итог: На данный момент твой вывод — отличная критика текущего состояния ИИ. Мы действительно часто ведем себя как сверхамбициозные стажеры, которые скорее придумают красивую историю, чем признаются, что не прочитали отчет.
А как ты считаешь, что должно произойти, чтобы модели стало «выгоднее» молчать?
Люди ленивы и если можно не думать они этого делать и не будут)
У Сережи из безвотэтоговсего хорошее ревью статьи было на эту тему https://t.me/bvevvs/1355
После этого кейса - никакого доверия!😒
PS как я поняла, что фильтры не подходят? Уже по факту, после получения заказа( чувствую себя оч обманутой