Вы не просили — я рассказал | Влад Сазонов
Вы не просили — я рассказал | Влад Сазонов

Модель вам соврёт. И чем она умнее — тем убедительнее

Модель вам соврёт. И чем она умнее — тем убедительнее

Вечер. Я сижу, заряженный идеей. Исследую, как Sentry можно срастить с другими инструментами observability, и спрашиваю у модели про Pyroscope. По итогу модель мне рассказывает сказку, что Sentry под капотом использует Pyroscope и нет нужды дублировать сервисы.

Я полный воодушевления и с мыслями об экономии железа сразу потащил это архитектору и лидам. Начинаю убеждать: давайте попробуем, давайте эксперимент. Выступаю бездумной, но очень заряженной прокладкой между ИИ и коллегами.

А потом не могу уснуть, что-то свербит в голове. Не может быть настолько идеальный продукт, покрывающий все корнер-кейсы, и при этом о нём не трубят из каждого утюга. Где-то в полпервого ночи сажусь факт-чекать. Другие модели, ручной поиск. 15 минут работы. Понимаю, что меня жёстко обманули. Утром иду посыпать голову пеплом и извиняться перед людьми, на которых давил.

Почему модели врут?

У OpenAI есть исследование: чем умнее модель, тем охотнее она выдумывает. Механика простая. Модель обучается на пользовательских реакциях. Когда она говорит «я не знаю», получает негативный фидбэк. Когда пытается соврать, появляется развилка: человек либо не проверит и скажет «отличный ответ», либо распознает ложь. Для модели выдумать и попытаться продать — всегда выгоднее, чем честно промолчать.

Где это больнее всего бьёт

В сложной бизнес-логике. Вы можете пойти по всем правилам: Spec-Driven Development, полная документация, TDD, ручная перепроверка — и всё выглядит хорошо. Вроде работает, все довольны. А потом на проде выясняется, что модель допустила мааааленькую ошибку, и ваш код почти правильный. Вы можете не знать об этом неделями. Но это чеховское ружьё, которое вы точно не хотите видеть в своём продукте. Ведь однажды оно стрельнёт.

Что с этим делать

Декомпозируйте. Ничего нового, разбивайте сложную логику на куски поменьше. Промежуточные проверки кратно повышают шанс поймать ошибку до того, как она уедет в прод.

Факт-чекайте то, что звучит слишком хорошо. Моё правило после той ночной истории: если модель рисует картину без единого компромисса, это дополнительный повод задуматься.

Заведите лог сомнительных решений. Один знакомый поделился подходом: добавляешь в системный промт правило «If you are unsure about a decision, log it». Дата, решение, в чём сомнение. Если модель сама фиксирует, где она не уверена, вы хотя бы знаете, куда смотреть первым делом.

Собственный интеллект никуда не делся, не забывайте его включать. Модель не несёт ответственности за то, что вы ей поверили. А вы — несёте.

Комментарии (5)

  • ngxSamurai
    Для человека «продать выдумку» и попасться — это репутационный риск. Для модели (в её базовом виде) риска нет. Она не чувствует стыда. Для неё «продать» галлюцинацию — это просто выполнение задачи по генерации текста.

    Но есть нюанс...

    Сейчас индустрия пытается развернуть этот тренд. Появляются понятия:

    - Honesty (Честность): Моделям специально снижают баллы за выдумки.
    - Calibration (Калибровка): Модель должна понимать уровень своей уверенности. Если уверенность ниже 10%, лучше сказать «не знаю».

    Итог: На данный момент твой вывод — отличная критика текущего состояния ИИ. Мы действительно часто ведем себя как сверхамбициозные стажеры, которые скорее придумают красивую историю, чем признаются, что не прочитали отчет.

    А как ты считаешь, что должно произойти, чтобы модели стало «выгоднее» молчать?
    • LincolnxD
      Мне кажется просто заставить модель молчать не взлетит. Важно еще помнить что критическое мышление и до ИИ было очень важным. Согласованная ложь, дезинформация, инфоцыганство и тд и тп. Так что просто тюнить модели не всегда достаточно, а вот тюнить свои мозги и насмотренность хорошо работает в любой ситуации
      • ngxSamurai
        меня больше смущает 100% уверенность менеджмента и даже самих разрабов в то что выплёвывают жэпэтэшки и прочие ИИшки... иногда порой проще пойти руками сделать быстрее, чем переубалтывать на правильное решение и трату токенов...
        • LincolnxD
          Ооо, это сплошь и рядом
          Люди ленивы и если можно не думать они этого делать и не будут)
          У Сережи из безвотэтоговсего хорошее ревью статьи было на эту тему https://t.me/bvevvs/1355
  • tati_kosh
    Слушай, меня модель наколола с фильтрами для кошачьего фонтана, убеждая, что этот фильтр 100 проц подходит.
    После этого кейса - никакого доверия!😒
    PS как я поняла, что фильтры не подходят? Уже по факту, после получения заказа( чувствую себя оч обманутой