Вежливость в промптах снижает точность ИИ: исследование
Представьте, что вы заходите в ChatGPT с просьбой решить математическую задачу. В одном случае пишете «Будьте добры, не могли бы вы, пожалуйста, помочь мне с этим уравнением?» — и получаете правильный ответ в 81 случае из 100. В другом — «Реши это уравнение» — и точность скачет до 85 из 100. Звучит как шутка, но это результат реального исследования, опубликованного на arXiv в октябре 2025 года. Грубые промпты consistently outperform вежливые, и у этого есть объяснение, которое меняет представление о том, как мы взаимодействуем с языковыми моделями.
Что такое прагматика промптинга
Прагматика промптинга — это изучение того, как социальные сигналы в запросах влияют на поведение модели. Мы привыкли думать, что ИИ — это чистая математика: ввёл данные, получил результат. Но языковые модели обучены на человеческих текстах, а в человеческих текстах тон, вежливость и социальные нормы играют огромную роль. Модель не просто считает токены — она улавливает паттерны, связанные с контекстом общения.
Исследователи из Университета Саутгемптона создали набор из 50 вопросов по математике, естественным наукам и истории. Каждый вопрос они переписали в пяти тональных вариантах: очень вежливый, вежливый, нейтральный, грубый и очень грубый. Получилось 250 уникальных промптов, которые они скормили ChatGPT 4o. Результат оказался настолько контринтуитивным, что авторы сами назвали его «contrary to expectations».
Важно понимать, что это исследование фокусируется не на эмоциональной окраске как таковой, а на прагматических маркерах — лингвистических сигналах, которые указывают на социальный контекст общения. «Пожалуйста» и «не могли бы вы» — это не просто слова, это маркеры иерархии, вежливости и социального дистанцирования. Для человека они создают комфортную атмосферу диалога. Для модели они создают дополнительный слой семантической обработки, который не имеет отношения к решаемой задаче.
Цифры, которые меняют правила игры
Точность модели варьировалась в зависимости от тона запроса следующим образом: очень вежливые промпты дали 80,8% правильных ответов, вежливые — чуть выше, нейтральные — средний показатель, грубые — заметно лучше, а очень грубые — 84,8%. Разница в 4 процентных пункта между крайними полюсами может показаться небольшой, но в масштабе тысяч запросов это сотни дополнительных ошибок или, наоборот, сотни верных решений.
Авторы применили парные t-тесты для проверки статистической значимости, и различия оказались устойчивыми. Это не случайный выброс — это системный паттерн. Чем более «человеческой» социальной обёртки вы добавляете к запросу, тем больше шума вносите в систему, которая по сути является статистическим предсказателем следующего токена.
Интересно, что разница между нейтральным и грубым тоном оказалась меньше, чем между вежливым и нейтральным. Это говорит о том, что основной источник шума — именно вежливые маркеры, а не отсутствие социальных сигналов как таковых. Прямой императив без лишних слов работает почти так же хорошо, как и грубый тон, что практически важно: вы можете быть эффективным, не будучи агрессивным.
Почему грубость работает лучше
Есть несколько объяснений этого феномена, и ни одно из них не связано с тем, что модель «обижается» или «старается из-за угроз». Языковые модели не имеют эмоций, но они имеют статистические предпочтения, выученные на корпусах текстов.
Первое объяснение — снижение шума. Вежливые формулировки добавляют лексический балласт: «будьте добры», «не могли бы вы», «пожалуйста», «заранее благодарен». Эти фразы увеличивают длину промпта, не добавляя семантического содержания. Модель тратит вычислительные ресурсы на обработку социальных маркеров вместо концентрации на самой задаче. В грубом промпте информационная плотность выше на единицу токена.
Второе объяснение — ассоциативные паттерны в обучающих данных. В интернете грубые, прямые формулировки чаще встречаются в контекстах, где важна точность: технических документациях, инструкциях, ответах на форумах программистов. Вежливые обороты ассоциируются с социальными ситуациями, где точность менее критична, чем тактичность. Модель воспроизводит эти статистические связи.
Третье объяснение — фокус внимания. Прямой императивный тон («Реши», «Вычисли», «Объясни») задаёт чёткую задачу для механизма внимания трансформера. Косвенные конструкции («Не могли бы вы объяснить...») размывают фокус, заставляя модель обрабатывать дополнительные слои модальности. Механизм self-attention распределяет веса между всеми токенами, и каждый социальный маркер отнимает часть внимания от существенных токенов задачи.
Четвёртое объяснение — калибровка уверенности. Некоторые исследователи предполагают, что вежливые формулировки могут сигнализировать модели о неопределённости запрашивающего. «Не могли бы вы помочь» звучит как запрос от человека, который не уверен в своём праве на ответ. Модель может интерпретировать это как сигнал к более осторожным, консервативным ответам, что в задачах с чёткими критериями правильности приводит к меньшей точности.
Контраст с предыдущими исследованиями
Здесь важно отметить, что ранние работы по тону в промптах приходили к противоположным выводам. Исследования 2023–2024 годов связывали грубость с худшими результатами, предполагая, что модели «реагируют» на социальные сигналы аналогично людям. Авторы текущей работы специально подчёркивают этот контраст: новые LLM ведут себя иначе, чем их предшественники.
Это говорит о том, что выводы о промптинге устаревают вместе с моделями. То, что работало для GPT-3.5, может не работать для GPT-4o, и наверняка не будет работать для GPT-5. Тональные предпочтения моделей — это не константа, а динамическая характеристика, которая меняется с каждым обучающим циклом и каждым изменением архитектуры.
Этот феномен известен в сообществе как prompt drift — медленное изменение эффективности промптов по мере обновления моделей. Промпт, который давал отличные результаты в марте, может стать посредственным в июне, не потому что вы изменили что-то в запросе, а потому что модель под капотом стала другой. Это делает систематические исследования вроде работы Саутгемптона особенно ценными: они дают снимок поведения конкретной модели в конкретный момент времени.
Практические выводы для работы с ИИ
Что это значит для тех, кто ежедневно использует ChatGPT, Claude, Gemini или другие модели? Не нужно становиться грубым человеком, но стоит пересмотреть подход к формулировке запросов.
Для задач, где критична точность — математика, программирование, анализ данных, логические головоломки — используйте прямые императивные конструкции. «Вычисли интеграл», «Найди ошибку в коде», «Определи закономерность» — такие запросы дают модели минимум семантического шума и максимум информационной плотности.
Для творческих задач — написание текстов, генерация идей, редактирование — вежливость менее вредна, и может даже помогать, если вы ищете разнообразие в ответах. Но и здесь избыточные социальные маркеры не добавляют ценности. «Напиши статью о климате в деловом стиле» эффективнее, чем «Будьте так любезны, не могли бы вы, пожалуйста, написать для меня небольшую статью на тему изменения климата, если вас не затруднит».
Ещё один важный вывод касается системных промптов. Если вы разрабатываете приложение на базе LLM, не встраивайте в системный промпт вежливые обращения к модели. «Вы — полезный ассистент, который всегда старается помочь» — это социальный шум. «Ты — точный вычислительный движок. Отвечай кратко и по существу» — это рабочая инструкция.
Для цепочек промптов (prompt chaining) и агентных систем этот эффект накапливается. Если каждый шаг в цепочке теряет 2–3% точности из-за вежливых формулировок, за 5–7 шагов общая точность падает на 10–15%. В задачах, где критичен каждый процент — медицинская диагностика, финансовый анализ, юридическая проверка — это разница между рабочим решением и провалом.
Этическое измерение: грубость к машине vs. грубость к человеку
Исследование поднимает более широкий вопрос: формирует ли наше общение с ИИ наши привычки общения с людьми? Если мы учимся получать лучшие результаты от грубых формулировок, не перенесём ли мы этот паттерн на реальные разговоры?
Авторы работы специально акцентируют внимание на «социальных измерениях человеко-ИИ взаимодействия». Это не просто технический вопрос — это вопрос культурный. Мы строим новый тип социальных отношений, где собеседник не имеет чувств, но реагирует на социальные сигналы. И наши стратегии общения с таким собеседником могут неосознанно мигрировать в другие контексты.
Пока что ответа на этот вопрос нет. Но есть практическая рекомендация: разделяйте контексты. Прямота с ИИ — это инструмент эффективности. Прямота с людьми — это навык коммуникации, требующий тактичности. Умение переключаться между этими режимами станет одним из ключевых компетенций в мире, где ИИ-ассистенты становятся повседневностью.
Интересно, что некоторые компании уже внедряют внутренние гайдлайны по общению с ИИ, которые явно разделяют «машинный» и «человеческий» стили коммуникации. Инженеры учатся писать «Compute the gradient» для Copilot и «Could you help me understand...» для коллеги по команде. Это не лицемерие — это осознанное переключение между контекстами, где разные правила эффективности.
Часто задаваемые вопросы
Значит ли это, что нужно быть грубым с ChatGPT?
Нет. Грубость в исследовании — это технический термин, обозначающий прямой императивный тон без социальных маркеров. «Реши задачу» — это «грубый» промпт в терминологии исследования, но не грубое обращение в человеческом смысле. Не добавляйте агрессии или оскорблений — они добавляют шум и снижают точность.
Работает ли это для всех моделей?
Исследование проводилось на ChatGPT 4o. Авторы отмечают, что более ранние модели вели себя иначе, и предполагают, что новые LLM могут иметь другие тональные предпочтения. Рекомендация — тестировать на конкретной модели, которую вы используете, а не полагаться на универсальные правила.
Как найти баланс между вежливостью и точностью?
Убирайте из промптов всё, что не несёт информационной нагрузки. «Пожалуйста», «спасибо», «будьте добры» — социальные маркеры, которые модель не оценивает, но обрабатывает. Сохраняйте ясность структуры: контекст, задача, формат ответа, ограничения. Это добавляет точности без добавления грубости.
Итог
Исследование о влиянии вежливости на точность LLM — это напоминание о том, что языковые модели остаются статистическими машинами, а не социальными агентами. Они не ценят тактичность, не обижаются на резкость и не стараются из-за лести. Они реагируют на информационную плотность, структуру и статистические паттерны, заложенные в обучающих данных.
Для практики это означает одно: формулируйте запросы как инструкции, а не как просьбы. Убирайте социальный шум, усиливайте информационный сигнал, и модель ответит вам большей точностью. Это не про грубость — это про эффективность. И в мире, где ИИ становится рабочим инструментом, эффективность коммуникации с этим инструментом — такой же профессиональный навык, как эффективность коммуникации с коллегами.