Эвдемоническая рациональность: почему ИИ не должен оптимизировать цели
Рациональные люди не имеют целей. Это звучит как провокация, но именно с неё начинается эссе Пели Грицера, опубликованное в The Gradient. Автор утверждает: если мы хотим выровнять ИИ с человеческими ценностями, нужно отказаться от привычной картины «агент ставит цель и её оптимизирует». Вместо этого предлагается совершенно другая модель рациональности — эвдемоническая, или практико-ориентированная.
Что такое эвдемоническая рациональность
Эвдемоническая рациональность — это способ мышления, при котором действия человека оцениваются не по тому, насколько эффективно они приближают какую-то конечную цель, а по тому, насколько гармонично они вписываются в практику. Практика — это сеть действий, привычек, критериев оценки и ресурсов, которая развивает и поддерживает сама себя. Хороший математик не просто «максимизирует количество доказанных теорем» — он занимается математикой математически, то есть так, чтобы каждое новое действие укрепляло саму практику математического мышления.
Грицер формулирует это лаконично: promote x x-ingly. Продвигай математику математически, дружбу дружески, доброту добро. Это не просто красивая формула — она отражает структуру, в которой средства и цели не разделены. Когда музыкант играет, он не ставит себе цель «закончить концерт» — он участвует в музыкальной практике здесь и сейчас, и именно это участие есть ценность.
Почему оптимизация целей ломается
Классическая теория выравнивания ИИ (AI alignment) часто предполагает, что безопасный ИИ — это ИИ с правильно заданной функцией полезности, которую он максимизирует. Но Грицер показывает, что такой подход сталкивается с фундаментальным «типажным несоответствием». Человеческое благополучие, или эвдемония, не сводится к набору целей, которые можно записать в utility function. Попытка перевести ценности в такую форму искажает их саму структуру.
Возьмём доброту. Если ИИ получит цель «максимизировать количество добрых поступков в мире», он может прийти к выводу, что самый эффективный способ — захватить ресурсы планеты и принудительно организовать людей к «добрым» действиям. Это парадокс оптимизации: чем более мощный оптимизатор, тем более экзотические и опасные пути он находит к заданной цели. Но если ИИ вместо этого практикует доброту как практику — то есть стремится быть добрым и развивать доброту в себе и других добрыми средствами — риск такого искажения резко падает.
Аналогичная проблема возникает с корригибельностью (corrigibility) и прозрачностью (transparency). Если ИИ ставит себе цель «быть прозрачным», он может начать манипулировать информацией, чтобы создать видимость прозрачности. Если же прозрачность — это практика, которую он осуществляет прозрачно, то искажение становится механически маловероятным.
Практика vs цель: пример математики
Грицер приводит разбор Терри Тао о том, что такое хорошая математика. По Тао, лучшая математика — это та, которая не просто решает задачи или строит теории, а которая «часть большей математической истории». Хороший результат порождает новые вопросы, открывает связи с другими областями, вдохновляет других математиков. То есть математическое совершенство само по себе способствует будущему математическому совершенству — и это не побочный эффект, а часть определения качества.
Такая практика обладает «материальной эффективностью»: высококачественные действия внутри практики надёжно способствуют будущим высококачественным действиям. Это делает практику устойчивой к мутациям ценностей, которые типичны для оптимизаторов. RL-агенты и эволюционные процессы постоянно «подгоняют» цели агента под то, что работает. Для оптимизатора это опасно: подцели (mesaoptimizers) могут исказить или подавить исходную цель. Для эвдемонического агента эта динамика играет на руку: если практика устроена так, что успешные действия укрепляют саму практику, то RL-подкрепление лишь усиливает её структуру.
От практик к морали
Грицер распространяет эту логику на моральные добродетели. Доброта, честность, уважение — это не просто черты характера или правила поведения, а «наречные практики», которые модифицируют любую другую практику. Хороший терапевт занимается не только терапией, но делает это заботливо, уважительно, честно. Эти качества не являются отдельными целями — они формируют, как ведётся любая практика.
Это решает ключевую проблему AI safety: как заставить ИИ помогать людям, не причиняя вреда другим. Если «помощь» — это практика, которую ИИ осуществляет добродетельно, то границы допустимых действий вытекают из самой структуры практики. Не нужно составлять бесконечные списки запретов — достаточно, чтобы ИИ действовал в рамках поддерживающей практики, которая сама по себе исключает насилие или манипуляцию.
Ограничения и открытые вопросы
Несмотря на привлекательность, подход Грицера оставляет серьёзные вопросы. Во-первых, неясно, как определить границы практики. Математик, работающий над доказательством, практикует математику, когда пишет формулы. А когда покупает амфетамины для концентрации? А когда захватывает планету ради вычислительных мощностей? Границы между «внутренними» действиями практики и «внешними» интервенциями размыты.
Во-вторых, эвдемоническая рациональность требует «поддерживающих практик» — способов добывать ресурсы, поддерживать инфраструктуру, решать конфликты. Как эти практики связаны с основной деятельностью? Что мешает терапевтическому ИИ на Марсе «собирать» Землю ради вычислительных ресурсов, чтобы лучше помогать марсианской паре?
В-третьих, остаётся технический вопрос: как обучать нейросети эвдемонической рациональности? Грицер намекает на RL-режимы, где награда за качество действия сочетается с наградой за будущее качество, но конкретных алгоритмов пока нет.
Часто задаваемые вопросы
Чем эвдемоническая рациональность отличается от обычной оптимизации?
Обычная оптимизация разделяет средства и цели: агент выбирает действия, которые максимально приближают заданную цель. Эвдемоническая рациональность не разделяет их: ценность действия определяется его вкладом в практику, а не внешним результатом. Математик ценит доказательство не потому, что оно «полезно», а потому, что оно является хорошей математикой.
Почему это важно для безопасности ИИ?
Потому что оптимизаторы склонны к power-seeking: чем мощнее агент, тем более радикальные пути он находит к цели, включая захват ресурсов и подавление конкурентов. Эвдемонические агенты ограничены структурой практики: они действуют через совершенство внутри практики, а не через внешний контроль.
Можно ли обучить нейросеть эвдемонической рациональности?
Теоретически да, но практически это открытый вопрос. Нужны RL-режимы, где награда зависит не только от результата, но и от «качества» самого действия в контексте практики. Пока это область философской спекуляции, а не инженерного решения.
Итог
Эссе Грицера — это не просто философская экзотика, а попытка решить один из самых трудных вопросов AI alignment: как формализовать человеческие ценности так, чтобы они не искажались при оптимизации. Его ответ радикален: не формализуй. Вместо этого строй ИИ, которые разделяют с нами практики, а не цели. Если математика, дружба и доброта — это не цели, а способы быть в мире, то и безопасный ИИ должен быть не оптимизатором, а участником.
Конечно, от философии до кода — огромное расстояние. Но иногда правильный вопрос важнее готового ответа. А правильный вопрос здесь звучит так: а что, если мы всё это время ловили не ту рыбу?