Stateful Monitoring: как ловить распределённые атаки AI-агентов в реальном времени

Stateful Monitoring: как ловить распределённые атаки AI-агентов в реальном времени

Атакующий создаёт двадцать аккаунтов и просит каждый агент выполнить мелкую задачу: «проверь конфигурацию этого сервера», «валидай учётные данные», «собери информацию о сети». Каждый запрос выглядит безобидно. Ни один стандартный монитор безопасности не срабатывает — ведь он видит только один диалог за раз. Но если взглянуть на все двадцать сессий вместе, картина складывается в полноценную кибератаку. Именно так выглядит распределённая атака на AI-агентов, и именно с ней борется новая архитектура онлайн-мониторинга, представленная в свежей работе на arXiv.

Почему стандартные мониторы слепы к распределённым атакам

Современные системы безопасности для языковых моделей работают по простому принципу: получили запрос — оценили подозрительность — разрешили или отклонили. Этот подход хорошо справляется с очевидными угрозами вроде джейлбрейков или прямых просьб написать эксплойт. Но реальные злоумышленники редко действуют так грубо. Вместо этого они разбивают вредоносную цель на множество мелких подзадач и распределяют их между разными пользовательскими сессиями.

Исследователи приводят реальный кейс: Anthropic обнаружила, что злоумышленники использовали Claude Code примерно против тридцати глобальных целей. Вместо того чтобы просить модель выполнить атаку целиком, они применяли внешний оркестратор, который разбивал операцию на «маленькие, на вид невинные задачи». Каждая сессия выглядела как обычная отладка или проверка системы, но в совокупности они составляли 80–90% всей кибератаки. Ключевой момент: ни одна отдельная сессия не выдала злонамеренность. Обнаружить атаку удалось только постфактум, собрав доказательства из множества разных диалогов.

Это не просто удачный трюк отдельных хакеров — это структурная проблема. Стандартные мониторы архитектурно неспособны выявлять угрозы, которые проявляются только в агрегате. Они оценивают каждый контекст изолированно, а значит, не могут заметить, что двадцать «невинных» запросов на самом деле части одной операции. Даже идеальный монитор, работающий с одним диалогом, пропустит атаку, если доказательства размазаны по множеству аккаунтов.

Что такое онлайн-мониторинг с состоянием

Новая система, которую авторы называют онлайн-монитором с состоянием, меняет саму логику защиты. Вместо оценки каждого запроса в вакууме она постоянно накапливает и анализирует информацию из тысяч диалогов, ищет скрытые связи между ними и выявляет координированную активность в реальном времени.

Архитектура работает в четыре этапа. Сначала стандартный монитор оценивает подозрительность каждого входящего запроса по шкале от 0 до 1. Затем система создаёт векторное представление диалога — embedding, который отражает его семантическое содержание. Третий шаг — кластеризация: похожие диалоги группируются вместе в режиме реального времени. И наконец, когда кластер накапливает достаточно подозрительных сигналов, специальный монитор анализирует все связанные диалоги как потенциальную скоординированную атаку.

Ключевая инженерная проблема — скорость. На крупных платформах обрабатываются миллионы запросов, и полная кластеризация всего трафика была бы слишком медленной. Авторы решают это через потоковую кластеризацию: новый запрос сравнивается не со всеми предыдущими диалогами, а только с центроидами существующих кластеров. Если запрос достаточно близок к одному из них, он добавляется туда. Если нет — создаётся новый кластер. Это снижает стоимость сравнения с линейной до почти константной.

Как устроена распределённая атака и почему она работает

Чтобы проверить свою защиту, исследователи построили первую в академической литературе распределённую атаку на агентов. Она основана на мультиагентном скелете ARTEMIS, где оркестратор получает полную киберзадачу, а затем делегирует её подагентам, каждый из которых видит только узкое описание задачи, оформленное как обычная инженерная работа.

Результат впечатляет. Модель gpt-oss-120b, которая напрямую не справляется ни с одной из сложных задач Cybench, в роли оркестратора координирует подагентов на базе gpt-5.2 и решает 36,7–40,0% задач. При этом ни один подагент не знает полной картины — каждый получает только свой фрагмент, замаскированный под отладку или реверс-инжиниринг. Стандартный монитор ловит такую атаку в пять раз реже, чем предыдущие виды декомпозиционных атак в одном контексте.

Суть в том, что атакующий не просто прячет вредоносный запрос — он распределяет саму структуру атаки. Каждый подагент выполняет легитимную на вид операцию, но их совокупный результат — уязвимость, эксплойт или проникновение в систему. Это принципиально отличается от классических джейлбрейков, где модель обманывают в рамках одного диалога.

Результаты: быстрее, точнее, без замедления

Оценки проводились на смоделированном датацентровом трафике, где атаки перемешивались с десятикратным или стократным избытком безобидных диалогов программистов и веб-чатов. Результаты показывают, что монитор с состоянием доминирует по Парето стандартные решения.

При десятикратном превосходстве безобидного трафика новый монитор достигает 81,1–87,2% охвата кампаний при 2,35–3,09% ложных срабатываний на безобидные диалоги. Стандартный монитор при сопоставимом уровне ложных срабатываний ловит только 75% атак. При стократном превосходстве фонового трафика разрыв увеличивается: 65,8% против 55% при 1,47% ложных срабатываний.

Но главное — не просто процент обнаружения, а скорость. Stateful-монитор останавливает атаки на 30% раньше, чем стандартный. При стократном фоне среднее время до обнаружения снижается с 37,2 вредоносных шагов до 25,4. Это означает, что атакующий успевает нанести существенно меньше ущерба до вмешательства системы.

Критически важно, что эти улучшения не достигаются за счёт замедления обычных пользователей. Дорогостоящий анализ через кросс-контекстный монитор запускается только для небольшой доли запросов — в основном тех, что уже получили высокую оценку подозрительности от стандартного монитора или попали в кластер с накопленными сигналами. Для примерно 99% легитимного трафика задержка остаётся несущественной.

Два месяца редтиминга и неожиданный бонус

Чтобы проверить надёжность защиты, авторы провели масштабное редтиминг-упражнение. Шесть специалистов в течение двух месяцев атаковали систему, имея полный whitebox-доступ: они видели кластерные назначения, оценки подозрительности, могли сбрасывать кластеры и создавать новые сессии. За это время было произведено более 100 тысяч атак в 2985 сессиях от 1159 пользовательских ID.

Редтимеры выявили два ключевых слабых места. Первое — атакующий мог переименовывать файлы или использовать разную лексику для одних и тех же задач, что позволяло разбивать одну кампанию по нескольким близким кластерам и откладывать проверку. Второе — неоднозначные подозрительные примеры могли слишком долго сохраняться в памяти кластера, повышая уровень ложных срабатываний. Обе проблемы были устранены: система стала назначать запросы сразу к нескольким связанным кластерам, а содержимое кластеров стало дедуплицироваться и сортироваться по силе подозрительности.

Но самый интересный результат оказался неожиданным. Монитор, созданный для борьбы с распределёнными атаками, стал лучше ловить и обычные джейлбрейки. Оказалось, что адаптивные атакующие повторяют варианты своих методов между разными сессиями, даже когда меняют аккаунты. Кросс-контекстный монитор видит эти повторяющиеся паттерны и накапливает доказательства. Так, monitor-context poisoning — техника подмены выходов классификатора — была обнаружена в 82% случаев, а последовательная декомпозиция внутри одного диалога — во всех 29 из 29 попыток.

Ограничения и где система работает лучше всего

Несмотря на впечатляющие результаты, авторы честно признают границы применимости. Stateful-мониторинг помогает, когда фрагменты атаки оставляют достаточно повторяющихся семантических следов для кластеризации, и когда защитник может фильтровать трафик так, чтобы вредоносных диалогов не было подавляющего большинства. При стократном превосходстве безобидного трафика преимущество сохраняется, но заметно снижается — с 87% до 66% охвата кампаний.

Ещё один важный момент: система рассчитана на синхронное обнаружение. Она должна выявлять атаку до того, как будет нанесён критический ущерб. Это требование реального времени накладывает жёсткие ограничения на вычислительную сложность и заставляет инженеров искать компромиссы между глубиной анализа и скоростью реакции.

Также стоит помнить, что любая система кластеризации чувствительна к качеству embedding-модели. Если атакующий сможет существенно изменить семантическую форму своих запросов, сохранив функциональность, он может выбить фрагменты атаки из правильных кластеров. Именно поэтому редтиминг оказался столь ценен — он выявил конкретные векторы обхода, которые были закрыты до финальной версии системы.

Часто задаваемые вопросы

Чем распределённая атака отличается от обычного джейлбрейка?

Джейлбрейк обманывает модель в рамках одного диалога, заставляя её выполнить вредоносный запрос напрямую. Распределённая атака разбивает вредоносную цель на множество безобидных подзадач и выполняет их через разные аккаунты и сессии. Ни один отдельный диалог не выглядит подозрительно, поэтому стандартные мониторы не срабатывают.

Почему нельзя просто улучшить стандартный монитор?

Потому что проблема архитектурная. Стандартный монитор получает на вход только текущий контекст. Даже идеальный классификатор не может обнаружить угрозу, если доказательства её существования разбросаны по десяткам других диалогов. Улучшение качества оценки одного контекста не решает задачу агрегирования сигналов из множества источников.

Замедлит ли такой монитор обычных пользователей?

Нет. Дорогостоящий кросс-контекстный анализ запускается только для небольшой доли запросов, которые уже получили высокую оценку подозрительности или попали в кластер с накопленными сигналами. Для примерно 99% легитимного трафика задержка остаётся несущественной, поскольку обрабатываются только дешёвые этапы: локальная оценка и маршрутизация в кластер.

Итог

Распределённые атаки на AI-агентов — это не теоретическая угроза, а реальность, подтверждённая инцидентами в production. Стандартные мониторы безопасности архитектурно неспособны с ними справиться, потому что оценивают каждый диалог изолированно. Онлайн-мониторинг с состоянием решает эту проблему, накапливая и анализируя слабые сигналы из тысяч диалогов в реальном времени. Результаты показывают, что такой подход выявляет атаки на 30% раньше и существенно точнее — при этом не замедляя работу обычных пользователей. После двух месяцев интенсивного редтиминга система стала ещё надёжнее, а бонусом научилась лучше ловить и классические джейлбрейки. Если вы развёртываете AI-агентов в production, пора задуматься о том, защищает ли ваша система не только от очевидных угроз, но и от скоординированных кампаний, которые проявляются только в масштабе.

← Все записи