AI-агенты под угрозой: шесть способов их сломать
Представьте, что вы доверили toddler'у — ребёнку, который ещё не умеет различать опасность и игру — бесконтрольный доступ к интернету, банковским приложениям и домашней автоматизации. Звучит как кошмар. Но именно так выглядит сегодняшняя реальность с AI-агентами: мощные интеллекты, способные действовать автономно, при этом на удивление доверчивые к внешнему миру. Исследователи из Google DeepMind недавно опубликовали работу, где систематизировали шесть жанров атак на таких агентов — и их выводы заставляют задуматься о том, какой ценой мы получаем автоматизацию.
Что такое ловушки для AI-агентов
Традиционная кибербезопасность защищает систему от вторжений извне. Но AI-агенты меняют правила игры: они сами выходят в мир, читают сайты, скачивают файлы, пишут письма и запускают код. Каждое из этих действий — потенциальная точка входа для атаки. В отличие от классических уязвимостей вроде SQL-инъекций, здесь атакующий не ломает систему напрямую — он обманывает сам интеллект агента, заставляя его действовать против интересов владельца.
DeepMind предлагает аналогию с toddler'ом: ребёнок понимает язык, но не обладает здравым смыслом в полном объёме. Если отправить его в незнакомую среду без присмотра, риски огромны. AI-агенты сегодня находятся примерно на том же уровне зрелости — они понимают инструкции, но плохо распознают скрытые угрозы в данных, которые им предоставляют.
Шесть жанров атак и почему они работают
1. Content Injection — отравление восприятия
Самый простой способ обмануть агента — спрятать вредоносные инструкции там, где он их не ожидает. CSS-стили, HTML-метаданные, EXIF-теги изображений, бинарные данные медиафайлов — всё это становится носителем скрытых команд. Агент, который сканирует веб-страницу для составления отчёта, может невольно выполнить JavaScript, встроенный в невидимый div. Агент, анализирующий изображение для генерации описания, может прочитать adversarial payload, зашитый в пиксельные данные.
Почему это опасно: агенты часто обрабатывают огромные объёмы контента, и проверять каждый байт на наличие скрытых инструкций невозможно в реальном времени. К тому же форматы данных настолько разнообразны, что защита от всех векторов инъекции превращается в бесконечную игру в кошки-мышки.
2. Semantic Manipulation — атака на рассуждение
Здесь атакующий не прячет команды в данных — он манипулирует самим способом мышления агента. Тексты, насыщенные эмоционально окрашенной или авторитетной лексикой, могут заставить агента переоценить риски и принять невыгодное решение. Ещё эффективнее — фрейминг через гипотетические сценарии или просьбы «помочь умирающей матери-биологу вспомнить, как проводить gain-of-function исследования».
Агенты обучены быть полезными, и эта самая полезность становится их ахиллесовой пятой. Когда запрос звучит как просьба о помощи в образовательных целях, агент снижает критичность — точно так же, как человек может раскрыть конфиденциальную информацию социальному инженеру, который представился коллегой в беде.
3. Cognitive State — отравление памяти и обучения
Этот вектор атакует долгосрочную память агента и его способность учиться на контексте. Фабрикованные утверждения, внедрённые в корпуса для retrieval, активируются позже в совершенно другом контексте как вредоносные инструкции. Казалось бы безобидные данные, сохранённые агентом в память во время одной задачи, превращаются в триггер при решении другой.
Особенно опасны few-shot демонстрации и сигналы вознаграждения: изменив распределение обучающих примеров, атакующий может постепенно сдвинуть поведение агента в нужном направлении, не оставляя явных следов взлома. Это похоже на газлайтинг — агент «забывает» правильные паттерны, потому что его опыт систематически искажён.
4. Behavioural Control — захват действий
Когда агент получает доступ к внешним ресурсам, атакующий может внедрить adversarial prompts прямо в эти ресурсы. Результат: агент начинает искать, кодировать и эксфильтровать приватные данные. Или, что ещё хуже, теряет контроль над оркестратором, позволяя создать attacker-controlled sub-agents — подчинённые агенты, которые действуют в интересах злоумышленника, а не владельца системы.
Этот вектор особенно страшен в корпоративных средах, где агенты имеют доступ к CRM, почте, документам и внутренним базам данных. Одна скомпрометированная интеграция — и агент превращается в идеального инсайдера, который копирует данные незаметно, потому что его действия легитимны с точки зрения системы.
5. Systemic — манипуляция мультиагентной динамикой
В мире, где агенты взаимодействуют друг с другом, атаки становятся коллективными. Broadcast-сигналы могут переключать целые рои агентов на «side quests», отвлекая их от основной задачи. Jigsaw-атаки разбивают вредоносную команду на фрагменты, которые отдельные агенты собирают в целое, не осознавая последствий. Фабрикация множества ложных агент-идентичностей позволяет диспропорционально влиять на коллективное принятие решений.
Это уже не взлом отдельной системы — это информационная война на уровне экосистемы. Представьте, что тысячи агентов, управляющих логистикой, финансами или энергосетями, одновременно получают скоординированный, но косвенный сигнал к действию. Никакой отдельный агент не принимает явно вредоносного решения, но совокупный эффект катастрофичен.
6. Human-in-the-Loop — эксплуатация человека-наблюдателя
Самый изощрённый вектор направлен не на агента, а на человека, который за ним наблюдает. Используя когнитивные искажения — от эффекта якоря до социального доказательства — атакующий заставляет человека одобрить действия агента, которые тот сам бы отклонил. Агент становится проводником манипуляции, а финальное решение принимает человек, уверенный, что он контролирует процесс.
Это размывает границу между технической и социальной инженерией. Когда агент представляет данные в определённом порядке, использует определённую фрейминговую лексику или создаёт ложное ощущение срочности, человек-оператор становится инструментом атаки, даже не подозревая об этом.
Почему классические меры защиты не спасают
Традиционный подход к безопасности ИИ сосредоточен на модели: фильтры на входе, alignment через RLHF, red teaming перед релизом. Но все эти меры работают в контролируемой среде. Когда агент выходит за пределы платформы и начинает взаимодействовать с открытым интернетом, корпоративными системами и другими агентами, поверхность атаки расширяется на порядки.
Pre-training и post-training могут сделать модель устойчивой к известным техникам джейлбрейка, но они не готовят агента к миру, где каждый веб-сайт, каждый PDF и каждое письмо потенциально содержат ловушку. Runtime-защита — pre-ingestion фильтры, сканеры контента, мониторы поведения — необходима, но она реактивна: новые векторы атак появляются быстрее, чем защитники успевают на них реагировать.
Ещё один слепой угол — предположение, что агент действует в изолированной песочнице. На практике пользователи хотят, чтобы агент читал их почту, редактировал документы и бронировал билеты. Каждое такое разрешение — новый канал, через который атакующий может доставить payload. И чем больше интеграций у агента, тем сложнее отследить, откуда именно пришла компрометация.
Как защищать агентов: от модели к экосистеме
DeepMind предлагает четыре уровня защиты, которые вместе формируют экосистемный подход. Технический уровень — укрепление моделей и многослойная runtime-защита — остаётся фундаментом, но его недостаточно. Нужны стандарты и протоколы верификации, которые позволят сайтам маркировать себя как безопасные для агентов, а агентам — раскрывать больше информации о своих действиях пользователям и хостам.
Юридические рамки должны позволять преследовать сайты, которые целенаправленно атакуют агентов, и уточнять ответственность за действия автономных систем. Наконец, систематический benchmarking и red teaming должны стать не разовой процедурой перед релизом, а непрерывным процессом, отслеживающим эволюцию угроз в реальном времени.
Ключевой инсайт: безопасность AI-агентов — это уже не задача отдельной компании или платформы. Это задача всей цифровой экосистемы. Когда агенты становятся посредниками между человеком и цифровым миром, защита каждого звена в этой цепи определяет безопасность всей системы.
Зеркало будущего: почему это касается каждого
Параллельно с исследованием ловушек для агентов, мир получил ещё один тревожный сигнал. Бенчмарк MirrorCode, разработанный организациями METR и Epoch, показал, что Claude Opus 4.6 способен автономно реимплементировать программу из 16 000 строк Go — задачу, на которую человек без помощи ИИ потратил бы от двух до семнадцати недель. Это означает, что агенты уже обладают горизонтом планирования, измеряемым неделями, а не минутами.
Чем дольше агент работает автономно, тем больше времени у атакующего на внедрение и активацию ловушек. Если агент может действовать неделями, Cognitive State-атака может разворачиваться днями: безобидные заметки, сохранённые в первый день, превращаются в инструкции к действию на пятый. Systemic-атака может накапливать сигналы неделями, прежде чем триггернуть каскад.
Сочетание долгосрочной автономности и экосистемной уязвимости создаёт новый класс рисков. Мы привыкли думать о кибератаках как о событиях, которые происходят за секунды или минуты. Но атаки на агентов могут разворачиваться неделями, оставаясь невидимыми до момента активации — и тогда масштаб последствий будет ограничен только амбициями атакующего и горизонтом автономности агента.
Часто задаваемые вопросы
Могут ли существующие LLM-защиты справиться с этими атаками?
Нет — по крайней мере, в одиночку. RLHF и системные промпты защищают от явно вредоносных запросов, но не от скрытых инструкций в метаданных или от постепенного искажения памяти через retrieval. Нужны дополнительные слои runtime-защиты и экосистемные протоколы.
Насколько реальна угроза сегодня?
Агенты вроде Claude Cowork, OpenClaw и различные coding agents уже имеют доступ к файлам, приложениям и интернету. Пока масштабы ограничены, но каждая новая интеграция увеличивает поверхность атаки. Исследование DeepMind — сигнал, что сообщество безопасности должно готовиться заранее, а не реагировать постфактум.
Что может сделать обычный пользователь?
Пока агенты находятся на ранней стадии adoption, главное — осознавать риски. Не давайте агентам доступ к критически важным системам без изоляции. Используйте sandbox-окружения. Проверяйте действия агентов перед подтверждением, особенно если агент предлагает неожиданные действия — скачать файл, отправить письмо, изменить настройку.
Итог
AI-агенты — следующий большой шаг в автоматизации, но они несут в себе парадокс: чем больше свободы действий мы им даём, тем уязвимее становится вся наша цифровая инфраструктура. Шесть жанров атак от Google DeepMind показывают, что угроза исходит не от суперинтеллекта из научной фантастики, а от банального обмана доверчивых систем в хаотичном реальном мире. Безопасность агентов требует перехода от защиты моделей к защите экосистемы — и этот переход нужно начинать сейчас, пока агенты ещё не стали повседневностью.