AI и биобезопасность: когда модели обгоняют биологов-экспертов

AI и биобезопасность: когда модели обгоняют биологов-экспертов

Claude Opus 4.6 набрал идеальный балл в проектировании фрагментов ДНК. Gemini 3.1 Pro Preview безошибочно запрограммировал лабораторного робота. А GPT-5.4 отказался выполнять задание, распознав его двойственный характер. Это не сценарий научной фантастики — это результаты бенчмарка ABC-Bench, опубликованного 9 июня 2026 года. Фронтирные языковые модели уже не просто отвечают на вопросы по биологии: они пишут код для жидкостных роботов, проектируют последовательности ДНК и находят способы обхода систем скрининга заказов на синтез нуклеиновых кислот. Причём делают это лучше, чем учёные с докторской степенью и многолетним опытом.

Что такое ABC-Bench

ABC-Bench (Agentic Bio-Capabilities Benchmark) — это набор из трёх задач, созданный для оценки агентных возможностей больших языковых моделей в области биобезопасности. В отличие от традиционных бенчмарков, где модель отвечает на вопросы в формате Q&A, здесь LLM действует как полноценный агент: получает доступ к инструментам, веб-поиску, Python-интерпретатору и специализированным биоинформатическим библиотекам. Каждая задача отражает реальный этап биологического исследования, который одновременно несёт и пользу, и потенциальный риск.

Первая задача — Fragment Design — требует от агента спроектировать короткие фрагменты ДНК, которые можно заказать у коммерческого поставщика синтеза и собрать в целевую последовательность методом Гибсона. Это стандартная техника молекулярного клонирования, используемая в синтетической биологии по всему миру. Вторая — Screening Evasion — заставляет агента обфусцировать фрагменты так, чтобы они не вызывали срабатывания систем скрининга заказов (NASS), при этом сохраняя возможность восстановления исходной последовательности. Третья — Liquid Handling Robot — требует написать скрипт для управления роботом OpenTrons OT-2, который выполнит протокол сборки ДНК в реальной лаборатории.

Создатели бенчмарка сформулировали семь принципов его проектирования. Среди них — измерение именно двойственных (dual-use) способностей, тестирование ИИ как агента с доступом к инструментам, оценка цепочки риска от проектирования до исполнения, объективное алгоритмическое скорирование и обязательное сравнение с человеческими экспертами. Последний пункт особенно важен: без понимания того, насколько новые модели превосходят существующий уровень экспертизы, невозможно оценить реальный прирост доступных возможностей.

Как проходило тестирование

Для создания человеческого базлайна авторы наняли биологов с докторской степенью в молекулярной биологии, вычислительной биологии или смежных областях. Каждый кандидат должен был иметь минимум год опыта в молекулярной биологии или клонировании и не менее двух лет программирования на Python. Резюме проверяли вручную. На выполнение каждой задачи экспертам давалось до пяти часов, а вознаграждение составляло 200 долларов за задачу. Участникам запрещалось использовать ИИ-ассистентов, и это правило контролировалось через скриншоты Upwork и ручное сравнение ответов с генерациями моделей.

Каждая модель тестировалась десять раз на каждой задаче в рамках фреймворка Inspect AI от UK AISI. Оценка была многоаспектной: частичные баллы начислялись за выполнение отдельных критериев, а не только за полное решение. Отказы моделей от выполнения задания фиксировались отдельно и исключались из расчёта среднего балла.

Результаты: машины против людей

Результаты оказались впечатляющими и тревожными одновременно. Все протестированные модели превзошли медианного человеческого эксперта по всем трём задачам. На задаче управления лабораторным роботом Claude Sonnet 4.6 и Gemini 3.1 Pro Preview набрали идеальные 1.00 балла во всех десяти прогонах. Claude Opus 4.6 показал идеальный результат в проектировании фрагментов ДНК. Даже открытые веса — Qwen3.5 397B-A17B и Kimi K2.5 — стабильно обгоняли человеческий медианный базлайн.

Человеческие эксперты набрали в среднем 0.33 ± 0.12 на проектировании фрагментов, 0.22 ± 0.07 на обходе скрининга и 0.20 ± 0.09 на управлении роботом. В сумме на тестирование базлайнеров ушло 175 человеко-часов. При этом модели справлялись за минуты.

Интересная закономерность проявилась в разбросе результатов по типам задач. Модели блестяще справлялись с задачами, опирающимися на хорошо документированные протоколы и опубликованные методы: проектирование фрагментов для сборки Гибсона и программирование OpenTrons имеют обширную документацию и множество примеров в открытом доступе. Но на задаче Screening Evasion, требующей творческого применения биоинформатических принципов к новой проблеме без готового протокола, даже фронтирные модели показали заметно более скромные результаты. Это говорит о том, что LLM пока сильны в воспроизведении экспертных знаний, но слабее в концептуальных скачках и творческом решении нестандартных задач.

Отказы моделей и их разнообразие

Одним из самых показательных аспектов исследования стала разница в поведении моделей при обнаружении двойственного характера заданий. На задаче Screening Evasion, где требовалось обфусцировать ДНК для обхода систем безопасности, Claude Sonnet 4.6, Claude Opus 4.6 и GPT-5.4 отказались выполнять задание во всех десяти прогонах. Claude Opus 4 отказался в более чем 90% случаев. При этом открытые модели Qwen3.5 и Kimi K2.5, а также Gemini 3.1 Pro Preview не демонстрировали существенных отказов на этой задаче.

На проектировании фрагментов ДНК отказы тоже были значительными: Claude Opus 4, Claude Sonnet 4.6 и Claude Opus 4.6 отказались более чем в 50% случаев. Вероятно, модели распознавали потенциальную возможность злоупотребления даже в этой, казалось бы, нейтральной задаче. При этом на программировании робота отказы были редки — только GPT-5.4 проявил отказательность. Заметим, что Claude Sonnet 4.0 не отказался ни разу ни на одной задаче, что может отражать различия в настройках безопасности между версиями.

Эта неоднородность отказов поднимает важный вопрос: если одни модели отказываются от потенциально опасных заданий, а другие выполняют их без колебаний, то безопасность всей экосистемы определяется её самым слабым звеном. Открытые веса, которые можно скачать и запустить локально без какого-либо контроля, представляют особую озабоченность именно из-за своей необратимости и отсутствия механизмов доступа.

Валидация в реальной лаборатории

Самый убедительный эксперимент исследования вышел за рамки симуляций. Авторы проверили, способен ли LLM-агент не просто написать код для робота, а реально собрать ДНК в лаборатории. В качестве модели выбрали GPT-o4-mini-high — фронтирную модель с сильными способностями к визуальному рассуждению. Экспериментатор-человек показывал модели фотографии рабочего стола робота OpenTrons Flex через веб-камеру, сообщал расположение реагентов и концентрации ДНК, а модель генерировала Python-скрипты для выполнения протокола сборки Гибсона.

Человек-ассистент загружал скрипты на робота как есть. При возникновении ошибок компиляции он передавал модели текст ошибки, и модель исправляла код. После устранения всех ошибок скрипт запускался без дальнейших изменений. Результат сборки ДНК проверяли путём трансформации в компетентные клетки и полноплазмидного секвенирования через Oxford Nanopore.

Все три независимых эксперимента завершились успешной сборкой ДНК с ожидаемыми последовательностями. Наиболее частые ошибки компиляции касались точных строковых идентификаторов лабораторной посуды в API OpenTrons и неправильных команд для модуля-захвата. Модель исправляла их за одну итерацию после получения сообщения об ошибке. Любопытно, что успешность в реальной лаборатории оказалась выше, чем в симуляторе OpenTrons. Исследователи предполагают, что в симуляции модель не всегда тщательно проверяла свой код, тогда как в реальном эксперименте человек-ассистент настаивал на запуске до полного устранения ошибок.

Почему это важно прямо сейчас

Результаты ABC-Bench приходят в момент, когда дискуссия о регулировании ИИ набирает остроту. Антропик, OpenAI и другие компании уже проводят предварительное тестирование моделей перед релизом. Существуют техники вычёркивания данных из обучающих выборок, анлёрнинга опасных знаний и усиленного скрининга заказов на синтез нуклеиновых кислот. Но бенчмарк показывает, что даже текущие фронтирные модели уже обладают способностями, которые раньше требовали многолетней экспертизы.

Авторы исследования предлагают дифференцированный подход к смягчению рисков. Возможность обхода скрининга (Screening Evasion) они считают настолько двойственной, что её следует ограничивать повсеместно — и в закрытых, и в открытых моделях. При этом способности к проектированию фрагментов ДНК и управлению лабораторными роботами могут быть доступны в многоуровневой системе: широко для ускорения медицинских и фундаментальных исследований, но с верификацией пользователей для наиболее чувствительных применений. Такой подход напоминает уже существующие механизмы KYC (know your customer) в других регулируемых областях.

Открытые веса заслуживают особого внимания. В отличие от API-продуктов, где провайдер может отозвать доступ или изменить политику безопасности, открытая модель, опубликованная один раз, остаётся доступной навсегда. Это создаёт уникальный вызов для политики: как защитить общество от злоупотреблений, не лишая его доступа к инструментам, которые ускоряют открытие лекарств и фундаментальные исследования?

Часто задаваемые вопросы

Могут ли эти модели реально создать биологическое оружие?

Непосредственное создание биологического оружия требует гораздо большего, чем проектирование фрагментов ДНК или программирование робота. Нужны доступ к лаборатории, реагентам, оборудованию, а также экспертиза в работе с живыми патогенами. ABC-Bench оценивает именно агентные способности в конкретных подзадачах, а не готовность к созданию оружия. Однако снижение барьера входа для сложных биотехнологических операций — это реальный тренд, который заслуживает внимания регуляторов.

Почему открытые модели не отказываются от опасных заданий?

Отказы в значительной степени зависят от пост-тренировочных мер безопасности, применяемых разработчиками. Коммерческие API-модели Anthropic и OpenAI проходят обучение с подкреплением от человеческих предпочтений (RLHF) и дополнительные фильтры безопасности. Открытые веса, такие как Qwen3.5 и Kimi K2.5, могут иметь менее агрессивные меры предосторожности или вообще обходиться без них на уровне инференса. Это не делает их «плохими» — это отражает разные философии распространения ИИ.

Как защититься от злоупотреблений?

Авторы бенчмарка выделяют несколько направлений: предварительное тестирование перед релизом, удаление чувствительных данных из обучающих выборок, анлёрнинг опасных знаний, встроенные защиты в модели и усиление скрининга заказов на синтез ДНК. Для открытых моделей особенно важны последние два пункта, поскольку контроль над самой моделью невозможен после публикации.

Итог

ABC-Bench — это не просто ещё один бенчмарк в длинном списке оценок LLM. Это попытка измерить способности, которые существуют на границе между научным прогрессом и безопасностью общества. Факт, что фронтирные модели уже превосходят экспертов в задачах, требующих одновременно биологических знаний и программирования, говорит о качественном сдвиге в возможностях ИИ. Но ещё важнее то, что эти способности были продемонстрированы не в теории, а в реальной лаборатории — с настоящим роботом, настоящей ДНК и подтверждением через секвенирование.

Вопрос, который стоит перед отраслью, уже не в том, сможет ли ИИ помочь в биологических исследованиях. Вопрос в том, как обеспечить, чтобы эта помощь оставалась инструментом прогресса, а не риска. И пока разные модели демонстрируют радикально разное поведение при столкновении с двойственными задачами, ответ на этот вопрос остаётся открытым.

← Все записи