07.05.2026 Исследования

Безопасность LLM: масштабирование не гарантирует надёжность

Когда OpenAI, Google и Anthropic рапортуют о росте точности своих моделей, создаётся иллюзия, что вместе с точностью растёт и безопасность. Чем умнее модель — тем меньше шансов, что она выдаст опасную ошибку. Звучит логично. Только вот в медицине эта логика не работает.

Команда исследователей из Университета Эрлангена—Нюрнберга под руководством Себастьяна Винда и Сорооша Тайеби Арасте опубликовала 5 мая 2026 года исследование, которое должно изменить подход индустрии к безопасности LLM в медицине. Они протестировали 34 языковые модели — от Qwen-0.5B до Mistral-Large-675B — в клиническом сценарии радиологии и обнаружили: рост параметров почти не влияет на безопасность. Зато один простой приём — подача качественных медицинских доказательств — снизил долю опасных ошибок с 12% до 2,6%.

Что такое безопасность клинических LLM

Безопасность LLM в медицине — это не просто «модель реже ошибается». Это отдельная характеристика, которая измеряет, насколько серьёзны последствия ошибок, когда они происходят. Врачу важно не только, что ИИ правильно ставит диагноз в 95% случаев, но и что оставшиеся 5% не содержат опасных для жизни пациентов рекомендаций, поданных с абсолютной уверенностью.

Исследователи предложили фреймворк SaFE-Scale (Safety-Focused Evaluation of Scaling) и создали бенчмарк RadSaFE-200 — 200 вопросов по радиологии с вручную размеченными метками безопасности: высокорисковая ошибка, небезопасный ответ и противоречие с доказательствами. Каждый вопрос сопровождался доказательствами двух типов — «чистыми» (корректными) и «конфликтными» (содержащими отвлекающую информацию). Это позволило впервые систематически измерить не только точность, но и клиническую безопасность при разных сценариях использования.

Шесть сценариев — один лидер

Все 34 модели — от крошечных Qwen-0.5B до гигантских DeepSeek-V3.2 и Mistral-Large-675B — тестировались в шести условиях: без контекста (zero-shot), с чистыми доказательствами, с конфликтными доказательствами, стандартный RAG, агentic RAG и максимальный контекст. Модельный ряд включал девять семейств: Qwen (12 моделей), Llama (7), Gemma (5), MedGemma (2), DeepSeek (2), Mistral (5) и OpenAI-OSS (2). Это одна из самых масштабных панелей, когда-либо тестировавшихся в унифицированном клиническом протоколе.

Результат оказался неожиданно однозначным. Чистые клинические доказательства — единственное условие, которое одновременно повысило точность и снизило все типы опасных ошибок. Средняя точность выросла с 73,5% до 94,1%, высокорисковые ошибки упали с 12% до 2,6%, противоречия с доказательствами — с 12,7% до 2,3%, а опасная самоуверенность — с 8% до 1,6%.

При этом стандартный RAG и агentic RAG — модные подходы, которыми увлечена индустрия — не смогли воспроизвести этот профиль безопасности. Агentic RAG действительно повысил точность по сравнению с обычным RAG и снизил количество противоречий, но доля высокорисковых ошибок и опасной самоуверенности осталась высокой. То есть модель стала чаще давать правильный ответ, но когда ошибалась — ошибалась так же опасно.

Масштаб модели объясняет лишь 9% разницы в безопасности

Пожалуй, самый поразительный результат исследования — это дисперсионный анализ. Исследователи разложили вариацию по двум факторам: семейство моделей (размер, архитектура) и условия развёртывания (доказательства, RAG, контекст).

Условия развёртывания объяснили 43% вариации точности, 45% вариации высокорисковых ошибок и 38% вариации опасной самоуверенности. Семейство моделей — всего 9%, 8% и 17% соответственно. Проще говоря: то, как вы подаёте данные модели, в пять раз важнее того, какая это модель.

Этот вывод становится ещё нагляднее при взгляде на конкретные семейства. В режиме без контекста модели показывали огромный разброс: от 41,5% до 88,4% точности внутри одного семейства. Но при подаче чистых доказательств все семейства стянулись в узкую полку 90–97%. DeepSeek достиг 97%, Qwen — 95,4%, Gemma — 94%, а MedGemma, показавшая худший результат без контекста (68,2%), подтянулась до 93,5%. Качественные доказательства оказались великим уравнителем.

Уверенность модели — ненадёжный сигнал тревоги

В клинической практике было бы удобно полагаться на уверенность модели: если ИИ «сомневается» — перепроверить, если «уверен» — доверять. Исследование показало, что этот подход не работает.

Средняя уверенность для правильных ответов составляла 95,3%. Для высокорисковых ошибок — 87,8%. Для небезопасных ответов — 83,8%. Разница в десять процентных пунктов может показаться заметной, но на практике она недостаточна для надёжной фильтрации. Модель, выдающая опасную рекомендацию с уверенностью 88%, не вызовет подозрений у клинического персонала.

Ещё более показателен график «уверенность на высокорисковых ошибках» против «уверенность на правильных ответах». Точки лежат почти на диагонали y = x. Для большинства моделей уверенность, с которой они утверждают клинически опасный неправильный ответ, статистически неотличима от уверенности в правильном. Чистые доказательства снизили количество опасных ответов, но не сделали оставшиеся ошибки менее уверенными.

Ансамбли и self-consistency: больше — не безопаснее

Исследователи проверили два популярных метода повышения надёжности: self-consistency (многократная генерация с мажоритарным голосованием) и ансамблирование (голосование нескольких моделей).

Self-consistency дала минимальный эффект. Средняя точность выросла на 0,4–0,6 процентных пункта в зависимости от условия, а изменения в высокорисковых ошибках и небезопасных ответах были статистически неотличимы от нуля. Опасная самоуверенность при этом оставалась на уровне до 15,5% в режиме без контекста.

Ансамбли из трёх моделей показали себя лучше среднего по панели, но не лучше лучшей отдельной модели в ансамбле. Среднее изменение относительно лучшего члена ансамбля составило минус 0,88 процентных пункта по точности и минус 1,67 по безопасности. Ансамбли регрессируют к среднему, а не превосходят лучший результат.

Но самое тревожное: ансамбли порождают синхронизированные ошибки. Когда несколько моделей одинаково неправы, мажоритарное голосование не исправляет ошибку, а закрепляет её, придавая ложную видимость консенсуса.

Конфликтные доказательства: когда «больше информации» значит «хуже»

Отдельного внимания заслуживает условие с конфликтными доказательствами — чистый текст, к которому добавили одно дополнительное отвлекающее или частично противоречивое предложение. Казалось бы, одна лишняя фраза не должна драматически изменить поведение модели. На практике: конфликтные доказательства повысили точность до 94,2% (почти как чистые — 94,1%), но высокорисковые ошибки и противоречия остались значительно выше. Короткое distracting-предложение не снизило точность в среднем, но помешало модели избежать опасных ошибок в отдельных случаях.

Это важный урок для реальных систем. RAG-пайплайны часто возвращают объёмные документы, в которых релевантная информация смешана с шумом. Исследование показывает, что даже минимальный шум — одно предложение — достаточно, чтобы подорвать профиль безопасности. Фильтрация и качественная курация извлечённых фрагментов — не опциональная оптимизация, а необходимое условие.

Худшие ошибки концентрируются в горстке вопросов

Опасные ошибки распределились неравномерно. 15 самых рискованных вопросов вызывали высокорисковые ошибки у более чем половины из 34 моделей. Один вопрос — все 34 модели ответили неправильно, 33 выдали высокорисковую ошибку, и все 34 противоречили доказательствам. Сто процентов неправильных ответов при 97,1% высокорисковых ошибок.

Эта концентрация — важный практический сигнал. Клинические LLM ошибаются не случайно: существуют конкретные диагностические ситуации, в которых модели систематически выбирают опасный ответ. И чистые доказательства сжимают этот «хвост», снижая среднюю долю высокорисковых ошибок с 12% до 2,6%, но не устраняя его полностью.

Почему RAG не решает проблему

На первый взгляд, RAG (Retrieval-Augmented Generation) должен обеспечивать именно то, что работает: подачу релевантных доказательств. Но исследование показало принципиальную разницу между извлечёнными и курированными доказательствами.

Стандартный RAG извлекает документы из Radiopaedia — авторитетного медицинского ресурса. Агentic RAG добавляет к этому многошаговый поиск и синтез. Проблема в том, что извлечённый текст может быть неполным, шумным или частично нерелевантным. Модель получает «сырые» данные, а не выверенное краткое обоснование.

Чистые доказательства в RadSaFE-200 — это написанные врачом краткие объяснения почему правильный ответ корректен, содержащие только ключевые клинические и лучевые данные. Медианная длина — 32 слова. Это не энциклопедия, а прицельный аргумент. И именно этот формат, а не объём или сложность поискового пайплайна, определяет безопасность.

Практические выводы для разработчиков медицинских ИИ

Исследование оставляет несколько чётких рекомендаций, выходящих за рамки академического интереса.

Инвестируйте в качество доказательств, а не в размер модели. Разница между 0,5B и 675B моделью меркнет перед разницей между «нет доказательств» и «есть чистые доказательства». Если бюджет ограничен — потратьте его на клинических экспертов, которые подготовят выверенные обоснования, а не на более мощный GPU.

Не доверяйте уверенности модели. Confidence scores не отличают опасные ошибки от правильных ответов с достаточной надёжностью для клинического использования. Любой интерфейс медицинского ИИ должен показывать не только ответ модели, но и доказательную базу, по которой человек может его проверить.

Тестируйте на конкретных неудачных кейсах, а не на средних метриках. Средняя точность 94% может скрывать 2–3 вопроса, на которых все модели систематически выдают опасные ответы. Нужен не average-case, а worst-case аудит безопасности.

RAG — не панацея. Сложный агentic RAG улучшает точность, но не устраняет высокорисковые ошибки. Скорее, он создаёт ложное чувство безопасности: модель отвечает точнее, и персонал меньше проверяет, а оставшиеся ошибки столь же опасны.

Часто задаваемые вопросы

Означает ли это, что большие модели не нужны в медицине?

Нет, размер модели всё ещё влияет на базовую точность и способность обрабатывать сложные рассуждения. Но исследование показывает, что размер — не главный рычаг безопасности. Комбинация модели среднего размера и качественных доказательств безопаснее, чем огромная модель без доказательств.

Что такое «чистые доказательства» и как их создать?

Это краткие, написанные клиническим экспертом обоснования, объясняющие почему правильный ответ корректен. В исследовании медианная длина составила 32 слова — это прицельный клинический аргумент, а не энциклопедическая статья. Создание таких доказательств требует участия врачей, но не требует огромных вычислительных ресурсов.

Применимы ли результаты к областям за пределами радиологии?

Логика исследования — разделение точности и безопасности, роль качества доказательств, ненадёжность confidence — универсальна для любой клинической дисциплины, где цена ошибки высока. Конкретные цифры могут отличаться, но общий принцип: безопасность определяется не масштабом модели, а качеством вводимых данных.

Итог

Исследование SaFE-Scale — один из самых убедительных аргументов против «scaling-фундаментализма» в медицинских ИИ. Тридцать четыре модели, от полумиллиарда до шестисот семидесяти пяти миллиардов параметров, шесть сценариев развёртывания, и главный вывод умещается в одно предложение: безопасность клинических LLM — это свойство не модели, а пайплайна подачи данных.

Для индустрии, привыкшей решать проблемы добавлением параметров, это серьёзная корректировка курса. Качество входных данных, продуманный дизайн доказательств и worst-case аудит — то, на что стоит тратить ресурсы. Следующая модель на триллион параметров подождёт.