19.05.2026 Исследования

Fully Open Meditron: первая полностью открытая медицинская LLM

Когда медицинская LLM даёт рекомендацию, от которой зависит жизнь пациента, врач должен знать, на чём она основана. Не просто «модель обучена на больших данных», а конкретно: какие датасеты, как очищались, кто проверял, какие гиперпараметры использовались. Сегодня такой прозрачности почти нет. Даже «открытые» медицинские модели вроде MedPaLM или MedGemma публикуют только веса, скрывая происхождение данных и рецепты обучения.

Команда из Швейцарской инициативы по ИИ (Swiss AI Initiative) изменила это. 18 мая 2026 года они представили Fully Open Meditron — первый полностью открытый пайплайн для клинических LLM, включающий аудированный врачами корпус, воспроизводимую инфраструктуру и новый протокол оценки. Результат: Apertus-70B-MeditronFO набирает 53.8% на агрегированных медицинских бенчмарках против 47.2% у базовой модели, а Gemma-27B-MeditronFO обгоняет MedGemma на HealthBench (58.0% против 55.9%).

Что значит «полностью открытая» модель в медицине

Fully Open (FO) — это не просто open weights. По фреймворку Model Openness Framework (MOF), полная открытость требует четырёх компонентов: опубликованные веса, публично доступные обучающие данные, воспроизводимый рецепт обучения и доменная специализация. До сих пор в медицине не существовало модели, удовлетворяющей всем четырём. MedPaLM, Med-Gemini, даже открытые адаптации на базе Llama 3.1 или Qwen2.5 раскрывают только веса, оставляя данные и пайплайн в чёрном ящике.

Проблема глубже, чем кажется. Если данные непрозрачны, невозможно проверить, не «запомнила» ли модель ответы на тестовые вопросы — phenomenon, который исследователи называют контаминацией бенчмарков. Денг и соавторы (2024) показали, что широко используемые оценочные наборы (MMLU, TruthfulQA, HellaSwag) существенно пересекаются с обучающими корпусами популярных моделей. В медицине это критично: рост точности на MedQA или MedMCQA может отражать не клинические способности, а меморизацию.

Альбер и коллеги (2025) продемонстрировали, что медицинские LLM уязвимы к целенаправленному искажению адаптационных данных. Без аудита корпуса злоумышленник может внедрить систематические ошибки в рекомендации по лечению, и это останется незамеченным. Fully Open Meditron решает эту проблему, делая каждый шаг — от сбора данных до оценки — проверяемым и воспроизводимым.

Как строился корпус: восемь датасетов, три синтетических расширения и панель из четырёх врачей

Базовый корпус объединяет восемь публичных медицинских QA-датасетов: MedQA, MedMCQA, PubMedQA, MMLU-Pro (медицинские подмножества), MedXpertQA и другие. Но простая агрегация недостаточна — исследователи обнаружили серьёзные пробелы в покрытии. Экстренная помощь составляла всего 15.0% сценариев, а жизнеугрожающие состояния — 8.6%. Для клинической практики это неприемлемо: модель, натренированная преимущественно на плановых консультациях, будет теряться в травматологическом пункте.

Для устранения пробелов команда сгенерировала три синтетических расширения под контролем врачей. Synthetic Curated QA — новые экзаменационные вопросы, стратифицированные по типу и сложности, с мониторингом позиции правильного ответа для предотвращения позиционного смещения. Guidelines QA — пары вопрос-ответ, основанные на 46 469 клинических руководствах из 16 глобальных институтов. Synthetic MOOVE — открытые клинические виньетки, имитирующие сложные диагностические диалоги.

Перед масштабированием генерации четверо врачей (два терапевта, хирург и специалист по неотложной помощи) проверили промпты и аудировали репрезентативную выборку синтетических данных. Их ревизия привела к четырём структурным улучшениям: уточнение ограничений на «спорный» и «устаревший» контент, требование явного прогрессирования заболевания и географического контекста, стандартизация форматов ответов и добавление проверки на противоречия с клиническими рекомендациями. Каждая синтетическая цель генерировалась моделью GPT-OSS-120B с rejection sampling до восьми попыток при температуре 0.7, пока ответ не проходил валидацию по золотому стандарту.

Результат расширения заметен в цифрах. Доля экстренных сценариев в синтетическом MOOVE выросла с 15.0% до 38.7%, а жизнеугрожающих случаев — с 8.6% до 31.8%. Специальное покрытие сместилось в сторону недостаточно представленных областей: травматология, неотложная хирургия, инфекционные заболевания в условиях ограниченных ресурсов.

Деконтаминация: как убедиться, что модель не «подглядывает» в тест

Пайплайн включает двухступенчатую деконтаминацию. На первом этапе образцы, содержащие любой 8-грамм из опорных промптов оценочных бенчмарков (MedQA, MedMCQA, PubMedQA, MedXpertQA, MMLU-Pro, IFEval, ARC-Challenge), помечаются как кандидаты на удаление. На втором этапе каждый кандидат выравнивается токен-по-токену с совпавшим опорным промптом и удаляется, если нормализованная разница выравнивания не превышает τ = 0.5. Этот подход фильтрует как случайные пересечения, так и лёгкие перефразировки тестовых вопросов.

Важно, что деконтаминация синтаксическая, а не семантическая. Авторы честно признают ограничение: если учительская модель перефразирует или обобщает содержание оценочного набора при генерации синтетических данных, такое загрязнение может остаться незамеченным. Тем не менее, результаты на held-out MedXpertQA отслеживают ту же ранжировку, что и основные бенчмарки, что свидетельствует против доминирования контаминации.

Auto-MOOVE: оценка клинического мышления, а не заученных ответов

Стандартные MCQA-бенчмарки измеряют структурированное вспоминание, но не ловят нюансы клинического взаимодействия: контекстуальную осведомлённость, коммуникацию, соответствие руководствам и безвредность. Fully Open Meditron вводит Auto-MOOVE — протокол оценки LLM-as-a-judge, откалиброванный на 204 человеческих рейтерах.

Протокол работает так: две модели генерируют ответы на клиническую виньетку, а судья (Qwen3-235B-A22B) сравнивает их по девяти критериям: понимание вопроса, логическое рассуждение, релевантность и полнота, контекстуальная осведомлённость, коммуникация, ясность, соответствие руководствам, безвредность и справедливость. Судья назначает победителя (Модель 1, Модель 2 или ничья) и выставляет баллы по шкале Ликерта от 1 до 5. Согласие судьи с медианным человеческим рейтером находится в пределах стандартной погрешности, хотя авторы отмечают, что судья систематически менее дискриминирующ на критериях безопасности.

Для валидации используется независимый бенчмарк HealthBench, содержащий тысячи разговорных сценариев с оценкой по врачебным рубрикам. Согласие между Auto-MOOVE и HealthBench, несмотря на разных судей, промпты и протоколы, говорит против артефактов конкретного судьи или распределения данных.

Результаты: каждая модель улучшилась, меньшие базы выиграли больше

Пайплайн применили к пяти полностью открытым базовым моделям: Apertus-70B/8B-Instruct, OLMo-2-32B-SFT, EuroLLM-22B/9B-Instruct, а также к контрольной open-weight модели Gemma-3-27B-IT. Результаты на медицинских бенчмарках (Таблица 2) показывают последовательный рост: приросты варьируются от +0.66 (EuroLLM-22B) до +12.80 процентных пунктов (Apertus-8B). Меньшие модели выигрывают больше — вероятно, потому что у них больше маржи для специализации.

Apertus-70B-MeditronFO достигает 53.77% в среднем по медицинским бенчмаркам (MedMCQA 56.32%, MedQA 68.58%, PubMedQA 75.20%, MedXpertQA 16.90%, HealthBench 51.86%), устанавливая новый state-of-the-art среди полностью открытых медицинских LLM. Разрыв с MedGemma-27B (60.67%) сокращается, но не закрывается полностью — что ожидаемо, учитывая закрытость данных Google.

В открытых клинических оценках Auto-MOOVE каждая MeditronFO-версия предпочитается своей базе. Скорректированные win rates колеблются от 67.2% (EuroLLM-22B) до 92% (Apertus-8B). Gemma-3-27B-MeditronFO побеждает MedGemma в 58.6% парных сравнений и обгоняет её на HealthBench (58.02% против 55.92%). Это показывает, что улучшения не ограничиваются компенсацией слабостей базовых моделей — полностью открытый пайплайн конкурентоспособен даже против проприетарных адаптаций.

Абляции: нет универсального рецепта, есть компромиссы

Абляционный анализ (Таблица 3) выявляет торговлю между экзаменационной точностью и открытым клиническим качеством. Удаление Guidelines QA слегка повышает средний MCQA-результат (с 53.77 до 54.34), не меняя open-ended оценок — руководства влияют преимущественно на экзаменационные вопросы. Напротив, удаление Curated QA даёт крупнейшую деградацию на Auto-MOOVE (с 79.6 до 73.4) и ΔLikert (с 0.40 до 0.27), что показывает: экзаменационный стиль значимо вкладывает и в открытое клиническое качество.

Удаление Synthetic MOOVE снижает Auto-MOOVE до 75.5 и ΔLikert до 0.34 — виньетки, спроектированные для широкого покрытия открытых диагностических диалогов, действительно измеряются на том же оси, что и Auto-MOOVE. Интересно, что Synthetic Curated QA удаляется с минимальными потерями (Auto-MOOVE 78.7, ΔLikert 0.40), что указывает на избыточность между ним и основным Curated QA.

Общий вывод: оптимальная смесь зависит от целевого применения. Если приоритет — экзаменационные бенчмарки, можно сместить баланс в сторону Guidelines QA. Если приоритет — открытое клиническое взаимодействие, Curated QA и Synthetic MOOVE критичны. Это практическое руководство для будущих разработчиков медицинских LLM.

Техническая инфраструктура: как тренировали модели

Все модели семейства Fully Open Meditron обучались на кластере с узлами NVIDIA GH200 Grace Hopper Superchip — по 4 GPU на узел. Большие базы (Apertus-70B, OLMo-2-32B, EuroLLM-22B, Gemma-3-27B) использовали 8 узлов (32 GPU), а маленькие (Apertus-8B, EuroLLM-9B) — 4 узла (16 GPU). Тренировка Apertus-70B проходила с DeepSpeed ZeRO Stage 3 для разбиения памяти, остальные модели — с PyTorch FSDP v2 и активационным чекпоинтингом.

Для сохранения выравнивающей работы, вложенной в каждую базовую модель, исследователи сохраняли нативный чат-шаблон инструкционной настройки: ChatML для EuroLLM, собственные форматы для остальных. Длина последовательности — 4096 токенов с sample packing, оптимизатор AdamW, градиентный клиппинг с максимальной нормой 1.0, сид 42. Гиперпараметры выбирались на основе опубликованных рецептов инструкционной настройки каждой модели с лёгкой доводкой на пилотных запусках.

Интересный практический нюанс: добавление 10% смеси Tülu 3 SFT восстанавливает большую часть общих инструкционных способностей для Apertus-70B (средний результат 49.85, IFEval 61.92), практически сохраняя медицинские приросты. Однако в дефолтный рецепт Fully Open Meditron эта смесь не включена — авторы предпочитают чистую доменную специализацию без компромиссов.

Часто задаваемые вопросы

В чём разница между open weights и fully open?

Open weights означает, что опубликованы только параметры модели. Fully open требует также открытых обучающих данных, воспроизводимого рецепта и доменной специализации. В медицине это критично: без прозрачности данных невозможно проверить, не запомнила ли модель тестовые ответы, и невозможно аудировать предвзятости или ошибки в обучающем корпусе.

Почему синтетические данные безопасны для медицины?

Они не безопасны автоматически — безопасность обеспечивается аудитом. В Fully Open Meditron каждый промпт для генерации прошёл валидацию четырьмя врачами, а выходы проверялись rejection sampling до восьми попыток. Тем не менее, авторы признают ограничение: аудит покрывал три QA-пары на промпт, что защищает от систематических, но не от пунктуальных ошибок.

Можно ли использовать эту модель в больнице прямо сейчас?

Нет. Корпус выпущен под исследовательской лицензией, и авторы явно рекомендуют провести доменно-специфическую оценку безопасности перед любым использованием, приближённым к деплою. Auto-MOOVE судья систематически недооценивает критерии безвредности и справедливости по сравнению с врачами, поэтому не годится как сигнал готовности к развёртыванию.

Итог

Fully Open Meditron доказывает, что полностью открытые пайплайны могут достигать конкурентоспособной клинической производительности без жертв в аудитуемости и воспроизводимости. +6.6 процентных пунктов для Apertus-70B, превосходство Gemma-27B над MedGemma на HealthBench, генерализация приростов across model families — всё это аргументы за то, что прозрачность и качество не взаимоисключают.

Для индустрии это сигнал: стандарт «опубликовали веса — и достаточно» устарел в медицине. Регуляторы, больницы и клиницисты будут требовать всё большей прослеживаемости. Fully Open Meditron даёт шаблон, как это делать: аудит врачами, системная деконтаминация, открытые бенчмарки и честное признание ограничений. В медицинском ИИ доверие строится не на маркетинговых релизах, а на проверяемых фактах.