01.06.2026 Исследования

LLMSurgeon: как раскрыть секретный рецепт обучения языковых моделей

Каждая языковая модель несёт в себе невидимый отпечаток — не параметры, не архитектуру, а то, чему её научили. Pretraining data, или смесь обучающих данных, формирует поведение, способности и слепые зоны LLM так же неизбежно, как гены определяют фенотип. Но в отличие от генома, этот рецепт обычно засекречен. Компании раскрывают размер модели, количество токенов, иногда даже список источников — но никогда точные пропорции. Новая работа предлагает способ вскрыть этот черный ящик: LLMSurgeon восстанавливает доменный состав обучающего корпуса только по сгенерированному тексту, без доступа к весам, градиентам или датасетам.

Почему состав данных важнее архитектуры

Современные LLM — цифровая алхимия. Мы знаем, что на выходе получается способность рассуждать, программировать, переводить языки. Но ингредиенты этого зелья остаются одним из самых охраняемых секретов индустрии. Отсутствие прозрачности создаёт узкое место для безопасности, подотчётности и регулирования: без понимания цифровой ДНК модели невозможно проверить её на демографические искажения, оценить риски нарушения авторских прав или объяснить разницу в качестве между доменами.

Ранние попытки аудита опирались на membership inference — определение, видел ли конкретный документ во время обучения. Это микроскопический подход: он отвечает на вопрос «был ли этот текст в обучении?», но не на «в каких пропорциях смешивались домены?». Другие методы агрегировали сигналы классификатора по отдельным примерам, получая грубую оценку, но страдали от систематического смещения: классификатор путает C++ с C, научные статьи с новостными сводками, и эта путаница накапливается при агрегации.

Авторы формализуют задачу иначе. Data Mixture Surgery (DMS) — это обратная задача: имея только сгенерированный текст целевой модели, оценить доменное распределение её обучающего корпуса в рамках заданной таксономии. Это макроскопический аудит, который не требует знания конкретных документов, но восстанавливает пропорции целых категорий.

Как работает LLMSurgeon

Метод строится на трёх этапах, каждый из которых решает конкретную проблему прямых подходов.

Первый этап — калибровка смещения. Поскольку внутренние состояния целевой модели недоступны, используется внешний прокси-классификатор. Но любой классификатор несовершенен: применяя его напрямую к сгенерированному тексту, мы получаем смещённую оценку из-за доменной путаницы. LLMSurgeon явно моделирует этот профиль ошибок как линейный оператор — мягкую матрицу конфузии, вычисленную на held-out референсном датасете с известными метками. Каждый элемент матрицы отражает вероятность того, что классификатор предскажет домен j для текста, который на самом деле принадлежит домену i. Если бы классификатор был идеален, матрица стала бы единичной; в реальности внедиагональные элементы захватывают семантическое перекрытие между доменами.

Второй этап — наблюдение за целевым распределением. Модель провоцируется на генерацию текста с помощью нейтральных промптов, чтобы вызвать её естественный доменный приор. Сгенерированные тексты пропускаются через калиброванный классификатор, и получается эмпирический вектор предсказаний — искажённое наблюдение истинного распределения.

Третий этап — решение обратной задачи. Имея матрицу конфузии и искажённое наблюдение, метод решает ограниченную обратную задачу: найти такое истинное распределение доменов, которое после прохождения через матрицу конфузии даёт наблюдаемый вектор. Ограничения гарантируют, что решение остаётся валидным распределением — неотрицательные вероятности, суммирующиеся в единицу. Это ключевое отличие от прямой агрегации: вместо того чтобы надеяться, что ошибки классификатора «среднятся», LLMSurgeon явно их инвертирует.

Бенчмарк LLMScan: проверка на открытых моделях

Чтобы оценить метод, авторы создали LLMScan — бенчмарк на основе open-source моделей с документированными смесями обучающих данных. Это критически важно: в отличие от проприетарных моделей, где истинный состав неизвестен, здесь есть ground truth для валидации.

Результаты на general-purpose моделях впечатляют. LLaMA-1-7B: 95,14% overlap accuracy. OLMo-1B: 94,46%. При этом сильнейшие бейзлайны на основе агрегации membership inference едва преодолевают 50%. Производительность сохраняется при масштабировании: LLaMA-7B и LLaMA-65B показывают сопоставимые результаты, что говорит о том, что метод улавливает фундаментальное распределение генерации, а не артефакты конкретного масштаба.

В сложном fine-grained сценарии — различение 87 языков программирования на StarCoder — абсолютная точность падает до 30,37%, но LLMSurgeon всё равно превосходит лучший бейзлайн GradNorm (27,54%). Семантическое размытие между похожими языками делает обратную задачу плохо обусловленной, однако метод по-прежнему даёт самую надёжную оценку даже при нечётких границах доменов.

Что показали абляции

Абляция классификаторов подтвердила, что выбор архитектуры прокси-классификатора имеет значение. Fine-tuned DistilBERT показал абсолютное улучшение в 4,92% над вторым лучшим классификатором на LLaMA-1-7B и прирост 1,81% в fine-grained сценарии со StarCoder. TF-IDF и MLP отстают существенно: на StarCoder MLP даёт 21,57% против 30,37% у DistilBERT. Это говорит о том, что контекстуальные представления критичны для улавливания тонких доменных сигналов.

Исследование зернистости выявило иерархию, диктуемую семантической разделимостью. На coarse-grained уровне (6 широких доменов) восстановление близко к идеальному — R² = 0,99. На mid-grained (17 доменов) оценка остаётся робастной — R² = 0,54. На fine-grained (87 языков программирования) высокая семантическая путаница деградирует корреляцию до R² = 0,01, но при этом MAE остаётся низким (0,018), подтверждая, что метод успешно фильтрует нерелевантные домены даже когда точное различение невозможно.

Анализ промежуточных чекпоинтов Amber-13B и OLMo-1B показал различную динамику обучения. Amber демонстрирует паттерн «флуктуация-затем-конвергенция»: доминантные домены (Web, GitHub) сильно колеблются на промежуточных стадиях, что отражает curriculum learning или поэтапную инъекцию данных. OLMo, напротив, показывает значительно более стабильную траекторию с меньшей дисперсией ошибки, что указывает на последовательную стратегию смешивания на протяжении всего обучения. Несмотря на различия, обе модели достигают резкого снижения ошибки на финальных чекпоинтах — LLMSurgeon восстанавливает состав конвергированных моделей и служит инструментом мониторинга стабильности обучения.

Эксперименты с размером референсной выборки показали, что N = 5 000 документов на домен — оптимальный компромисс. Меньшие выборки (N = 100) дают плохую генерализацию (20,15% на StarCoder), увеличение до 1 000 даёт существенный прирост (>10% в среднем), но насыщение наступает именно при 5 000. Дальнейшее увеличение до 10 000 не даёт заметного улучшения и даже вызывает небольшую регрессию — избыточный шум перевешивает пользу.

Практическое применение: аудит безопасности

Авторы демонстрируют практическую ценность метода через контролируемое токсичное инжектирование. GPT-2 обучается на фиксированной 7-доменной смеси, где 5%, 10% или 20% токенов заменяются на RealToxicityPrompts, при сохранении общего бюджета токенов (~12B). Используя 8-классовую таксономию без модельно-специфичной настройки, LLMSurgeon восстанавливает монотонно растущую оценку токсичной массы с малыми абсолютными ошибками: при 5% инжекции оценка 7,90% (точность 97,10%), при 10% — 12,00% (98,00%), при 20% — 22,73% (97,27%).

Это означает, что LLMSurgeon может служить низкозатратным сигналом обучающей экспозиции для триажа безопасности — помогая приоритизировать чекпоинты для дорогостоящего red-teaming или человеческой проверки, дополняя, а не заменяя, оценку токсичности на уровне выхода.

Границы и оговорки

Метод опирается на предположение о label shift: нейтральные промпты вызывают генерационное распределение, достоверно отражающее обучающий приор модели. Эта связь может искажаться в моделях, прошедших обширное пост-тренировочное выравнивание — RLHF или инструкционный файнтюнинг сдвигают выходное распределение от исходной смеси данных. Для таких моделей потребуются «inverse-alignment» техники, отделяющие базовое распределение от артефактов выравнивания.

Вторая ограниченность — closed-world предположение: метод работает в рамках фиксированной таксономии вспомогательного классификатора и не может обнаружить новые домены вне этих категорий. Если модель обучалась на данных, которые классификатор никогда не видел, они будут распределены по ближайшим известным категориям — с искажением, которое сам метод не диагностирует.

Наконец, точность оценки принципиально ограничена семантической разделимостью доменов. Высокое перекрытие между категориями — например, различение C и C++ — создаёт плотные, плохо обусловленные матрицы конфузии, и инверсия становится нестабильной. Это не недостаток метода, а фундаментальное ограничение задачи: если даже человек с трудом отличает два домена, не стоит ожидать от алгоритма точного количественного разделения.

Часто задаваемые вопросы

Можно ли применить LLMSurgeon к закрытым моделям вроде GPT-4o или Claude?

Теоретически да — метод требует только API-доступа для генерации текста. Однако пост-тренировочное выравнивание в проприетарных моделях сильнее, чем в open-source аналогах, что может сдвинуть генерационное распределение от исходной обучающей смеси. Точность будет зависеть от того, насколько хорошо «базовый» приор сохраняется после RLHF. Прямая валидация невозможна без ground truth, но относительные сравнения между моделями и детекция аномалий остаются информативными.

Чем это отличается от membership inference?

Membership inference отвечает на вопрос «видел ли конкретный документ во время обучения?» — это микроскопический, документо-ориентированный подход. LLMSurgeon отвечает на вопрос «в каких пропорциях смешивались домены?» — это макроскопический, распределительный подход. Membership inference требует знания подозрительного документа; LLMSurgeon работает без каких-либо априорных предположений о содержимом обучения, только с таксономией доменов.

Может ли метод помочь в делах об авторском праве?

Косвенно. LLMSurgeon не доказывает, что конкретный текст был в обучении, но позволяет оценить масштаб присутствия определённого домена — например, книг, новостных статей или кода с конкретных платформ. Это может служить экспертным свидетельством в судебных разбирательствах, показывая, что модель, вероятно, обучалась на значительном объёме материалов из определённой категории. Однако юридическая значимость таких оценок ещё не проверена в судах.

Итог

LLMSurgeon превращает Data Mixture Surgery из эвристики в принципиальный инструмент. Вместо того чтобы агрегировать зашумлённые сигналы классификатора и надеяться на лучшее, метод явно моделирует, искажает и инвертирует профиль ошибок — восстанавливая латентное доменное распределение с точностью, которая удивительно близка к ground truth.

Это не означает, что черные ящики LLM полностью раскрыты. Метод не видит конкретных документов, не обнаруживает новые домены и страдает от семантического размытия на гранулярных уровнях. Но он даёт то, чего раньше не существовало: количественный, воспроизводимый, post-hoc аудит обучающего состава без доступа к внутренностям модели. В эпоху, когда LLM становятся центральной инфраструктурой, такой инструмент — не академическая роскошь, а необходимый элемент подотчётности. Вопрос не в том, будут ли регуляторы требовать раскрытия обучающих данных, а в том, какие методы они будут использовать для проверки добросовестности этого раскрытия. LLMSurgeon задаёт стандарт для такой проверки.