28.05.2026 Исследования

SAERL: как разобрать мозг LLM, чтобы научить его быстрее

Все говорят о том, как улучшить модели: больше данных, больше параметров, больше GPU. Но мало кто задаётся вопросом — а правильно ли мы вообще используем то, что уже есть? Исследователи из Tsinghua University предложили SAERL, фреймворк, который заглядывает прямо внутрь LLM через Sparse Autoencoder (SAE) и на основе внутренних сигналов модели решает, какие примеры показывать, в каком порядке и в каких пропорциях. Результат — рост средней точности на 3% и сокращение времени обучения на 20%.

Что такое SAERL и почему это важно

SAERL расшифровывается как Sparse Autoencoder-based Reinforcement Learning data engineering. Это офлайн-фреймворк для инженерии обучающих данных в пост-тренировке, преимущественно в reinforcement learning (RL). Вместо того чтобы полагаться на внешние сигналы — вроде сложности задачи по мнению человека или точности rollout'ов — SAERL использует внутренние активации модели, извлечённые через SAE.

Sparse Autoencoder — это инструмент механистической интерпретируемости, который раскладывает плотные активации нейросети на разреженные, интерпретируемые признаки. Каждый признак активируется только на небольшом подмножестве входных данных, что делает его похожим на детектор конкретной концепции — например, «производная», «сравнение дробей» или «доказательство по индукции». SAERL берёт эти признаки и строит из них три ключевых свойства данных: разнообразие, сложность и качество.

Почему это принципиально? Потому что пост-тренировка, особенно RL, стала центральным этапом развития LLM. OpenAI, Anthropic, DeepSeek — все используют RL для выравнивания и улучшения рассуждений. Но эффективность RL напрямую зависит от того, какие примеры используются, в каком порядке они подаются и как формируются батчи. SAERL предлагает использовать для этих решений не внешние эвристики, а внутреннюю «карту понимания» самой модели.

Как SAERL работает изнутри

Фреймворк состоит из трёх взаимосвязанных компонентов, каждый из которых отвечает за одно свойство данных.

Разнообразие через кластеризацию в пространстве SAE. Каждый обучающий пример пропускается через SAE, и токен-уровневые активации усредняются в вектор признаков. Эти векторы кластеризуются методом K-means. Кластеры соответствуют семантическим темам — например, «числовые последовательности», «геометрические построения» или «абстрактная алгебра». При формировании батча SAERL сначала выбирает примеры из одного кластера, чтобы сохранить локальную когерентность, а затем добавляет небольшое число примеров из других кластеров — moderate batch mixing. Это создаёт баланс между специализацией и разнообразием.

Исследователи обнаружили любопытную нелинейность: производительность растёт с ростом разнообразия только до определённого предела. При слишком сильном смешивании точность падает. Оптимальным оказалось добавление 8 примеров из других кластеров в батч размером 128 — конфигурация mix8. Она достигла целевой точности быстрее всех, в то время как mix32 с максимальным разнообразием показала худший результат. Это говорит о том, что разнообразие полезно, но только в меру — слишком хаотичный батч мешает оптимизации.

Сложность через прокси на основе SAE. SAERL обучает простую линейную модель предсказывать точность решения задачи по её SAE-репрезентации. Эта модель служит прокси сложности: чем ниже предсказанная точность, тем сложнее пример. Затем примеры сортируются от простых к сложным — easy-to-hard curriculum. Но сложность калибруется внутри каждого кластера отдельно, чтобы не смешивать несопоставимые темы.

Качество через фильтрацию на основе SAE. Для фильтрации шумных данных SAERL обучает бинарный классификатор на SAE-признаках, предсказывающий, принадлежит ли пример к целевому домену. В экспериментах этот классификатор достиг 95.37% чистоты и 95.46% полноты при отборе математических задач из смешанного набора. Прямой отбор top-50K по скору классификатора поднял чистоту до 99.92%.

Результаты: цифры и сравнения

Основные эксперименты проводились на математических задачах с использованием моделей Qwen2.5-Math-1.5B и Qwen2.5-Math-7B, обучаемых на наборе DeepMath-103K. Сравнивались два RL-алгоритма — GRPO и DAPO — и пять методов: vanilla GRPO/DAPO, Difficulty Curriculum Learning, ADARFT, GAINRL и SAERL.

На модели 1.5B параметров SAERL с GRPO показал среднюю точность 52.4% против 49.4% у vanilla GRPO — прирост на 3.00 процентных пункта. SAERL с DAPO достиг 52.5% против 51.5% у vanilla DAPO. При этом SAERL требовал на 20% меньше обучающих шагов для достижения той же целевой точности. На модели 7B параметров прирост сохранился: SAERL с GRPO показал 62.6% против 59.9% у baseline.

Что особенно важно — SAERL превзошёл методы, использующие внешние сигналы сложности. ADARFT, который оценивает сложность через rollout-точность, требует около 17.33 GPU-часов на H100 только на подготовку. SAERL делает всё офлайн, без дополнительных rollout'ов, и при этом сходится быстрее. GAINRL, использующий сжатые dense-активации, также уступил SAERL — что подтверждает гипотезу о том, что разреженные SAE-признаки несут более полезный сигнал, чем плотные скрытые состояния.

Интерпретируемый анализ показал, что кластеры SAE действительно соответствуют осмысленным математическим темам. Кластер 0 ассоциирован с производными и оптимизацией, кластер 1 — с теорией чисел и конгруэнциями, кластер 2 — с абстрактной алгеброй и доказательствами. Отдельные SAE-признаки активировались на решениях, связанных с кольцами и группами, или на задачах с геометрическими диаграммами.

Почему внешние сигналы проигрывают внутренним

Традиционные подходы к инженерии данных для RL полагаются на внешние метки: человеческие оценки сложности, точность rollout'ов, метаданные задач. У каждого из этих подходов есть фундаментальные ограничения.

Человеческие оценки дороги, субъективны и не масштабируются на миллионы примеров. Rollout-точность требует многократного запуска модели на каждой задаче — это вычислительно затратно и создаёт зависимость от текущего состояния модели, которое постоянно меняется в процессе обучения. Метаданные — тематические метки, уровни сложности из учебников — грубы и не отражают того, как модель воспринимает задачу.

SAE-признаки лишены этих недостатков. Они извлекаются однократно, не требуют дополнительных инференсов, и отражают именно то, как модель обрабатывает данные. Признак, который активируется на задачах с группами и кольцами, не знает слова «алгебра» — но он точно знает, что эти задачи связаны между собой на уровне внутренних представлений модели. Это даёт более тонкую и объективную сегментацию данных, чем любая внешняя таксономия.

Кроме того, SAE-признаки переносятся между моделями. В экспериментах SAERL использовал SAE, обученный на Qwen3-1.7B, для инженерии данных для Qwen2.5-Math-1.5B и 7B — и это работало. Это открывает путь к универсальным инструментам подготовки данных, которые не привязаны к конкретной архитектуре или размеру модели.

Практические последствия для разработчиков и исследователей

Для практиков SAERL предлагает несколько конкретных идей, которые можно адаптировать даже без полной реализации фреймворка.

Используйте SAE для аудита обучающих данных. Даже если вы не планируете менять пайплайн RL, кластеризация данных в SAE-пространстве помогает обнаружить неожиданные паттерны: дублирующиеся темы, редкие но важные категории, или шумные примеры, которые визуально похожи на целевые, но семантически далеки.

Экспериментируйте с moderate batch mixing. Идея о том, что батч должен быть преимущественно однородным с небольшой примесью других тем, может быть полезна и вне контекста SAERL. Попробуйте формировать батчи из одного домена с 5–10% примеров из смежных доменов — это может ускорить сходимость без потери специализации.

Стройте прокси сложности на внутренних представлениях. Вместо внешних метрик сложности попробуйте обучить простую модель предсказывать успех решения по скрытым состояниям. Это дешевле rollout'ов и может дать более стабильный сигнал, особенно на ранних этапах обучения.

Не гонитесь за максимальным разнообразием. SAERL показал, что оптимальное разнообразие — не максимальное. Батч с 6% примеров из других кластеров (mix8) работал лучше, чем батч с 25% (mix32). Это контринтуитивно, но важно: слишком сильное смешение мешает оптимизатору находить структуру в данных.

Часто задаваемые вопросы

Работает ли SAERL только для математики? Авторы валидировали фреймворк на математических задачах с верифицируемыми наградами — это контролируемая среда, где легко измерить прогресс. Но архитектура SAERL не привязана к математике: SAE можно обучить на любых данных, а прокси сложности и качества строятся на основе универсальных репрезентаций. Перенос на другие домены — логика, код, научные рассуждения — требует эмпирической проверки, но теоретических препятствий нет.

Нужно ли обучать отдельный SAE для каждой модели? Нет — и это одно из главных преимуществ. В экспериментах SAE, обученный на Qwen3-1.7B, успешно использовался для Qwen2.5-Math-1.5B и 7B. Разреженные признаки оказались достаточно универсальными, чтобы переноситься между моделями одного семейства. Для совсем разных архитектур, вероятно, потребуется отдельный SAE, но в пределах одного линейки — нет.

Насколько дорого обучать SAE для SAERL? SAE обучается один раз, до начала RL-пост-тренировки. Это значительно дешевле, чем методы вроде ADARFT, которые требуют многократных rollout'ов на каждом примере. Авторы не приводят точных цифр по времени обучения SAE, но подчёркивают, что подготовительные затраты SAERL «существенно ниже».

Итог

SAERL демонстрирует, что механистическая интерпретируемость — не только инструмент для понимания моделей, но и практический рычаг для их улучшения. Разреженные активации SAE содержат структурированную информацию о разнообразии, сложности и качестве данных — и эту информацию можно использовать для построения более эффективных обучающих пайплайнов. Прирост в 3% точности и экономия 20% вычислительного бюджета на моделях 1.5B–7B параметров — это конкретный, измеримый результат, который может масштабироваться на более крупные системы.

Для индустрии это означает, что инвестиции в интерпретируемость окупаются не только прозрачностью, но и производительностью. А для исследователей — что внутренний мир LLM всё ещё полон неиспользованных ресурсов, которые ждут своих инженеров.