RELEX: как обучать LLM в 7 раз быстрее, наблюдая лишь 15% шагов

RELEX: как обучать LLM в 7 раз быстрее, наблюдая лишь 15% шагов

Обучение языковых моделей методом RLVR (Reinforcement Learning with Verifiable Rewards) сжигает недели GPU-времени и тысячи долларов на каждую итерацию. Но что, если 85% этих вычислений — лишний шум? Новая статья Weizhe Pei и коллег показывает: траектории весов при RLVR оказываются на удивление простыми. Достаточно посмотреть на первые 15% шагов, провести один SVD и нарисовать прямую — и вы получите чекпоинт, который не уступает полному обучению. Метод называется RELEX, и у него нет ни нейросети-предсказателя, ни дополнительного обучения.

Что такое RLVR и почему он такой дорогой

RLVR — это подход, при котором языковая модель учится решать задачи с верифицируемым ответом: математику, программирование, логику. Алгоритм типа GRPO (Group Relative Policy Optimization) генерирует несколько вариантов решения, проверяет их автоматически и обновляет веса модели в сторону успешных траекторий. Проблема в том, что для заметного прироста качества нужны сотни шагов оптимизации, а каждый шаг — это прогон forward и backward через миллиарды параметров на дорогих GPU-кластерах.

Исследователи давно подозревали, что RLVR работает не столько за счёт обучения новых способностей с нуля, сколько за счёт «раскачивания» уже заложенных в претрейне. Модель учится чаще выбирать правильные рассуждения и реже — ошибочные. Если основной эффект кроется в небольшом сдвиге распределения ответов, возможно, само обновление весов тоже имеет простую структуру.

Главное открытие: траектории весов живут почти в одном измерении

Авторы взяли три модели — Qwen2.5-Math-1.5B, Qwen3-4B-Base и Qwen3-8B-Base — и обучили их GRPO на датасете MATH по 500 шагов, сохраняя чекпоинт на каждом шаге. Затем они вычислили дельты весов относительно начальной точки и разложили полученные матрицы траекторий по сингулярным значениям.

Результат оказался поразительным: подавляющая часть прироста качества укладывается в ранговое-1 приближение. Одно сингулярное направление на каждый тензор весов захватывает всё, что нужно для воспроизведения downstream-результата. При этом скалярный коэффициент при этом направлении растёт почти линейно с номером шага обучения. В пространстве сырого веса траектория выглядит как извилистая кривая, но после проекции на доминирующее направление она превращается в почти идеальную прямую.

Это означает, что вместо того чтобы тренировать модель 500 шагов, можно наблюдать первые 50–75 шагов, оценить направление главного обновления и просто продолжить его линейно дальше. Без градиентов, без сэмплирования, без дополнительных вычислений.

Как работает RELEX

Метод RELEX состоит из двух шагов и не требует обучения какой-либо модели. На первом шаге из наблюдаемого префикса траектории — скажем, шаги с 0 по 50 — для каждого тензора весов строится матрица дельт и выполняется ранговое-1 SVD-разложение. Это даёт доминирующее направление обновления. На втором шаге скалярные коэффициенты при этом направлении аппроксимируются линейной регрессией по номеру шага. Чтобы получить чекпоинт на шаге 500, RELEX берёт начальные веса, прибавляет к ним доминирующее направление, умноженное на спрогнозированный коэффициент — и всё.

Ключевой инсайт: линейная модель работает, а нелинейная — ломается. Авторы пробовали полиномиальную регрессию, и она давала катастрофические результаты на горизонтах экстраполяции. Ранг выше первого тоже не помогал: ранговое-5 и ранговое-10 приближение не улучшали точность предсказания, а иногда даже ухудшали. Оказывается, дополнительные сингулярные направления в основном несут стохастический шум оптимизации, который мешает экстраполяции. Проецируясь на ранговое-1 подпространство, RELEX отфильтровывает этот шум — и получает более чистый сигнал.

Числа: RELEX против полного RLVR

На Qwen2.5-Math-1.5B базовая точность по MATH составляет 48.2%, а после полного RLVR — 71.5%. RELEX, наблюдая лишь первые 75 шагов (15% от 500) и экстраполируя до 500, даёт 71.6% — практически идентичный результат. При этом он не тратит ни одного дополнительного шага на обучение после наблюдения.

На Qwen3-4B-Base картина ещё впечатляющее: база 64.0%, RLVR 85.5%, а RELEX с наблюдением всего 50 шагов достигает 84.1% на шаге 500. Это менее чем 10% наблюдаемых шагов для получения почти всего эффекта. На Qwen3-8B-Base RELEX также сопоставим с полным обучением, хотя оптимальное окно наблюдения здесь оказывается чуть больше — около 100–125 шагов.

Авторы проверили метод и на out-of-domain бенчмарках: AIME 2025, AIME 2026, HMMT 2025, OlympiadBench и AMC 2023. RELEX не просто не проваливается за пределами обучающего дистрибутива — в ряде случаев он превосходит полный RLVR на OOD-задачах. Это говорит о том, что ранговое-1 приближение обладает свойством регуляризации: отбрасывая шум, оно иногда сохраняет более обобщающиеся представления.

Насколько далеко можно заглянуть?

Самое удивительное в RELEX — способность экстраполировать далеко за пределы наблюдаемого окна. Авторы показывают, что модель, увидевшая первые 50 шагов, может предсказывать чекпоинты на 1000 шагов вперёд с сохранением или даже ростом качества. Это экстраполяция в 10–20 раз дальше префикса. Для сравнения: существующий метод ExPO, который просто масштабирует весовую дельту между началом и концом наблюдения, даёт на Qwen2.5-Math-1.5B 67.7% MATH при тех же 15% затратах — заметно ниже RELEX. AlphaRL, использующий более сложную регрессию по сингулярным векторам, показывает 67.3%. Логит-экстраполяция — 64.9%. RELEX обходит их всех, будучи при этом проще.

Почему это работает: денойзинг вместо магии

Авторы объясняют успех RELEX эффектом денойзинга. Стохастическая оптимизация GRPO на каждом шаге добавляет случайный шум в обновления весов: разные батчи, разные сэмплы ответов, разные оценки верификатора. В пространстве высокой размерности этот шум распределяется по множеству направлений, ортогональных главному сигналу обучения. SVD-разложение выделяет именно тот компонент, который систематически накапливается от шага к шагу, — и отбрасывает всё остальное. Линейная регрессия по этому очищенному сигналу оказывается гораздо надёжнее, чем любая попытка моделировать полную динамику.

Это соответствует недавним теоретическим работам о том, что on-policy RL неявно смещён к KL-минимальным решениям, а обновления RLVR концентрируются в низкоранговых подпространствах. RELEX берёт эту геометрическую регулярность и превращает её в практический инструмент ускорения.

Ограничения и что делать дальше

У метода есть важная оговорка: оптимальное окно наблюдения зависит от модели. Qwen2.5-Math-1.5B выигрывает от более длинных префиксов, тогда как Qwen3-4B-Base лучше работает с короткими окнами в 50–75 шагов, а Qwen3-8B-Base предпочитает промежуточные. Это означает, что нет универсального правила «всегда смотреть на первые N шагов» — нужен механизм адаптивного выбора окна, возможно, на основе мониторинга дрейфа подпространства или анализа сингулярных зазоров.

Кроме того, статья проверяет RELEX только на математических задачах с верифицируемыми ответами. Непонятно, насколько хорошо метод переносится на другие домены — например, кодогенерацию с тестами или логические головоломки с символьной верификацией. Также остаётся открытым вопрос о масштабировании на модели размером 30B+ параметров и на многократные эпохи обучения.

Часто задаваемые вопросы

Можно ли применить RELEX к уже обучаемой модели, не начиная с нуля?

Да, главное условие — наличие чекпоинтов с начала RLVR-тренировки. Если у вас есть префикс траектории хотя бы на 50–100 шагов, RELEX может экстраполировать дальнейшее обучение без дополнительных затрат. Это особенно полезно в облачных сценариях, где каждый шаг стоит денег.

Нужно ли для RELEX много памяти или специальное железо?

Нет. SVD-разложение для рангового-1 приближения выполняется на уровне отдельных тензоров весов и требует лишь небольшого дополнительного объёма RAM. Линейная регрессия по скалярным коэффициентам — тривиальная операция. Всё вычисление занимает секунды на обычном CPU.

Почему ранговое-1 лучше, чем ранговое-5 или ранговое-10?

Потому что дополнительные сингулярные направления несут в основном стохастический шум оптимизации, а не систематический сигнал обучения. Их включение мешает линейной экстраполяции и не даёт прироста качества. Ранговое-1 оказывается оптимальным компромиссом между выразительностью и устойчивостью к шуму.

Итог

RELEX — это редкий случай, когда радикальное упрощение даёт радикальный выигрыш. Вместо того чтобы строить сложные предсказательные модели или изобретать новые алгоритмы оптимизации, авторы заметили геометрическую простоту уже существующего процесса и использовали её. Результат: сокращение вычислительных затрат на RLVR в 6–7 раз при сохранении качества. Для команд, которые тренируют reasoning-модели на математике и логике, это может означать экономию тысяч долларов на каждом эксперименте. Код RELEX выложен в открытый доступ, так что проверить метод на своих задачах можно уже сегодня.

← Все записи
← Все записи