LongTraceRL: как научить LLM рассуждать в контексте 128 тысяч токенов
Представьте, что вы просите языковую модель найти ответ в стопке из трёхсот страниц текста. Она начинает читать, теряет нить на сотой странице, цитирует нерелевантный абзац и выдаёт уверенную, но неверную догадку. Это не гипотетика — это стандартное поведение современных LLM при работе с длинным контекстом. Недавняя работа команды Tsinghua University под названием LongTraceRL предлагает решение, которое не просто улучшает метрики, а меняет сам подход к обучению моделей длинному рассуждению.
Что такое LongTraceRL
LongTraceRL — это фреймворк обучения с подкреплением с верифицируемыми наградами (RLVR), специализированный на задачах длинного контекста. В отличие от существующих методов, которые используют случайные дистракторы и разреженные сигналы награды только за финальный ответ, LongTraceRL строит обучающие данные из реальных поисковых траекторий агента и вводит детальную рубричную награду на уровне отдельных сущностей. Результат — устойчивый прирост точности на пяти бенчмарках для моделей от 4 до 30 миллиардов параметров.
Почему длинный контекст до сих пор проваливается
Современные языковые модели умеют принимать на вход 128 тысяч токенов и более, но способность к рассуждению над такими объёмами остаётся слабым местом. Исследователи выделяют три характерных паттерна ошибок: галлюцинирование ответа без опоры на текст, фрагментарное извлечение информации из отдельных кусков и цитирование нерелевантных пассажей. По мере роста длины контекста эти проблемы усиливаются, и модель начинает полагаться на поверхностные эвристики вместо систематического анализа.
Существующие подходы к обучению с подкреплением для длинного контекста страдают от двух ограничений. Во-первых, качество обучающих данных невысоко: вопросы содержат мало шагов рассуждения, а дистракторы подбираются случайно из нерелевантных документов, что делает их легко отфильтровываемыми. Во-вторых, награда приходит только за конечный результат — правильный или неправильный ответ. Такой разреженный сигнал не может контролировать промежуточные шаги рассуждения, и модель не учится связывать логические переходы с конечной целью.
Как строятся данные: от случайного шума к реалистичным ловушкам
Ключевая инновация LongTraceRL — в конвейере построения данных, который превращает случайный шум в структурированные, семантически близкие дистракторы. Процесс состоит из четырёх этапов.
На первом этапе система генерирует многошаговые вопросы через случайные блуждания по графу знаний Wikipedia. Начиная с произвольной сущности, алгоритм делает восемь шагов по гиперссылкам, выбирая на каждом шаге наиболее релевантную из пяти кандидатов. Периодические случайные скачки разнообразят маршруты. Полученная цепочка сущностей становится основой для вопроса, который требует пошагового рассуждения через все промежуточные узлы.
На втором этапе мощная языковая модель формулирует вопрос по этой цепочке с жёсткими ограничениями: ответ должен требовать прохождения через все сущности без сокращений, все идентифицирующие детали должны быть перефразированы, чтобы исключить простое ключевое совпадение, и ответ должен быть однозначным. Вместе с вопросом система сохраняет список золотых сущностей — эталонной цепочки рассуждения.
Третий этап — сбор траекторий поискового агента. Система запускает агента с доступом к поисковой системе и наблюдает, какие документы он открывает, какие цитирует, а какие просматривает, но отбрасывает. Это поведение порождает два уровня дистракторов. Документы, которые агент прочитал, но не процитировал, получают высокую степень путаницы — они семантически близки к вопросу, но не содержат ответа. Документы, которые появились в результатах поиска, но агент даже не открыл, получают низкую степень путаницы. Такая стратификация создаёт реалистичный спектр сложности, который гораздо ближе к реальным сценариям использования, чем случайная выборка.
На четвёртом этапе все компоненты собираются в единый пример: вопрос, золотые пассажи, дистракторы первого и второго уровня, итоговый контекст доводится до 128 тысяч токенов. Весь набор содержит 2815 примеров — существенно меньше, чем у конкурентов, но с гораздо более высокой плотностью обучающего сигнала.
Рубричная награда: процессный контроль за каждым шагом
Вторая инновация — механизм рубричной награды, который превращает золотые сущности из конвейера данных в детальный сигнал обучения. Вместо того чтобы давать модели только бинарную награду за правильный ответ, LongTraceRL оценивает, какую долю золотых сущностей из эталонной цепочки модель упомянула в своём рассуждении.
Формула проста: рубричный счёт равен отношению числа упомянутых золотых сущностей к общему числу сущностей в цепочке. Если модель прошла через все восемь промежуточных узлов, рубричный счёт равен единице. Если она упомянула только четыре — 0.5. Это даёт непрерывный сигнал качества рассуждения даже тогда, когда финальный ответ ещё неизвестен.
Поскольку разные вопросы содержат разное число сущностей и разную сложность, сырые рубричные счёта несопоставимы между примерами. LongTraceRL решает эту проблему через групповую нормализацию: для каждого вопроса генерируется группа из нескольких ответов, и рубричные счёта внутри группы масштабируются относительно максимума. Таким образом, награда всегда лежит в диапазоне от нуля до единицы, независимо от абсолютной сложности вопроса.
Критически важный элемент — стратегия positive-only. Рубричная награда применяется только к ответам, которые уже получили правильный исход. Если модель дала неверный ответ, рубричный сигнал не поступает. Это предотвращает reward hacking: без positive-only модель могла бы научиться манипулировать рубричным счётом, упоминая золотые сущности в произвольном порядке или без связи с вопросом, получая высокую рубричную награду при неверном ответе. Positive-only гарантирует, что процессный сигнал работает только внутри пространства корректных решений, отличая качественное рассуждение от поверхностного.
Итоговая награда — взвешенная сумма исходной награды и нормализованной рубричной награды. Авторы экспериментально определили оптимальный коэффициент: рубричная составляющая должна давать 30 процентов общего веса. При меньшем вкладе процессный сигнал слишком слаб, при большем — модель начинает жертвовать точностью ответа ради механического перечисления сущностей.
Результаты: прирост на всех масштабах
LongTraceRL тестировался на трёх моделях разных семейств и размеров: Qwen3-4B-Thinking, DeepSeek-R1-Qwen3-8B и Qwen3-30B-A3B-Thinking. Оценка проводилась на пяти бенчмарках длинного контекста.
AA-LCR содержит сто экспертных вопросов по реальным документам длиной около ста тысяч токенов. MRCR — многокруговой бенчмарк кореференции, где модель должна воспроизвести конкретный ответ из длинного диалога с повторяющимися темами. Frames проверяет многошаговое фактическое рассуждение по нескольким статьям Wikipedia с числовыми, временными и табличными выводами. Ruler и NeedleInAHaystack — классические тесты на извлечение информации из контекстов разной длины.
На Qwen3-4B-Thinking средний счёт вырос с 53.3 до 59.0 — прирост в 5.7 пункта. Наибольший скачок произошёл на самом сложном бенчмарке AA-LCR: с 33.2 до 41.8, то есть на 8.6 пункта. Это говорит о том, что метод особенно эффективен там, где требуется глубокое многошаговое рассуждение, а не простое извлечение факта.
На DeepSeek-R1-Qwen3-8B прирост составил 1.1 пункта — с 42.7 до 43.8. Здесь стоит отметить важную деталь: базовые методы DocQA, LoongRL и LongRLVR на этой модели не просто не улучшали результат, а деградировали его до 40.6–40.9. LongTraceRL оказался единственным методом, который смог выжать дополнительную производительность из уже сильной дистиллированной модели.
На Qwen3-30B-A3B-Thinking прирост достиг 3.2 пункта — с 60.5 до 63.7. Это подтверждает, что метод масштабируется вместе с моделью и не ограничен малыми архитектурами.
Абляционный анализ показал, что рубричная награда — доминирующий фактор улучшения. При её удалении средний счёт на 4B модели падает с 59.0 до 53.7, практически возвращаясь к исходному уровню. Данные остаются теми же, алгоритм тот же, но без процессного сигнала модель не учится структурировать рассуждение.
Почему дистракторы из траекторий работают лучше случайных
Авторы сравнили четыре стратегии построения дистракторов при идентичных вопросах и золотых пассажах. Случайные дистракторы, выбранные из глобального пула документов, почти никогда не содержат золотых сущностей — лишь 1.35 процента случаев. Это делает их слишком лёгкими: модель быстро учится отличать релевантное от явно постороннего, но не получает навыков работы с семантически близким шумом.
Дистракторы из однократного поиска сложнее — 15 процентов содержат золотые сущности — но всё ещё недостаточно, потому что не гарантируют попадания документов вдоль цепочки рассуждения. Траекторные дистракторы достигают 50 процентов перекрытия с золотыми сущностями, а дистракторы первого уровня — те, что агент прочитал, но не процитировал, — доходят до 63.23 процента. Это создаёт обучающую среду, где модель вынуждена различать тонкие семантические нюансы, а не полагаться на грубую фильтрацию.
Соответственно, downstream-результаты линейно коррелируют со сложностью дистракторов. Случайные дают средний счёт 55.7, поисковые — 56.7, траекторные без стратификации — 57.5, а траекторные со стратификацией — 59.0. Каждый уровень реализма добавляет модели навыков, которые переносятся на реальные задачи.
Что происходит во время обучения
Динамика обучения LongTraceRL отличается характерным саморегулирующимся поведением. Рубричная награда растёт стабильно на протяжении всего обучения — модель постепенно учится упоминать больше золотых сущностей. Вместе с ней растёт и исходная награда, что подтверждает: процессный сигнал помогает модели чаще достигать правильного ответа, а не отвлекает от конечной цели.
Длина рассуждений увеличивается по сравнению с базовым GRPO: модель разворачивает более развёрнутые цепочки мыслей, проверяя больше документов и аргументов. Однако примерно на 120-м шаге обучения многие раскатки достигают лимита в 32 тысячи токенов и не успевают выдать финальный ответ. Это подавляет исходную награду, и positive-only стратегия направляет политику обратно к более коротким ответам, после чего длина снова начинает расти контролируемо. Такое колебательное поведение предотвращает бесконтрольный рост длины рассуждений — известную проблему RLVR, когда модель начинает генерировать бесконечные рассуждения в надежде случайно набрать награду.
Часто задаваемые вопросы
Подходит ли LongTraceRL только для моделей с chain-of-thought?
Да, метод рассчитан на модели, которые генерируют промежуточные рассуждения перед финальным ответом. Рубричная награда оценивает именно содержимое этих промежуточных шагов. Для моделей без явного рассуждения процессный сигнал негде применять.
Можно ли использовать LongTraceRL с данными на русском языке?
Архитектура метода не зависит от языка. Граф знаний можно построить по русскоязычной Wikipedia, поисковый агент можно запустить над русскоязычной выдачей, а рубричная награда будет работать с любыми именованными сущностями. Единственное требование — наличие верифицируемых цепочек рассуждения.
Почему positive-only не замедляет обучение?
На первый взгляд кажется, что отбрасывание награды для неправильных ответов лишает модель половины обучающего сигнала. На практике это не так: неправильные ответы всё ещё получают нулевую исходную награду, которая через GRPO влияет на градиенты. Positive-only лишь запрещает рубричный сигнал для неправильных траекторий, предотвращая манипуляции. Правильные ответы, которые составляют меньшинство на ранних этапах обучения, получают оба сигнала и тянут политику в нужном направлении.
Итог
LongTraceRL демонстрирует, что проблема длинного контекста решается не масштабированием данных, а их качеством. 2815 примеров с траекторными дистракторами и рубричной наградой дают больше, чем 18 тысяч примеров со случайным шумом. Метод показывает, что процессный контроль на уровне сущностей — не теоретическая роскошь, а практический инструмент, который можно встроить в стандартный пайплайн GRPO без изменений в архитектуре модели.
Для практиков ключевой вывод в том, что обучающие данные должны отражать реальные паттерны ошибок, которые модель встретит в продакшене. Если ваши дистракторы очевидно нерелевантны, модель выучит очевидную фильтрацию, а не глубокое рассуждение. Если ваша награда бинарна, модель не узнает, какие шаги привели к успеху. LongTraceRL предлагает проверенный рецепт: стройте данные из поведения реальных агентов, награждайте не только результат, но и качество пути.