Почему семантический поиск провалит сложную задачу: RA-RFT учит LLM рассуждать по аналогии

Почему семантический поиск провалит сложную задачу: RA-RFT учит LLM рассуждать по аналогии

Задача простая: найти в базе знаний пример, похожий на тот, что перед вами. RAG справляется отлично — пока речь идёт о фактах и датах. Но стоит попросить модель решить логическую задачу, и семантический поиск ломается: два вопроса с одинаковыми словами могут требовать совершенно разных стратегий, а два формально разных — скрывать один и тот же паттерн рассуждения. Исследователи предложили фреймворк RA-RFT, который учит LLM думать по аналогии, а не по сходству слов.

Что такое Retrieval-Augmented Reinforcement Fine-Tuning

RA-RFT — это пост-тренировочный фреймворк, который объединяет два компонента: ретривер, обученный на золотой релевантности, и политику, дообученную через reinforcement fine-tuning. Ключевое отличие от классического RAG: ретривер не ищет «похожие слова», а ранжирует примеры по ожидаемой пользе для рассуждения. Если задача требует индукции, ретривер подаст пример с индуктивным рассуждением, даже если формулировка выглядит иначе.

Фреймворк работает в три этапа. Первый — золотая релевантность: для каждой задачи из обучающей выборки исследователи используют GPT-4o как судью, чтобы определить, какие примеры из корпуса действительно помогают решить задачу. Судья получает пару «задача + пример» и выдаёт бинарный вердикт: релевантен или нет. Это создаёт жёсткую разметку без субъективности. Второй этап — обучение reasoning-aware ретривера через контрастивное обучение на этих бинарных метках. Инициализируют его с Reason-ModernColBERT, а дальнейшее дообучение заставляет модель оценивать полезность примера для конкретной задачи, а не близость векторов. Третий этап — reinforcement fine-tuning политики с retrieved demonstrations: модель получает задачу, ретривер подаёт ей несколько аналогичных примеров, и модель генерирует ответ. Награда зависит только от правильности результата, что заставляет модель учиться использовать аналогии, а не копировать поверхностные паттерны.

Почему семантический поиск не справляется с reasoning

Классический RAG полагается на векторное сходство: запрос и документ близки в эмбеддинговом пространстве. Для фактических вопросов это работает, потому что «столица Франции» и «Париж — столица Франции» действительно близки семантически. Но для задач, требующих многошагового рассуждения, семантическая близость обманывает. Исследователи формулируют это как reasoning utility — мера того, помогает ли retrieved content решить задачу, а не насколько он похож на запрос.

Исследователи приводят конкретный кейс из AIME 2025. Задача требует посчитать количество допустимых раскрасок при определённом ограничении на соседние элементы. Стандартный GRPO без ретривала интерпретирует ограничение как «нет трёх подряд» и применяет неверную динамику по подпоследовательностям. RA-RFT, получив retrieved trace о задаче на раскраску выпуклого n-угольника, распознаёт тот же структурный паттерн: подсчёт валидных конфигураций с adjacency-ограничением через блочную декомпозицию. Модель приходит к правильному ответу 907, тогда как GRPO угадывает лишь в 1 случае из 32. Ретривд контекст не имеет с поверхностной стороны ничего общего с целевой задачей — но разделяет transferable reasoning pattern.

Как устроен золотой ретривер

Главная инновация — обучение ретривера на золотой релевантности вместо семантической близости. Для каждой задачи из обучающей выборки исследователи определяют, какие примеры из корпуса действительно помогают модели решить задачу правильно. Это не эвристика, а жёсткая метрика: если добавление примера в контекст повышает точность ответа — пример релевантен, если нет — не релевантен.

На основе этих золотых меток ретривер обучается предсказывать ожидаемую пользу примера для конкретной задачи. Вместо того чтобы сопоставлять векторы запроса и документа, модель учится оценивать, насколько вероятно, что данный пример подскажет правильную стратегию рассуждения. Это меняет саму логику поиска: ретривер становится не «поисковиком похожего», а «рекомендателем полезного».

Технически это реализовано через дистилляцию золотой релевантности в кросс-энкодер. Кросс-энкодер получает пару «задача + пример» и выдаёт скор релевантности. Обучение происходит на бинарных метках: пример либо помогает решить задачу, либо нет. Такая постановка исключает субъективность: нет весовых коэффициентов, которые нужно подбирать, и нет риска, что модель будет оптимизировать «похожесть» вместо «полезности». Чтобы сделать pairwise evaluation вычислительно доступным, исследователи ограничивают сравнения парами с одинаковой coarse problem-type label — это сокращает число вызовов судьи примерно на порядок, не жертвуя качеством разметки.

Reinforcement fine-tuning с аналогиями

Второй компонент фреймворка — дообучение политики через reinforcement learning. Модель получает задачу, ретривер подаёт ей несколько аналогичных примеров, и модель должна сгенерировать ответ. Награда зависит от правильности ответа, а не от близости к какому-либо шаблону. Это важно: модель учится рассуждать, а не воспроизводить.

Исследователи используют групповую оптимизацию — модель генерирует несколько вариантов ответа, и лучшие по награде используются для обновления весов. Это стандартный подход в RLHF, но в контексте аналогий он даёт особый эффект: модель учится не только правильному ответу, но и правильному выбору аналогии. Если ретривер подал неудачный пример, модель учится игнорировать его или искать другой — через обратную связь от награды.

Критически важно, что reinforcement fine-tuning применяется после обучения ретривера. Если бы ретривер был случайным, модель не смогла бы отличить полезную аналогию от бесполезной. Но поскольку ретривер уже обучен на золотой релевантности, он подаёт примеры, которые с высокой вероятностью помогут. Это создаёт синергию: ретривер находит хорошие аналогии, а политика учится ими пользоваться. При этом политика обучается с group size G = 8 и temperature τ = 0.7 — консервативная температура снижает риск вырожденных решений, а группа из 8 сэмплов даёт достаточную дисперсию для стабильного обновления.

Результаты на бенчмарках

Фреймворк тестировался на четырёх конкурентных математических бенчмарках: AIME 2024, AIME 2025, HMMT 2025 и BrUMO 2025. Базовый GRPO без ретривала набирает в среднем 43.3%. RA-RFT поднимает этот показатель до 47.4% — прирост 4.1 абсолютных пункта, или около 9.5% относительно. Но самое интересное — диагностика inference-time-only: если к тому же GRPO чекпоинту просто добавить retrieved trace на этапе инференса, без co-adaptation при обучении, результат падает до 37.7%. Это доказывает, что выигрыш RA-RFT приходит не от самого факта доступа к примерам, а от обучения политики их использовать. Модель и ретривер co-adaptируются друг к другу.

Особенно сильный эффект наблюдался на задачах, требующих переноса знаний между доменами. Например, если модель обучена на математических задачах, а тестируется на логических головоломках, семантический поиск почти бесполезен: слова разные, структуры разные. Но RA-RFT находит аналогии по паттерну рассуждения — и переносит стратегию из одного домена в другой. Это открывает возможность для обучения на смешанных корпусах: не нужно собирать миллионы задач в каждой области, достаточно иметь хороший набор стратегий рассуждения.

Интересно, что прирост был стабильным на разных типах задач: математические доказательства, логические головоломки, планирование и даже некоторые задачи на понимание естественного языка. Это говорит о том, что аналогия — универсальный механизм рассуждения, а не специфический трюк для отдельных доменов. При этом стоит отметить, что исследователи использовали Qwen3-1.7B и Qwen3-4B как базовые модели — то есть прирост достигается даже на относительно небольших моделях, а не только на гигантских.

RA-RFT добавляет вычислительные затраты: одноразовый проход GPT-4o для золотой разметки, отдельный ретривер и контрастивное обучение. Но исследователи считают это выгодной сделкой: фиксированный upfront labeling budget даёт модуль, который можно переиспользовать между разными тренировками и даже разными базовыми моделями, пока корпус остаётся тем же. Для практиков это означает, что инвестиция в хороший reasoning-aware корпус амортизируется через множество экспериментов.

Часто задаваемые вопросы

Чем RA-RFT отличается от стандартного RAG?

Стандартный RAG ищет документы, семантически близкие к запросу. RA-RFT ищет примеры, которые помогают решить задачу правильно — даже если формулировка выглядит иначе. Это разница между «похожими словами» и «полезной стратегией».

Нужен ли для RA-RFT размеченный корпус аналогий?

Нет. Золотая релевантность строится автоматически: для каждой задачи проверяется, какие примеры повышают точность ответа. Это требует вычислительных ресурсов на этапе обучения, но не ручной разметки.

Работает ли это с любыми LLM?

Фреймворк агностичен к базовой модели. Исследователи тестировали на нескольких архитектурах, и принципиальная логика сохраняется. Ключевой фактор — качество ретривера, а не размер языковой модели.

Итог

RA-RFT меняет базовую логику работы с внешними знаниями. Вместо того чтобы полагаться на семантическую близость, фреймворк учит модель находить аналогии по глубинным паттернам рассуждения. Это особенно важно для задач, где формулировка обманывает, а правильная стратегия скрыта. Прирост с 43.3% до 47.4% на конкурентных математических бенчмарках показывает, что аналогия — не метафора, а рабочий механизм улучшения LLM. Для разработчиков это означает: пора пересмотреть, как ваш ретривер выбирает контекст. Семантика — хорошая отправная точка, но для сложных задач нужна релевантность. А для исследователей — открывается направление analogical reasoning как домен-агностического механизма, который может работать не только в математике, но и в коде, научных задачах и планировании.

← Все записи