QVal: как оценить сигналы для обучения LLM-агентов без тренировки
LLM-агенты всё активнее применяются для написания кода, управления интерфейсами и навигации в симулированных средах. Это длинные задачи: одна траектория может включать сотни или тысячи действий. Традиционные sparse-награды (reward только в конце траектории) перестают работать — модель не получает обратной связи о качестве промежуточных шагов. На помощь приходят методы плотного контроля (dense supervision): они оценивают каждое промежуточное действие, а не только финальный результат.
Но есть фундаментальная проблема: методы плотного контроля разрабатываются и оцениваются изолированно, каждый в собственном пайплайне тренировки. Сравнить их напрямую практически невозможно. Именно её решает QVal — новый тестовый стенд от исследователей из Tübingen AI Center, University of Tübingen и Fondazione Bruno Kessler.
Проблема: почему стандартное сравнение не работает
Когда метод плотного контроля оценивается через улучшение конечной производительности агента после тренировки, результат всегда смешан с инженерными решениями пайплайна. Алгоритм RL, техники нормализации, стратегии балансировки сигналов, интеграция с другими loss-сигналами — всё это влияет на итоговую производительность. Выигрыш в производительности невозможно разделить на «сигнал хороший» и «инженерия удачная».
Представьте: автор метода X публикует результаты, где его метод показывает +15% к Pass@1 на TerminalBench. Но его пайплайн использует Proximal Policy Optimization с specific clip range, learning rate schedule и батчинг стратегией, которые автор тщательно тюнил под этот метод. Метод Y показывает +12%, но автор использовал GRPO с дефолтными параметрами. Кто из них даёт лучший сигнал?
Ответ: по этим данным невозможно сказать. QVal решает именно эту проблему.
Что такое QVal и зачем он нужен
QVal ломает связку между качеством сигнала и качеством пайплайна тренировки. Вместо измерения итогового качества агента после тренировки он оценивает сам сигнал напрямую. Для каждой пары состояние-действие (state-action pair) вычисляется Q-alignment — насколько хорошо метод ранжирует действия так же, как эталонные Q-значения от экспертной политики.
Q-alignment: сигнал Q-aligned, если он упорядочивает действия в точности как эталонные Q-значения. Идеально Q-aligned сигнал даёт осмысленную обратную связь на каждом шаге тренировки.
Формально Q-alignment измеряется корреляцией рангов (Spearman's ρ) между предсказанными оценками метода и эталонными Q-значениями. Почему корреляция рангов, а не абсолютные значения? Потому что сигналы от разных методов живут на несовместимых шкалах: логиты LLM, выходы кода, log-вероятности токенов, embedding distances. Сравнивать абсолютные значения невозможно, но упорядочение — можно.
Этот подход имеет важное следствие: Q-alignment измеряется до любой тренировки, за секунды или минуты, а не за часы GPU-времени. Можно быстро отсеять заведомо слабые сигналы и сфокусироваться на перспективных.
Как устроен QVal-v1.0
QVal-v1.0 включает четыре разнообразные среды, которые отличаются по структуре action space, модальности наблюдений и типу контекста, необходимого для оценки действия.
TerminalBench — программирование и агентное взаимодействие с терминалом. Модель решает задачи через shell-команды, наблюдая текстовый вывод. Это самая открытая среда: действия — произвольные shell-команды, наблюдения — текстовые. Оценить, хороший ли shell-команда, сложнее всего — нужно понимать контекст задачи, текущее состояние файловой системы, эффект от выполнения команды.
OpenApps — использование компьютера и приложений. Браузерные и десктопные задачи, где агенту нужно управлять GUI через действия типа click, type, scroll. В отличие от TerminalBench, здесь действия более структурированы, но наблюдения мультимодальные (скриншоты + accessibility tree).
ALFWorld — embodied reasoning в текстовых средах. Агент получает инструкции на естественном языке и должен манипулировать объектами в симулированном физическом мире (открыть дверь, взять книгу с полки, положить объект в микроволновку). Actions — высокоуровневые команды вроде "go to drawer", observations — текстовые описания состояния.
FrozenLake — направленная навигация. Дискретное пространство с 4 возможными действиями (вверх, вниз, влево, вправо), где агенту нужно добраться до цели, избегая льда. Это простейшая среда для анализа, но она полезна как baseline.
Для каждой среды собраны state-action pairs, размеченные эталонными Q-значениями. Разметка делалась по-разному в зависимости от доступности экспертной политики. В OpenApps и FrozenLake использовались скриптовые оптимальные политики — для этих сред можно вычислить точное Q-значение. В ALFWorld — экспертный планировщик, который знает правильную последовательность действий. А вот в TerminalBench оптимальную политику найти невозможно (она требует решения NP-hard задач). Там авторы использовали MVMC rollouts (k=16) с GPT-5.5 в качестве backbone: 16 независимых запусков, каждый раз делая random действие на первом шаге и выбирая лучший итоговый результат. GPT-5.5 достигает 100% Pass@16 на сабсете TerminalBench — это сильный эксперт, хотя и не гарантированно оптимальный.
Теперь ключевое: 21 метод плотного контроля разбиты на 7 семейств.
Direct prompting — просят LLM выдать числовую оценку напрямую. Варианты: direct-single (один data point на prompt), direct-batched (несколько в одном prompt, чтобы привязать к общей шкале), direct-sequential (multi-turn, добавляют новые data points после ответа), direct-16 (усредняют 16 независимых оценок одного data point), gvl (дают модели shuffled полную траекторию вокруг целевого перехода).
LLM-as-a-Verifier — промпт-модель оценить кортеж (state, action, next_state) по критериям правильности, эффективности, отсутствия ошибок. Используют probabilities по шкале оценок.
ΔBelief — изменение вероятности успеха после наблюдения результата действия. Идея: хорошее действие становится более вероятным в hindsight, когда виден его результат.
Code generation — генерируют код, который выдаёт оценку действия.
Self-distillation — sdpo: насколько вероятнее модель произвела бы действие, увидев его следующее состояние. sdpo-gt — оракульная версия, которая дополнительно раскрывает экспертное действие и итог траектории.
Ranking — LLM сравнивает набор действий из одного состояния и выдаёт перестановку (упорядочение) вместо абсолютных оценок.
Pre-trained value models — vip, liv-cos, liv-l2, liv-txt: модели, которые напрямую предсказывают value function из предобучения.
Эксперименты проводились на 6 open-weight моделях от 9B до 122B параметров, более 1,200 экспериментов суммарно. Это масштабное исследование: каждый из 21 метода тестировался на каждой модели в каждой среде.
Главный результат: простые промпты побеждают
Вывод, который удивил авторов: простое промптирование (direct prompting и ranking) стабильно превосходит более сложные методы плотного контроля из литературы.
Code-based методы хорошо работают в структурированных средах (FrozenLake, частично ALFWorld), но слабеют в открытых (TerminalBench, OpenApps). Это логично: когда action space ограничен и результат действия предсказуем, сгенерированный код может дать точную оценку. Но когда действие — это произвольный shell command с непредсказуемым результатом, код не может надёжно оценить его качество.
Добавление сложности внутри семейства редко помогает. direct-16 против direct-single, direct-batched против direct-single, direct-sequential против direct-batched — дополнительные техники редко дают статистически значимое улучшение Q-alignment. Это важно: инженеры часто тратят месяцы на интеграцию сложных методов, ожидая пропорционального улучшения. QVal показывает, что это не так.
Результаты кластеризуются по семейству методов: внутри одного семейства вариация мала, но между семействами — значительна. Это означает, что фундаментальный выбор семейства важнее, чем микрооптимизация внутри семейства.
Отдельный интересный факт: текстовые наблюдения дают более сильную корреляцию с Q-значениями, чем визуальные. Это объяснимо — LLM исторически сильнее в работе с текстом. Визуальные рассуждения требуют дополнительных способностей (визуальное понимание, пространственные отношения), которые не всегда коррелируют с качеством действий.
Добавление privileged информации (следующее состояние, экспертное действие, итог траектории) в self-distillation методах ожидаемо улучшает результаты, но даже оракульный sdpo-gt не всегда побеждает простые промпты. Это говорит о том, что главный bottleneck не в информации, а в способности модели эту информацию правильно интерпретировать. Модель может видеть идеальную траекторию и всё равно не научиться её воспроизводить.
Практические выводы для инженеров
Для инженеров, которые проектируют агентные системы, QVal даёт важный ориентир: не стоит автоматически выбирать сложный метод плотного контроля. Простой direct prompt с правильной формулировкой вопроса может дать лучший сигнал, чем месяцы, потраченные на интеграцию метода из latest paper.
Как сформулировать хороший direct prompt? QVal не даёт прямого ответа, но даёт фреймворк: если вы хотите оценить действие, спросите модель напрямую, а не пытайтесь вывести оценку через побочные сигналы. Например: "On a scale of 1-10, how good is this action for achieving the goal?" работает лучше, чем измерение embedding distance между текущим и желаемым состоянием.
Q-alignment — это cheap early indicator, а не гарантия итогового training success. Сигнал с высоким Q-alignment с большей вероятностью даст хороший результат при тренировке, но это не гарантия. Тем не менее, если метод показывает плохую корреляцию на QVal, маловероятно, что он резко улучшится в пайплайне тренировки.
Для исследователей QVal предлагает стандартную базу для сравнения: новый метод достаточно implementовать в QVal-фреймворк и получить direct comparison со всеми 21 методами на 4 средах без запуска тренировки.
Архитектура фреймворка: почему QVal сделан так
Фреймворк спроектирован вокруг простой идеи: изолировать качество сигнала от качества пайплайна тренировки. Это достигается через три компонента.
Первый — фиксированные датасеты. QVal-v1.0 поставляется с готовыми размеченными state-action pairs для каждой среды. Reference Q-значения вычисляются один раз, при создании датасета. Все методы оцениваются на одних и тех же данных.
Второй — единая метрика. Spearman's ρ измеряет корреляцию рангов между предсказанными оценками метода и эталонными Q-значениями. Это работает для любого метода, независимо от того, выдаёт он абсолютные значения, распределение вероятностей, or permutation.
Третий — extensibility. QVal спроектирован для расширения: можно добавить новую среду (нужно написать environment adapter и собрать датасет), новый метод (нужно реализовать функцию scoring), новую модель (поддерживаются любые модели с text API).
Ограничения и что дальше
QVal-v1.0 — это первый релиз, и авторы честно описывают ограничения.
Q-alignment измеряет корреляцию рангов, но не capture все аспекты полезности сигнала. Сигнал может иметь хорошую корреляцию, но при этом давать слишком узкий или слишком широкий диапазон значений для effective training. Training stability и gradient magnitude зависят от абсолютных значений, not just order.
Reference policy — это не истинно оптимальная политика для сложных сред. Особенно это касается TerminalBench, где оптимум ищется через MVMC rollouts. GPT-5.5 даёт strong baseline, но это не гарантирует, что все rank-orderings оптимальны. Это осознанный trade-off: без reference policy невозможно вычислить Q-значения, а perfect reference policy недостижима для интересных задач.
QVal измеряет QQ-alignment, но плотный контроль используется не только для тренировки policy. Сигналы также могут guiding search at test time — tree search, MCTS-style rollouts. Для этих применений Q-alignment тоже релевантен, но не покрывает все случаи.
Авторы обещают расширять QVal по мере появления новых агентных бенчмарков. Также планируется поддержка additional metrics beyond rank correlation — например, calibration analysis.
Итог
QVal решает важную проблему: отсутствие общего языка для сравнения методов плотного контроля. Вместо того чтобы каждый автор claimed улучшение в собственном пайплайне, теперь можно сравнить методы на common ground.
Главный практический вывод: начинайте с простого промптинга. Direct prompting и ranking стабильно работают лучше, чем сложные методы из literature. Это не означает, что сложные методы never worth it — но они требуют значительных инженерных затрат, и QVal позволяет cheap отсечь заранее те, которые не дают преимущества в самом сигнале.
Для инженера это означает: не усложняйте без необходимости. Если у вас есть задача с dense supervision — попробуйте простой direct prompt, измерьте его Q-alignment через QVal, и только если результат недостаточен, переходите к более сложным методам. Высокая вероятность, что простой подход окажется лучшим.
QVal-v1.0: 21 метод, 4 среды, 1,200+ экспериментов, 6 моделей от 9B до 122B. Код и данные открыты на GitHub.