Scaling Agent Horizon: как 35B MoE догоняет триллион параметров

Scaling Agent Horizon: как 35B MoE догоняет триллион параметров

Больше параметров — лучше агент. Это аксиома, которая держалась последние два года. GPT-5.5 с триллионом параметров, DeepSeek-V4-Pro, Kimi-K2.6 — все они доминировали бенчмарки именно за счёт масштаба. Но новая работа из Национального университета Сингапура (NUS) и Сингапурского технологического университета (SUTD) предлагает принципиально другой путь: масштабировать не модель, а горизонт агента — глубину цепочек рассуждений и планирования.

Модель называется Agents-A1. Это 35-миллиардная Mixture-of-Experts (MoE) модель, которая достигает уровня триллион-параметровых систем на задачах долгосрочного планирования. На бенчмарке SEAL-0 она набирает 56.4 балла, на IFBench — 80.6, на HiPhO — 46.4, на FrontierScience-Olympiad — 79.0, на MolBench-Bind — 56.8. Все это — результат против моделей на порядок больших.

Что такое агентный горизонт

Когда LLM-агент решает сложную задачу — допустим, провести вычислительный эксперимент за 12 часов или проанализировать геологические данные целого континента — он проходит через цепочку действий: извлёк данные, написал код, запустил модель, интерпретировал результат, адаптировал подход. Каждое звено этой цепи добавляет горизонт — глубину, на которую агент может «заглянуть» в будущее.

Традиционный подход масштабирует ширину модели: больше параметров, больше вычислений на каждый токен. Агенты с большим числом параметров действительно показывают лучшие результаты — потому что у них больше ёмкость для запоминания фактов, паттернов и стратегий.

Agents-A1 масштабирует глубину — способность удерживать длинные горизонты планирования, понимать последствия действий на много шагов вперёд и адаптировать стратегию по ходу выполнения. Вместо «какой следующий токен» модель учится отвечать на вопрос «какой будет правильный план на 50 шагов вперёд, и как его корректировать по дороге».

Архитектура: MoE и четыре доменных учителя

В основе Agents-A1 — Qwen3.5-35B-A3B как базовая модель. Это 35 миллиардов параметров, но благодаря Mixture-of-Experts активируется только часть из них для каждого токена. Преимущество MoE: ёмкость большой модели при стоимости инференса значительно меньшей.

Поверх MoE построена система четырёх доменно-специализированных учителей:

  • Поисковый учитель генерирует траектории для задач типа «найти информацию, оценить релевантность, извлечь данные». Основа — Knowledge-Action Graph, граф, где узлы — атомарные способности (ability), а рёбра — переходы между состояниями при выполнении действий.

  • ML-инженерный учитель создаёт данные для задач проектирования архитектур, написания пайплайнов обучения, подбора гиперпараметров. Это то, что раньше делали исследователи вручную, а теперь модель учится делать автономно.

  • Научный учитель работает с цепочками рассуждений в физике, химии, биологии. Chain-of-thought решения научных и математических задач, включая использование научных вычислений.

  • Инструментальный учитель обучает вызову внешних API: поиск по базам, выполнение кода, обращение к специализированным сервисам. Каждый вызов — осознанное действие с оценкой результата.

Каждый учитель генерирует данные через self-play graph search — модель взаимодействует с симулированной средой, строит граф знание-действие и расширяет его через поиск. Это позволяет создавать высококачественные траектории агентского поведения, которые невозможно получить из статичных датасетов.

Трёхэтапный рецепт обучения

Первая стадия: Reasoning-Enhanced SFT. Модель дообучается на траекториях научных рассуждений без использования инструментов. Цель — усилить внутреннюю глубину рассуждений, способность выстраивать длинные цепочки логических выводов. Это база: если модель не умеет рассуждать на уровне учёного, никакие инструменты не помогут.

Вторая стадия: Tool-Augmented SFT. К уже сильному рассуждению добавляются инструменты: поиск по базам данных, выполнение кода, использование API. Модель учится не просто рассуждать, а действовать — комбинировать рассуждение с внешними ресурсами. Ключевое отличие от первой стадии: здесь появляется обратная связь от реального мира, не только от ground-truth ответов.

Третья стадия: Multi-teacher On-Policy Distillation. Четыре доменных учителя одновременно генерируют траектории, а студент — Agents-A1 — учится у всех сразу. On-policy означает, что учителя оценивают студента на его собственных траекториях, а не на заранее собранных данных. Ключевой элемент — Salient Vocabulary Alignment: при передаче знаний между учителем и студентом выравниваются не только семантические представления, но и специфическая терминология каждого домена. Физики, биологи и ML-инженеры используют разный язык — модель учится говорить на всех.

Почему это важно сейчас

Триллион-параметровые модели требуют колоссальных вычислительных ресурсов. GPT-5.5 и DeepSeek-V4-Pro работают на кластерах с тысячами GPU, стоимость одного запуска обучения исчисляется десятками миллионов долларов. Agents-A1 с 35 миллиардами параметров работает на значительно меньших ресурсах — а по производительности не уступает.

Для индустрии это переворот: компании смогут разворачивать агенты уровня frontier на своём железе, без зависимости от облачных API с миллиардными моделями. Agent horizon scaling — практический путь к демократизации мощных агентских систем.

Результат на IFBench — 80.6 баллов — это не просто цифра. Это означает, что 35-миллиардная модель понимает сложные инструкции и следует им не хуже, чем модели на порядок большие. IFBench измеряет способность следовать сложным многошаговым инструкциям: агент получает задание вроде «найди все статьи по теме X за 2024 год, извлеки из них данные об A и B, построй график, сохрани в формате Y» — и должен выполнить всё от начала до конца без уточнений. Большинство моделей ломаются на третьем шаге. Agents-A1 проходит.

FrontierScience-Olympiad — 79.0 — ещё показательнее. Это олимпиадные задачи по естественным наукам, которые требуют и понимания формул, и многошаговых рассуждений, и проверки промежуточных результатов. Физика, химия, биология — каждая дисциплина со своей логикой и спецификой. Модель уровня 79.0 из 100 — это уровень хорошего студента старших курсов, способного на самостоятельное решение.

Разбор бенчмарков: что именно измеряется

SEAL-0 (56.4) тестирует долгосрочное планирование в симулированных средах. Агент получает задачу вроде «приготовь кофе» в среде ALFWorld — и должен спланировать последовательность из 15–20 действий: открыть шкаф, найти чашку, налить воду, и т.д. Каждое действие меняет состояние среды, и ошибка в начале цепочки делает финальный результат недостижимым. SEAL-0 измеряет именно это: способность планировать на много шагов вперёд.

HiPhO (46.4) — это бенчмарк для научных рассуждений в физике. Модели даётся описание эксперимента с данными, и она должна предсказать результат или объяснить аномалию. В отличие от простого «реши задачу», HiPhO проверяет способность к научному мышлению: выдвинуть гипотезу, проверить её на данных, скорректировать.

MolBench-Bind (56.8) тестирует применение в биологии — specifically, предсказание взаимодействия молекул. Это критически важная задача для drug discovery: нужно понять, как молекула-кандидат свяжется с белком-мишенью, и предсказать это заранее без дорогих лабораторных экспериментов. Agents-A1 показывает 56.8 — конкурентный результат для вычислительного предсказания.

Все пять бенчмарков — это разные типы задач: планирование, следование инструкциям, наука, олимпиадные задачи, биология. Универсальность результатов — не на одном бенчмарке, а на всех пяти — говорит о том, что подход масштабирования агентного горизонта работает не как случайный выигрыш, а как фундаментальное улучшение способностей.

12-часовой эксперимент: замкнутый цикл в Earth Science

Финальная проверка — 12-часовой цикл оптимизации в Earth Science. Agents-A1 получает данные спутниковой съёмки, самостоятельно формулирует гипотезы, генерирует код для анализа, запускает модели, интерпретирует результаты и адаптирует следующий шаг — всё это без вмешательства человека. Замкнутый цикл, где агент управляет процессом от начала до конца.

Что это значит практически: типичный учёный, работающий с геоданными, тратит значительную часть времени на рутинные операции — скачать данные, перевести в нужный формат, запустить модель, визуализировать результат, сравнить с предыдущими запусками. Agents-A1 автоматизирует весь этот цикл: утром запускается задача, вечером получается отчёт с визуализациями и интерпретацией. Это не замена учёного — это замена времени, которое учёный тратил бы на техническую рутину.

Второй кейс из статьи — анализ Earth Science — это не игрушечный пример. Спутниковые данные о поверхности Земли собираются постоянно, и их объём растёт экспоненциально. Ручной анализ невозможен физически. Agents-A1 показывает, что агентный горизонт позволяет закрыть этот разрыв: модель масштаба 35B может автономно обрабатывать данные за десятки часов, выдавая результат, который раньше требовал команды аналитиков.

Это демонстрирует главное: agent horizon scaling — масштабирование горизонта агента — это не теоретическая идея, а практический подход к созданию автономных систем, способных на многочасовую работу с минимальным контролем. Ключевое слово — «минимальным»: полностью автономный агент всё ещё фантазия, но Agents-A1 показывает, что горизонт автономии можно масштабировать иначе, чем просто добавляя параметры.

Ограничения и что дальше

Авторы честно указывают на слабые стороны. Качество сильно зависит от доменного учителя: если в домене мало качественных данных для дистилляции — страдает и студент. Кроме того, пайплайн обучения сложнее стандартного SFT и требует значительной инфраструктуры для self-play graph search.

Но направление задано. Следующий шаг — масштабирование до больших базовых моделей. NUS и SUTD уже анонсировали Agents-A2 на базе 70B. Логика понятна: если 35B с правильным рецептом обгоняет триллион, то 70B с тем же рецептом должны значительно превзойти все существующие модели.

FAQ

Почему выбран Qwen3.5-35B-A3B как база? Qwen3.5-35B — это точка, где MoE-архитектура начинает эффективно работать: достаточно параметров для доменной специализации, но не настолько много, чтобы требовать massive-кластеров для инференса. Выбор между 7B, 35B и 70B — это всегда компромисс между ёмкостью и стоимостью. 35B оказался оптимальной точкой на кривой «качество/стоимость» для данного подхода.

Чем это отличается от традиционного MoE? Стандартный MoE маршрутизирует токены между экспертами по типу контента. Agents-A1 использует доменную маршрутизацию на уровне задач: поисковые задачи идут к учителю поиска, научные — к учителю науки, ML-инженерные — к своему учителю. Это надстройка над MoE, а не замена: сама база остаётся MoE, но поверх добавляется семантическая маршрутизация.

Можно ли повторить результаты? Авторы не выложили код, но описали архитектуру и пайплайн достаточно подробно. Основные компоненты: Qwen3.5-35B-A3B, Knowledge-Action Graph, self-play search, multi-teacher distillation — всё это реализуемо с открытыми инструментами. Главное узкое место — вычислительные ресурсы для self-play поиска по графу, который требует тысячи симуляций для каждого домена.

Что такое Knowledge-Action Graph? Knowledge-Action Graph (KAG) — это структура данных, где узлы представляют атомарные способности (ability), а рёбра — переходы между состояниями при выполнении действий. Например: способность «извлечь данные из CSV» связана с «очистить данные» и «вызвать модель предсказания». KAG строится автоматически через self-play: модель пробует действия, фиксирует результаты, добавляет рёбра в граф.

Итог

Agents-A1 доказывает, что будущее агентских систем — не в бесконечном наращивании параметров. Качество агента определяется глубиной рассуждений, качеством доменной специализации и способностью удерживать длинный горизонт планирования. 35 миллиардов параметров с правильным обучением могут обходить триллион — и это меняет экономику AI-агентов кардинально.

Когда 35B модель набирает 80.6 на IFBench и 79.0 на FrontierScience-Olympiad, вопрос «нужен ли мне триллион параметров» перестаёт быть риторическим. Ответ — нет, не нужен. Нужна правильная архитектура и правильное обучение.

Оригинал: Scaling the Horizon, Not the Parameters, NUS & SUTD, 29 июня 2026.

← Все записи