AgentGrounder: как ИИ-агент находит объекты в 3D-сцене без обучения

AgentGrounder: как ИИ-агент находит объекты в 3D-сцене без обучения

Робот получает команду: «подними белую фарфоровую раковину рядом со стойкой». В комнате десятки объектов, некоторые похожи, некоторые скрыты за углом, а формулировка «рядом со стойкой» зависит от точки обзора. До недавнего времени машины решали эту задачу двумя способами: либо обучались на тысячах размеченных сцен, либо просто не справлялись. В мае 2026 исследователи представили AgentGrounder — систему, которая решает такие запросы без обучения, используя агентный подход с инструментами: планирование, семантический поиск, геометрический расчёт и рендеринг.

Результат — 41.9 Acc@0.5 на ScanRefer в zero-shot режиме, что на 2.5 процентных пункта выше ближайшего аналога SeeGround и вдвое превосходит supervised-бейзлайны в категории сложных запросов. Но цифры — не главное. Главное в том, как система думает: она не угадывает, а рассуждает.

Что такое 3D-визуальный grounding и почему это сложно

3D Visual Grounding (3DVG) — это способность машины локализовать объект в трёхмерной сцене по текстовому описанию. Если 2D- grounding ограничен плоскостью кадра, то 3D-версия работает с объёмом: объекты имеют глубину, могут быть скрыты друг за другом, а пространственные отношения вроде «слева» или «позади» зависят от точки наблюдения. Задача усложняется, когда в сцене несколько объектов одного класса — например, три стула за столом — и запрос требует выбрать именно тот, что «ближе к окну».

Существующие подходы делятся на два лагеря. Supervised-методы обучаются на параллельных корпусах сцен и описаний, достигая высокой точности, но требуя дорогой разметки. Zero-shot-методы, напротив, не обучаются на целевых данных, но до сих пор отставали по качеству. AgentGrounder занимает нишу zero-shot, но благодаря агентной архитектуре сужает разрыв с supervised-решениями.

Как устроен AgentGrounder

Система работает в два этапа. На этапе подготовки сцена проходит через 3D-instance сегментацию — нейросеть Mask3D разбивает point cloud на отдельные объекты, присваивает каждому семантическую метку и строит 3D-бounding box. Результат сохраняется в Object Lookup Table (OLT) — таблицу, где каждый объект имеет идентификатор, метку класса, центр координат и размеры коробки. Это единственное, что делается заранее; всё остальное происходит во время запроса.

Когда поступает запрос вроде «белая раковина рядом со стойкой», агент выполняет четыре операции последовательно. Первое — планирование: большая мультимодальная модель (LVLM) разбирает запрос на составляющие, выделяя семантические якоря (раковина, стойка) и пространственные ограничения (рядом). Второе — ретривал: агент ищет в OLT объекты, чьи метки совпадают с якорями. Если метки не совпадают дословно — например, пользователь сказал «доска», а в таблице только «телевизор» — агент делает fallback на ближайшую семантическую категорию по контексту.

Третье — геометрический scoring: для каждого кандидата агент вычисляет пространственные отношения с опорными объектами. Расстояние считается как евклидова норма между центрами, направления вроде «слева» или «справа» определяются по проекции на горизонтальную плоскость с учётом точки обзора, а размеры проверяются через габариты bounding box. Всё это детерминировано — нейросеть здесь не участвует, работают формулы.

Четвёртое — рендеринг для разрешения неоднозначности: если запрос зависит от точки зрения — «когда смотришь на дверь, справа» — агент вызывает инструмент рендеринга, который генерирует изображение сцены с нужной позиции, и анализирует его визуально. Это позволяет различать объекты, которые геометрически эквивалентны, но визуально различимы с конкретной точки. После всех этапов агент возвращает идентификатор объекта, его bounding box и текстовое обоснование — почему выбран именно этот вариант.

Почему агентный подход побеждает end-to-end модели

End-to-end нейросети для 3DVG обучаются предсказывать bounding box напрямую из текста и сцены. Они хороши для простых запросов, но ломаются на составных описаниях, где нужно связать несколько ограничений. Проблема в том, что такие модели неявно кодируют пространственные отношения в весах, и когда запрос выходит за рамки обучающего распределения — например, содержит редкое сочетание «высокий узкий шкаф под лестницей» — модель начинает угадывать. Это особенно критично для робототехники, где запросы приходят от людей, а люди формулируют их непредсказуемо: один скажет «ближайший к дивану», другой — «тот, что за журнальным столиком», третий — «красный, не бордовый».

AgentGrounder разбивает задачу на явные шаги, каждый из которых интерпретируем. Геометрический scoring не угадывает «рядом», а вычисляет расстояние в метрах. Рендеринг не предполагает «справа», а генерирует вид и проверяет. Это делает систему предсказуемой: если запрос корректен и сцена правильно сегментирована, результат воспроизводим. Для робототехники, где ошибка в локализации объекта может означать столкновение или падение, предсказуемость важнее пары процентов на бенчмарке.

Абляционное исследование подтверждает вклад каждого компонента. На подвыборке Nr3D из 120 запросов базовый ретривал даёт 40.0 Acc@0.5. Добавление геометрического scoring поднимает результат до 45.0 — рост на 5 пунктов. Добавление планирования даёт ещё 1.7 пункта, а рендеринг — ещё 2.5. Полный pipeline достигает 50.0. Интересно, что рендеринг в одиночку (без планирования) даёт 47.5 — выше, чем планирование без рендеринга (46.7). Это говорит о том, что визуальное разрешение неоднозначности критично для сложных сцен.

Результаты на бенчмарках

Основное сравнение проводилось на двух стандартных датасетах: ScanRefer и Nr3D. ScanRefer содержит естественные описания объектов в сценах ScanNet, а Nr3D — запросы из диалогов, где объекты часто описываются относительно друг друга. Оба датасета разделяют запросы на простые (Unique — один объект класса в сцене) и сложные (Multiple — несколько объектов одного класса, требуется дизамбигуация).

На ScanRefer AgentGrounder достигает 41.9 Acc@0.5 в целом, превосходя SeeGround (39.4) на 2.5 пункта. В категории Unique разрыв больше: 73.7 против 68.9 — разница в 4.8 пункта. Это показывает, что система особенно сильна, когда запрос однозначен, но требует точного пространственного позиционирования. В категории Multiple прирост скромнее — 25.2 против 24.2 — потому что дизамбигуация между похожими объектами остаётся сложной задачей даже для агентного подхода. Для сравнения, лучшие supervised-методы вроде GPT4Scene достигают 57.0 Acc@0.5 в целом, но требуют обучения на размеченных данных и используют 7-миллиардные модели вроде Qwen2-VL. AgentGrounder работает без дообучения и с меньшими вычислительными затратами на этапе запроса.

На Nr3D картина ещё интереснее. AgentGrounder набирает 50.0 в целом, превосходя VLM-Grounder (48.0) на 2 пункта. Но в категории Easy — простые запросы с явными пространственными указаниями — разрыв огромен: 65.5 против 55.2, или +10.3 пункта. Это прямое следствие детерминированного геометрического scoring: когда запрос содержит «ближайший», «самый большой» или «слева от», формулы работают точнее, чем эвристики end-to-end модели. В категории Hard AgentGrounder уступает VLM-Grounder (35.5 против 39.5), что указывает на предел текущей архитектуры: когда запросы требуют сложного семантического вывода или многоходового рассуждения, агент с фиксированным набором инструментов теряет гибкость.

Где это применяется и что дальше

Прямое применение — робототехника. Складские роботы, которые должны найти «коробку с красной этикеткой на второй полке слева», домашние ассистенты, получающие команды вроде «принеси книгу с журнальным столика у дивана», и промышленные манипуляторы, работающие с неструктурированными средами — всё это требует 3D-визуального grounding. Zero-shot подход снимает ключевое ограничение: не нужно переобучать систему под каждый новый склад или квартиру.

Но есть и более широкий контекст. AgentGrounder демонстрирует, что агентные архитектуры с явным планированием и инструментами могут конкурировать с end-to-end нейросетями в задачах компьютерного зрения. Это расширяет спектр применимости агентных подходов за пределы текстовых задач и кодинга, где они уже показали себя. Если тенденция сохранится, мы увидим гибридные системы, где нейросети отвечают за семантику и генерацию, а детерминированные модули — за геометрию, физику и логику.

Ограничения тоже очевидны. Система зависит от качества 3D-сегментации: если Mask3D ошибочно объединяет два объекта или присваивает неверную метку, агент не исправит это. Рендеринг требует вычислительных ресурсов и добавляет latency. И самое главное — агент не обучается на ошибках: если он выбирает неправильный объект, нет механизма корректировки весов для следующего запроса. Будущие версии, вероятно, добавят обучение с подкреплением на уровне выбора инструментов или параметров scoring. Это открывает вопрос о том, какой баланс между явной логикой и обучаемостью оптимален: слишком много жёстких правил — система ломается на edge cases, слишком много нейросетей — теряется интерпретируемость.

Часто задаваемые вопросы

Чем AgentGrounder отличается от обычных 3D-детекторов?

Обычные детекторы ищут объекты по классу — «найди все стулья». AgentGrounder понимает сложные текстовые запросы с пространственными отношениями — «стул у окна, но не тот, что за шторой». Это разница между классификацией и рассуждением.

Зачем нужен рендеринг, если есть геометрический scoring?

Геометрия не учитывает точку зрения. «Справа от двери» означает разное, если вы стоите в коридоре или в комнате. Рендеринг генерирует вид с нужной позиции и позволяет разрешить такую неоднозначность визуально, а не вычислительно.

Можно ли использовать AgentGrounder без GPU?

Сегментация Mask3D и рендеринг требуют GPU, но сам агентный pipeline — планирование, поиск по таблице, геометрический scoring — работает на CPU за миллисекунды. Для приложений с заранее построенными OLT можно обойтись без GPU на этапе инференса.

Итог

AgentGrounder — это не просто очередная модель для 3D-визуального grounding. Это демонстрация того, что агентный подход с явным разделением на планирование, ретривал, геометрический расчёт и визуальную верификацию может работать в zero-shot режиме и превосходить end-to-end решения на реальных бенчмарках. 41.9 Acc@0.5 на ScanRefer и 50.0 на Nr3D — цифры, которые открывают путь к роботам, понимающим естественный язык без переобучения под каждую среду. Если вы строите систему, где машина должна взаимодействовать с физическим миром по текстовым командам — это архитектура, на которую стоит смотреть. Попробуйте сформулировать одну команду, которую вы бы дали роботу у себя дома, и подумайте: сколько шагов рассуждения она требует? Сколько из них вы бы доверили нейросети, а сколько — жёсткой логике? Ответ на этот вопрос — ключ к пониманию, почему агентные системы вроде AgentGrounder меняют правила игры.

← Все записи