VGGT-Ω: как нейросеть за один проход строит 3D-сцены лучше COLMAP

VGGT-Ω: как нейросеть за один проход строит 3D-сцены лучше COLMAP

Что если трёхмерную сцену можно восстановить не за минуты итеративной оптимизации, а за доли секунды одним проходом нейросети? Команда Visual Geometry Group из Оксфорда совместно с Meta AI показала, что feed-forward реконструкция не просто догоняет классические pipeline вроде COLMAP — она обгоняет их по точности, устойчивости и скорости, причём масштабирование модели и данных улучшает результат предсказуемо и монотонно. Статья VGGT-Ω принята на CVPR 2026 как Oral — и это не случайность.

Что такое feed-forward 3D-реконструкция

Традиционные системы структуры из движения (SfM), такие как COLMAP, решают задачу восстановления геометрии через итеративную оптимизацию: находят ключевые точки, сопоставляют их между кадрами, минимизируют репроекционную ошибку. Это надёжно, но медленно и хрупко — шум, динамические объекты или широкая база между камерами часто ломают pipeline.

Feed-forward модели, напротив, выдают параметры камер и карты глубины напрямую из пикселей, без промежуточной оптимизации. Предшественник VGGT доказал, что такой подход конкурентоспособен, а его внутренние токены оказались полезными для робототехники, языковых моделей и других задач пространственного понимания. VGGT-Ω идёт дальше — и показывает, что реконструкция может быть масштабируемым proxy-task для обучения универсальных пространственных представлений.

Три ключевых изменения в архитектуре

Первая инновация — register attention. В оригинальном VGGT глобальное внимание между всеми токенами всех кадров сжирало память и вычисления. Авторы заметили, что attention-матрицы на промежуточных слоях крайне разрежены — большинство информационного обмена идёт через небольшое число токенов. VGGT-Ω вводит шестнадцать learnable регистров (scene tokens) на каждый кадр, которые агрегируют глобальную информацию о сцене. В части слоёв межкадровый обмен ограничивается исключительно этими регистрами, а затем они распределяют информацию внутри кадра через frame attention. Это создаёт бутылочное горлышко, которое вынуждает модель компактно кодировать сцену.

Вторая оптимизация — отказ от дорогих высокоразрешённых свёрточных слоёв в пользу единого dense prediction head с multi-task supervision. Вместо отдельных голов для точек, глубины и камер теперь один lightweight head предсказывает всё сразу. Это упрощает архитектуру и ускоряет инференс.

Третья — инициализация DINOv3 вместо DINOv2 с увеличением patch size с 14 до 16. Казалось бы, мелочь, но это даёт 20–25% прироста скорости без потери точности, поскольку меньше токенов обрабатывается на каждом слое.

В совокупности эти изменения снижают потребление GPU-памяти при обучении примерно до 30% от уровня предшественника. Освободившиеся ресурсы позволили авторам обучать модель на 15 раз большем объёме размеченных данных — 2 миллиона последовательностей вместо 130 тысяч — и дополнительно использовать 18 миллионов неразмеченных видео через self-supervised teacher-student протокол.

Масштабирование: от 200 миллионов до 10 миллиардов параметров

Авторы обучили четыре варианта модели: 200M, 500M, 1B и 10B параметров. Результат оказался удивительно предсказуемым — по мере роста модели и данных точность реконструкции улучшалась монотонно. При масштабировании данных от 2 тысяч до 2 миллионов последовательностей ошибка 3D-точек падает с 0,275 до 0,073. При масштабировании модели от 0,2B до 10B параметров на том же объёме данных ошибка снижается с 0,107 до 0,046. Это важный сигнал для сообщества: в 3D-зрении, как и в NLP, scaling laws работают, и фундаментальные представления можно извлекать через масштабирование.

Обучение 10B-модели потребовало 128 GPU H100 с 96 ГБ памяти каждая, bfloat16 смешанной точности и 240 тысяч итераций: 160K supervised, 50K self-supervised и финальные 30K supervised с косинусным затуханием learning rate.

Цифры: насколько лучше предшественников

На динамическом бенчмарке Sintel, где сцены содержат движущиеся объекты и сложную геометрию, VGGT-Ω достигает AUC@3° 40,0 против 22,5 у лучшего предыдущего feed-forward метода — улучшение на 77%. При мягком пороге AUC@30° преимущество составляет 35% (79,1 против 58,3). Для глубины метрика δ1.25 выросла с 74,1 до 93,5 — на 26%.

Интереснее сравнение с оптимизационными методами. MegaSaM, текущий лидер среди динамических реконструкторов, на строгом пороге Sintel показывает AUC@3° 22,5 — VGGT-Ω обгоняет и его. При этом MegaSaM требует итеративной оптимизации и работает в 50 раз медленнее. На статических широкобазовых сценах ETH3D динамические оптимизаторы деградируют катастрофически: AUC@30° падает до 38,1 против 86,4 у VGGT-Ω. Feed-forward модель оказывается единственным подходом, который доминирует и в статике, и в динамике.

По памяти и скорости VGGT-Ω обрабатывает 1000 кадров на одном A100 80 ГБ, в то время как Depth Anything 3 Giant (1B) исчерпывает память уже на 750 кадрах. При полной замене глобального внимания на register attention время инференса 1000 кадров падает с 240 до 11,7 секунд.

Регистры — это не вспомогательный мусор, а пространственные знания

Ключевое открытие работы: scene tokens, которые обычно выбрасываются после инференса, несут в себе обобщённую пространственную информацию, применимую далеко за пределами реконструкции.

В экспериментах по robotics авторам взяли модель OpenVLA-OFT — vision-language-action систему для управления манипуляторами — и просто добавили к её входу замороженные scene tokens из VGGT-Ω. Никакого fine-tuning'a самой реконструкционной модели. Результат: success rate на бенчмарке LIBERO вырос с 95,2–97,1% до 98,5% across all tasks. Геометрическая информация, извлечённая из реконструкции, напрямую улучшает планирование действий робота.

Ещё более впечатляющий результат — language alignment. Авторы попросили VLM описать сцену словами, а затем сопоставили текстовое embedding с scene tokens через cosine similarity. Top-1 accuracy составила 76,8%, top-3 — 97,0%. То есть для почти всех сцен правильное языковое описание попадало в тройку лучших кандидатов. В zero-shot transfer, когда текстовое описание подавалось в Qwen3 LLM без какого-либо обучения на видео, top-1 accuracy оставалась на уровне 47,5%. Это означает, что регистры кодируют не просто геометрию, а высокоуровневую семантику сцены — расположение объектов, контекст, пространственные отношения.

Самонаблюдение и motion-aware представления

Self-supervised протокол, вдохновлённый DINO, использует teacher-student дистилляцию: student обучается предсказывать выход teacher под разными аугментациями и перестановками кадров, а teacher обновляется экспоненциальным скользящим средним (decay 0,999). Замороженные головы камеры и глубины предотвращают коллапс представлений. Замена 10% supervised шагов self-supervised снизила point error с 0,073 до 0,070 — скромно, но стабильно.

При анализе внутренних активаций через PCA и k-means кластеризацию выяснилось, что одна из кластеров последовательно отслеживает движущегося человека на видео, отделяя его от статичного фона — без каких-либо меток движения или optical flow. Модель сама научилась motion-aware представлениям исключительно из задачи реконструкции.

Почему это важно за пределами компьютерного зрения

VGGT-Ω демонстрирует три принципа, которые скоро станут нормой во всей AI-индустрии.

Первое — reconstruction как scalable proxy task. Если реконструкция сцены из видео масштабируется до 10B параметров и 20M+ примеров с предсказуемым ростом качества, значит пространственное понимание можно извлекать так же, как языковое — через предобучение на огромных неразмеченных данных. Это открывает путь к фундаментальным spatial foundation models.

Второе — register attention как универсальный приём для мультимодальных моделей. Идея ограничить межкадровый (или межмодальный) обмен компактным набором агрегирующих токенов применима не только к 3D-зрению, но и к видео-LLM, к мультимодальным агентам, к world models. Меньше памяти, быстрее инференс, лучше интерпретируемость.

Третье — геометрия и язык сходятся. Тот факт, что scene tokens напрямую выравниваются с языковыми описаниями, подтверждает гипотезу о едином пространственно-семантическом представлении. Для embodied AI это означает, что роботы смогут связывать verbal instructions с физическим миром через shared representations, обученные на реконструкции.

Часто задаваемые вопросы

Чем VGGT-Ω лучше COLMAP?

COLMAP требует итеративной оптимизации и ломается на динамических сценах или широких базах. VGGT-Ω работает за один проход нейросети, в 50 раз быстрее, устойчив к движению и превосходит по точности на всех бенчмарках — включая те, где COLMAP и его successors традиционно сильны.

Можно ли использовать VGGT-Ω для робототехники?

Да, и это одно из ключевых открытий работы. Замороженные scene tokens напрямую улучшают vision-language-action модели — например, OpenVLA-OFT показывает рост success rate на LIBERO с 97,1% до 98,5% без дообучения самой реконструкционной сети.

Сколько GPU нужно для инференса?

Модель 1B параметров обрабатывает 1000 кадров на одном A100 80 ГБ. 10B-вариант требует больше ресурсов, но даёт ещё более высокую точность. Для сравнения, Depth Anything 3 Giant (1B) исчерпывает память уже на 750 кадрах.

Итог

VGGT-Ω — это не просто улучшенный 3D-реконструктор. Это демонстрация того, что пространственное понимание подчиняется scaling laws, что компактные агрегирующие токены могут заменить дорогое глобальное внимание, и что реконструкция сцены — мощный proxy-task для обучения представлений, полезных в робототехнике, языковых моделях и embodied AI. С точностью на 77% выше предыдущего SOTA на Sintel, 50-кратным ускорением над оптимизационными методами и способностью к language alignment, эта модель задаёт новый стандарт для spatial foundation models. Код и веса уже доступны — проект ждёт тех, кто будет строить на этом фундаменте.

← Все записи
← Все записи