NeuROK: как модель научилась предсказывать движение объекта по одному снимку

NeuROK: как модель научилась предсказывать движение объекта по одному снимку

Покажите человеку мяч и попросите представить, как он отскочит от пола. Человек справится — интуитивное понимание физики есть у каждого. Современные генеративные модели так не умеют: чтобы предсказать движение ткани или деформацию мяча, им нужны либо физические симуляторы, либо видео с похожими объектами, либо экспертные знания о материале.

Исследователи из Stanford University, University of Cambridge и Cornell University назвали это ограничение точно — category-specific inductive bias. Существующие методы — PhysDreamer, OmniPhysGS, Pixie — работают только для своего типа объектов и не обобщаются. NeuROK, опубликованный в CVPR 2026, предлагает принципиально другой подход.

Что такое 4D dynamics и почему это сложно

Трёхмерный объект — это геометрия в конкретный момент времени. Четвёртое измерение — время, а 4D dynamics означает, как объект деформируется, двигается и взаимодействует с силами на протяжении последовательности моментов.

Задача кажется простой: взять стул, толкнуть его, посмотреть, как он упадёт. Но для модели это означает понимание инерции, упругости материалов, распределения массы, трения, constraints в соединениях — всего, что физики десятилетиями формализовали в виде уравнений.

Традиционный подход требует для каждого типа объектов своей физической модели. Для ткани — модель упругости и сопротивления изгибу. Для роботов — кинематика соединений. Для мягких тел — уравнения сплошной среды. Parameters либо задаются экспертами, либо идентифицируются через системную идентификацию — и то, и другое не масштабируется на произвольные объекты.

kinematic state parameterization — ключевая идея

В основе NeuROK лежит понятие kinematic state parameterization — пара (𝒵, ℱ), где 𝒵 это латентное пространство всех возможных состояний объекта, а ℱ это decoder, который отображает точку в этом пространстве в конфигурацию вершин объекта.

Если это стул — в пространстве лежат все возможные положения ножек, спинки, сиденья. Если ткань — все возможные складки и волны при разных типах деформации. Decoder берёт точку из этого пространства и «разворачивает» её в геометрию.

Mesh M₀ имеет n вершин, их координаты — вектор x₀ ∈ ℝ^(3n). Случайно сэмплированный deformation vector из ℝ^(3n) почти наверняка даст геометрию, далёкую от любого физически правдоподобного состояния. Эмпирически множество правдоподобных конфигураций динамического объекта образует low-dimensional configuration manifold 𝒱^(k_int) в ℝ^(3n), где k_int ≪ 3n — собственное число degrees of freedom.

Ключевое: один 3D-снимок объекта определяет entire kinematic state space. Модель не хранит физические параметры — она хранит латентное пространство возможных движений, специфичное для каждого объекта, но обучающееся на всём разнообразии типов.

Архитектура: conditional VAE с тремя моделями

NeuROK построен на conditional variational auto-encoder (CVAE) с тремя обучаемыми компонентами. Все три модели — transformer-based, что обеспечивает масштабируемость на large-scale датасеты.

Kinematic prior encoder E_cond(M₀) принимает conditioning input mesh M₀ и выдаёт параметры prior distribution p_𝒵(z) над латентным пространством. Для кодирования mesh поверхность равномерно сэмплируется (n_sample точек), затем используется position embedding из 3DShape2VecSet и perceiver-based архитектура с learnable tokens (codebook). Выход — нормальное распределение N(μ_cond, I).

Variational deformation encoder E_VAE(φ, M₀) принимает deformation field φ (поле смещений вершин) и conditional mesh M₀, выдаёт параметры posterior distribution q_𝒵(z | φ). Deformation field параметризуется через dual quaternions — это обеспечивает корректные rotation+translation без gimbal lock. Posterior моделируется как Gaussian N(μ_VAE, σ_VAE).

Deformation decoder D(z, M₀) берёт точку z из prior и декодирует в деформированный mesh. Query points сэмплируются с поверхности, K latent tokens используются для attention, предсказанные deformation vectors применяются к mesh vertices через averaging по K_drive ближайшим точкам.

Обучение проходит на paired frames из 4D-последовательностей: случайный instance → случайные два кадра с общей топологией → первый mesh как M₀, deformation между кадрами как δ_sample. Loss:

L = ||δ_sample - δ_pred||² + λ · D_KL(q_𝒵(z|φ) || p_𝒵(z))

где λ = 0.01. Reconstruction loss + KL divergence стандартны для VAE.

Dimension reduction: raw VAE latent space может быть высокоразмерным. NeuROK использует Active Subspace Method для сжатия 𝒵 ⊆ ℝ^k в更低мерное пространство Q ⊆ ℝ^(k_q), где k_q ≪ k. Метод находит subspace, который most influences predicted deformation — это и есть физически значимые directions в латентном пространстве.

Во время inference достаточно одного encoder E_cond: он кодирует объект в prior distribution → сэмплируется латентный вектор → декодер превращает его в геометрию. Никаких физических параметров на входе — только 3D-объект.

Lagrangian mechanics как inductive bias

Без физических constraints модели генерируют физически невозможные деформации: ткань проходит сквозь себя, твёрдые тела вздуваются без причины, энергия системы скачет без связи с приложенными силами.

NeuROK решает это через Lagrangian mechanics. Lagrangian L = T - V, где T — кинетическая энергия, V — потенциальная. Уравнения Эйлера-Лагранжа выводят динамику системы для произвольных координат. Это математически эквивалентно второму закону Ньютона, но работает с латентными координатами.

Энергия замкнутой системы сохраняется автоматически. Эксперименты подтверждают: при симуляции trajectory полная энергия остаётся приблизительно постоянной.

Для генерации temporal sequence NeuROK решает физически-вдохновлённое ODE в латентном пространстве: зная состояние сейчас и приложенную силу, ODE даёт производную, интегратор продвигает систему вперёд по времени. Каждый шаг — physically consistent.

Результаты: превосходство над специализированными методами

NeuROK тестировали на двух задачах: inverse kinematics и generative 4D simulation.

На inverse kinematics тестировали на PartNet-Mobility — стандартном бенчмарке с 25 категориями объектов. Метрики — Chamfer distance и IoU. NeuROK превосходит NeuralDeformationGraphs (NDG), CANOR и KeyPointDeformer (KPD) — модели, явно оптимизированные под конкретные представления (implicit representations, articulation structures).

На generative 4D simulation сравнивали с PhysDreamer, OmniPhysGS, Pixie и AnimateAnyMesh. Количественная оценка включает user study со 105 участниками, оценивающими action alignment и realism, плюс метрики из VBench и WorldScore. NeuROK показывает «most physically plausible and visually realistic 4D dynamics» — прямая цитата из статьи.

PhysDreamer дистиллит физические параметры из видео-моделей, OmniPhysGS использует material-aware Gaussians, Pixie опирается на amortized inference — все специализированы под свой domain. End-to-end метод (AnimateAnyMesh) страдает от отсутствия fine-grained контроля. NeuROK закрывает обе проблемы: physics-consistent и generalized одновременно.

Обобщение на новые категории

После обучения на определённых категориях NeuROK работает с объектами, которых никогда не видела. Эксперимент: модель, обученная только на PartNet-Mobility, успешно генерирует plausible dynamics для полностью новых категорий.

Это принципиальное отличие от специализированных методов: PhysDreamer работает только на ткани, для которой был обучен; OmniPhysGS — только на материалах из training set. NeuROK учит common dynamic structures и переносит их на unseen categories.

Реальные объекты без fine-tuning

Отдельный эксперимент — real scene simulation. Авторы сканируют реальную сцену (ноутбук на столе) и применяют NeuROK для симуляции динамики объектов. Модель успешно симулирует closing motion ноутбука — без дополнительной адаптации к геометрии сцены.

Это важно для practical applications: не нужно отдельного fine-tuning на каждый реальный объект. Модель, обученная на синтетических 3D-датасетах, переносится на реальный мир.

Что это значит для мира моделей

NeuROK демонстрирует, что physics priors можно заменить data-driven learning, если данные достаточно разнообразны и архитектура правильная. Lagrangian formulation — это inductive bias, встроенный в формулировку задачи, а не экспертные знания о конкретном материале.

Это имеет отношение к world models и embodied AI. Робот, который умеет предсказывать, как объект поведёт себя при контакте — без предварительного знания о материале — это на шаг ближе к обобщённому physical reasoning.

FAQ

Q: Чем NeuROK отличается от PhysDreamer? PhysDreamer дистиллит физические параметры из видео-моделей — нужен источник, который «понимает» физику из видео. NeuROK не требует ничего, кроме пар (объект → деформация). PhysDreamer специализирован на определённых материалах; NeuROK обобщается на категории, отсутствующие в обучении.

Q: Почему именно conditional VAE? VAE даёт два преимущества: (1) латентное пространство — естественное представление для «всего, что может произойти» с объектом; (2) вариационная формулировка позволяет decoder быть probabilistic, что важно для физически неоднозначных ситуаций — один и тот же объект может деформироваться по-разному при одних и тех же условиях.

Q: Зачем dual quaternions для deformation representation? Dual quaternions компактно кодируют rotation + translation как единую операцию, избегая gimbal lock проблемы углов Эйлера. Это standard representation в robotics и computer graphics для skeletal deformation.

Q: Почему Lagrangian mechanics критически важен? Даёт energy conservation «бесплатно». Уравнения Эйлера-Лагранжа математически гарантируют сохранение энергии. Без этого модели генерируют физически абсурдные trajectory: ткань с бесконечной энергией, объекты без инерции.

Q: Какие данные нужны для обучения? 4D-датасет: последовательности деформаций объектов. Исследователи использовали PartNet-Mobility и Objaverse с физической симуляцией. Физические аннотации не нужны — модель сама находит структуру.

Q: Работает ли на произвольных объектах? В протестированных категориях (твёрдые тела, ткань, эластичные объекты) обобщение работает на классах, отсутствующих в обучении. Для жидкостей или газов не тестировалось.

Итог

NeuROK — пример того, как переформулирование задачи позволяет убрать ограничения, которые считались фундаментальными. Conditional VAE + Lagrangian mechanics + Active Subspace dimension reduction = kinematic state space, который обобщается на категории без physics priors. Один 3D-снимок → латентное пространство возможных движений → physically-consistent trajectory.

Код и модели: mbzuai-oryx.github.io/NeuROK. Статья: NeuROK: Generative 4D Neural Object Kinematics — Stanford, Cambridge, Cornell, CVPR 2026.

← Все записи