ActCam: jointly control camera and character motion in AI video

Когда AI генерирует видео с человеком, обычно доступны два режима управления по отдельности. Можно указать траекторию камеры — и персонаж останется в центре, пока она двигается. Или подать видео движения человека — и камера будет статичной, пока актер перемещается. Управлять одновременно и тем, и другим — до сих пор не удавалось. Новый метод ActCam закрывает этот пробел.

Проблема joint control в видеогенерации

Современные модели диффузионной видеогенерации научились работать с управляющими сигналами. CameraCtrl позволяет вставлять траектории камеры в генерацию. Другие методы переносят движение тела из видео-источника на сгенерированного персонажа. Но оба подхода решают задачу в отдельности: либо camera control, либо motion transfer.

Проблема joint control в том, что движения персонажа и камеры геометрически связаны. Когда камера двигается вокруг объекта, персонаж должен соответствующе менять позу и ракурс — это следует из физики проецирования трёхмерной сцены на плоскость изображения. Простая комбинация двух отдельных методов приводит к артефактам: глубина сцены не совпадает с движением, персонаж «проскальзывает» сквозь воображаемые объекты, камера теряет фокус на актере.

Ещё одна системная трудность — depth-induced artifacts. Попытки добавить геометрическую информацию в conditioning diffusion-модели традиционно приводят к размытию контуров и «дрожанию» при движении камеры. Это происходит потому, что глубина и pose конкурируют за внимание модели на одних и тех же участках denoising process.

ActCam: three inputs, zero fine-tuning

ActCam решает задачу в zero-shot режиме — без дополнительного обучения на целевом домене. Это принципиальное отличие от большинства существующих подходов, которые требуют domain-specific fine-tuning.

Система принимает три входа:

Референс-изображение — кадр с персонажем в целевой сцене. Из него модель понимает, как выглядит герой и среда, включая фоновые объекты и освещение.

Acting video — видео с актерством. Из него извлекается движение тела, которое нужно перенести на персонажа из референса.

Target camera trajectory — набор preset-ов траектории камеры. Авторы определяют четыре cinematic motions: pan (горизонтальный поворот), dolly (приближение/отдаление), tilt (вертикальный поворот) и их комбинации. Каждый preset кодирует параметры camera extrinsics (позиция, углы) для каждого кадра видео.

На выходе — видео, где персонаж из референса выполняет движение из acting video под управлением заданной камеры.

Как это работает: three-stage pipeline

Первый этап — depth estimation from reference. Система восстанавливает глубину сцены из референс-изображения, используя inpainting для заполнения областей, скрытых персонажем. Без этого шага персонаж «парит» над сценой без правильного контакта с полом и окружением.

Второй этап — motion fitting. Движение тела из acting video извлекается и выравнивается относительно геометрии целевой сцены. Это ключевой шаг: без него персонаж «живёт» в несогласованном пространстве относительно фона. Модель использует геометрическое соответствие между depth map-ой и pose keypoints-ами, чтобы гарантировать физическую согласованность.

Третий этап — target-view rasterization. Pose и depth+pose сигналы растеризуются под целевым ракурсом камеры. Полученные conditioning cues имеют форму dense spatial control signals — тех же, которые используются в современных control branches для diffusion моделей.

Two-phase denoising schedule

Центральная инженерная идея метода — двухфазный процесс денойзинга.

На ранних шагах диффузионного процесса модель получает depth+pose conditioning. Это даёт жёсткую геометрическую информацию: глобальную структуру сцены, взаимное расположение персонажа и фона, ракурс камеры относительно сцены. На этом этапе закладывается global structure and viewpoint changes — без этой информации камера не может корректно двигаться относительно сцены.

На поздних шагах depth отключается, и модель работает только с pose conditioning. Это позволяет уточнять high-frequency details — мимику, текстуры одежды, тонкие движения пальцев — без артефактов от геометрической информации.

Без двухфазного подхода depth-induced artifacts проявлялись бы на финальном видео: размытые контуры, неправильные перекрытия объектов, «дрожание» при движении камеры. Эта проблема — системная для любого подхода, который пытается одновременно подавать геометрию и текстуру через один канал.

Эксперименты: quantitative results

Авторы оценивали ActCam на бенчмарке RealisDance-Val. Это датасет с видео танцоров, разработанный для оценки motion transfer качества. RealisDance специально подходит для тестирования camera control, потому что танцевальные движения экспрессивны и требуют точного соответствия между pose演员 и camera viewpoint.

Для каждого из 4 camera presets тестировалось по 100 reference clips — итого 400 сгенерированных видео. На каждом видео оценивались метрики: (1) motion fidelity — насколько точно перенесено движение из acting video, (2) camera consistency — насколько camera motion соответствует заданной траектории, (3) temporal smoothness — отсутствие артефактов между соседними кадрами, (4) depth coherence — физическая согласованность персонажа с глубиной сцены.

Результаты сравнивались с несколькими baseline-методами: VACE-Image (image-conditioned baseline без motion control), VACE-Video (video-conditioned baseline с motion transfer, но без camera control), и CameraCtrl (camera control baseline без motion transfer).

На moving camera benchmarks ActCam показал существенное преимущество по всем четырём метрикам. На static camera benchmarks результаты сопоставимы с VACE-Video, что логично: когда камера не двигается, задача сводится к motion transfer.

При этом joint control достигается без компромиссов в качестве отдельных компонентов — это была отдельная гипотеза, которую авторы проверили: не происходит ли «деградация» motion transfer при добавлении camera control, и наоборот. Результаты показали, что двухфазный conditioning schedule действительно изолирует задачи: геометрия контролируется depth+pose на ранних шагах, а motion fidelity уточняется pose-only на поздних.

Дополнительный эксперимент с 4 × 100 = 400 тестами на moving camera подтвердил устойчивость метода к вариациям входных данных. Каждая комбинация preset × reference clip тестировалась отдельно, и результаты не показали значительной деградации при переходе между presets.

Архитектурные детали: почему это инженерное достижение

Технически ActCam — это не новая generative model, а conditioning method. Это важно понимать: авторы не предлагают новый способ генерации видео, а новый способ управления существующей генеративной моделью. Разница принципиальна для практического применения.

Поскольку ActCam работает на уровне conditioning signals, метод совместим с любым diffusion backbone, который поддерживает spatial control. VACE был выбран как наиболее зрелый и open-source вариант, но та же логика применима к другим моделям.

Ключевое инженерное решение — изоляция задач через временное расписание. Ранние шаги denoising отвечают за глобальную структуру (геометрия, композиция кадра, camera perspective), поздние — за детали (текстуры, мимика, мелкие движения). Это следует из наблюдения, что человеческое восприятие видео сначала считывает крупные формы, а потом детали. Модель ведёт себя аналогично: на ранних шагах noise is high и крупные структуры доминируют, на поздних — мелкие детали определяют итоговое качество.

Почему это важно для индустрии видеогенерации

Для создателей контента joint control означает принципиально новый уровень контроля. Режиссёр может задать и траекторию камеры, и движение актёра — и получить кинематографичный результат без пересъёмок и post-production. Это сокращает путь от идеи до финального видео.

Для AI-инструментов это сигнал: архитектуры video generation продолжают развиваться в сторону полного control over generation process. Отдельные специализированные методы (camera, motion, layout) постепенно объединяются в unified pipelines. Тренд на унификацию control signals наблюдается с 2023 года, и ActCam — ещё один шаг в этом направлении.

Для virtual production и game cinematics это означает возможность быстро прототипировать кат-сцены без motion capture сессий. Достаточно одного видео с базовым движением и референс-изображения персонажа.

Связь с трендами рынка AI-видео

Рынок AI-видеогенерации в 2026 году движется к нескольким целям одновременно. Длина видео: Sora и Kling 2.0 дают минуты генерации, не секунды. Разрешение: 4K становится стандартом для коммерческих продуктов. Interactivity: генерация по кадру, camera control, user editing на уровне отдельных объектов.

ActCam добавляет к этому списку cinematic control — возможность точно управлять кинематографией без потери качества. Это отвечает на запрос профессиональных пользователей, которым недостаточно «просто сгенерировать видео» — им нужен контроль как на съёмочной площадке.

Параллельно тренд на zero-shot generalization означает, что новые возможности не требуют fine-tuning на конкретном домене. Модель, обученная на танцорах, работает с актёрами в драматических сценах. ActCam продолжает эту линию: joint camera+motion control достигается без дополнительного обучения существующего diffusion backbone.

Что остаётся открытым

Метод протестирован на preset-based траекториях камеры — четырёх фиксированных cinematic motions. Насколько хорошо ActCam работает со свободными, произвольными camera paths, авторы оставляют для future work. Реальные съёмочные сценарии часто требуют complex camera moves, которые не укладываются в four presets.

Также остаётся ограничение по качеству monocular depth estimation: при сильном occluder-ах (когда персонаж частично закрыт объектами) результаты деградируют. Это системная проблема одно-камерной оценки глубины, а не специфическая для ActCam — она затрагивает все подходы, использующие depth from single image.

Трекинг мелких деталей — ещё одно ограничение. Pose estimation работает хорошо для крупных движений тела, но тонкие движения пальцев и мимика могут теряться при переносе. Это активная область research, и future work авторов предполагает улучшение в этом направлении.

FAQ

Можно ли использовать ActCam с любой diffusion-моделью?

Авторы использовали VACE как backbone, но архитектура совместима с любым conditional video diffusion backbone, который поддерживает spatial control signals. Для интеграции с другими моделями потребуется адаптация conditioning mechanism.

Какие видео нужны для acting video input?

Подойдёт любое видео с видимым движением тела. Качество переноса зависит от разрешения и от того, насколько хорошо видна поза человека. Видео с танцорами и actors дают лучшие результаты — у них выразительный motion range.

Нужен ли powerful GPU для запуска?

ActCam — это conditioning method, не отдельная генеративная модель. Накладные расходы идут на depth estimation и pose extraction. Генерация видео требует того же GPU, что и базовая diffusion model. На практике это означает 16-24GB VRAM для 7B модели.

Итог

ActCam решает задачу, которую пользователи AI-видео ждали: simultaneous control over camera trajectory and character motion. Zero-shot подход означает, что метод работает с существующими diffusion backbones без дополнительного обучения. Двухфазный conditioning schedule — инженерное решение, которое позволило избежать конфликта между геометрической стабильностью и детализацией.

Ближайшее применение: short films, virtual production, interactive video generation. Следующий шаг — произвольные camera paths вместо preset-ов, и улучшение качества transfer для мелких деталей.

← Все записи