21.06.2026 Исследования

TimeProVe: как AI находит нужный момент в часовом видео

Представьте камеру в квартире пожилого человека — она снимает 24 часа в сутки. Вопрос: «Принял ли пациент лекарство и запил ли водой?» Задача кажется простой, пока не попробуешь решить её программно. Часовое видео при честном семплировании — это 2.6 миллиона визуальных токенов до того, как вы учли текстовый промпт, таймкоды и ответ. GPT-4o на таком объёме просто не влезет в контекст, а цена облачного вызова убьёт экономику.

Исследователи из ETH Zurich и университетов Южной Кореи предложили TimeProVe (Time-aware Proposal and Verification) — систему, которая сначала локально находит все действия на таймлайне, а в облако отправляет только 8-секундный клип с подтверждением. О результатах: +21.3% к точности против GPT-4o на том же видео, в 8 раз меньше обрабатываемого видеопотока, и чисто технически — это первая система, где privacy встроена в архитектуру, а не в политику.

Почему длинные видео — это проблема для VLM

Large Vision-Language Models хороши для анализа отдельных кадров и коротких роликов. Но Activities of Daily Living (ADL) — это часовые непрерывные записи: человек встал, пошёл на кухню, открыл шкафчик, взял таблетку, запил водой. Между действиями — минуты ничего. Плотная обработка такого видеораяза эквивалентна попытке прочитать книгу, подсвечивая каждую страницу.

Конкретная математика: 60-минутное видео при семплировании 1 FPS с энкодером SigLIP (384×384, patch size 14) даёт примерно 729 токенов на кадр. 3600 кадров × 729 = 2.6 миллиона токенов на один видеофрагмент. Это больше, чем контекст любой публичной VLM, и это только визуальная часть.

Существующие подходы делятся на три семейства. Token compression (LongVLM, VideoChat-Flash) агрегирует токены в фиксированный бюджет, но теряет мелкие детали. Frame selection выбирает кадры по similarity, но ошибается рано и не может восстановить пропущенное. Memory mechanisms обновляют представление инкрементально, но чувствительны к drift и растут со временем.

TimeProVe: архитектура two-stage верификации

Ключевая идея TimeProVe — разделить поиск и верификацию. Не искать ответ в облаке, а сначала локально найти все действия, сгенерировать гипотезы, отранжировать их по релевантности, и только потом отправить в облако короткий клип на проверку.

ACE: Action-aware Candidate Extraction

Первый модуль называется ACE — он обрабатывает видео целиком, но легковесно. На входе: часовое видео. На выходе: timeline действий с временными границами.

Технически ACE состоит из двух компонентов. Action Detection Module — легковесный темпоральный детектор действий MS-Temba (17 миллионов параметров). Видео разбивается на 16-кадровые окна, для каждого окна извлекаются CLIP-L/14 или I3D фичи, и детектор предсказывает вероятности классов действий. Порог θ = 0.5 отсекает шум, а декодирование превращает непрерывные активации в event timeline — последовательность «что произошло и когда».

Важно: полное видео обрабатывается один раз и больше не требует GPU. Оригинальные RGB-кадры запрашиваются повторно только если выбран короткий evidence clip для облачной верификации.

Второй компонент — Query-conditioned Proposal Generator. Это легковесный edge LLM (Gemma4-2B или Qwen2-7B), который получает на вход timeline действий и вопрос пользователя, а на выходе генерирует кандидатные ответы вместе с соответствующими временными окнами. Генератор работает на двух уровнях: atomic windows (отдельные действия) и merged windows (группы действий для составных вопросов вроде «принял лекарство и запил водой»).

Scoring: четыре фактора ранжирования

Ранжирование кандидатов — отдельная интересная задача. TimeProVe использует scoring function, которая комбинирует четыре фактора.

Temporal compatibility — насколько позиция окна во времени соответствует темпоральной интенции запроса. Запрос «что было после обеда?» должен ранжировать окна после обеда выше, а не в произвольном порядке. Это мягкий prior, который работает через сдвиг относительно L (длительности видео).

Semantic relevance — сила связи действия внутри окна с темой запроса. Используется best-match форма: одно сильное совпадение не штрафуется наличием вокруг нейтрального контекста.

Coverage — покрывает ли окно все концепты из вопроса совокупно. Merge-окна выигрывают здесь: если вопрос о лекарстве и воде, объединённое окно покрывает оба концепта, а атомарное — только один.

Cost penalty — штраф за излишнюю длину. Длинные клипы дороже обрабатывать и размывают фокус. Минимальное окно побеждает при равных остальных факторах.

Результаты: точность растёт, стоимость падает

TimeProVe тестировали на нескольких бенчмарках. На открытых вопросах по ADL-видео (OTB) система с Gemma4-2B + GPT-4o показала 45.1% accuracy против 23.8% у GPT-4o без предварительной фильтрации — прирост +21.3 процентных пункта. Важнее: это произошло при 8.3 облачных вызовах против 16.8 у caption-based подхода и при обработке 123 секунд видео вместо 1004.8 секунд.

Конкретные цифры из таблицы в статье:

Caption-Based: 24.7% accuracy, 16.8 вызовов, 1004.8 секунд видео, 55ms latency
Full-Video: 35.0% accuracy, 1 вызов, 180 секунд видео, 17.6ms latency
Retrieval-Based: 33.9% accuracy, 7 вызовов, 10 секунд видео, 35ms latency
TimeProVe: 44.8% accuracy, 8.3 вызова, 123.6 секунды видео, 18.7ms latency

TimeProVe достигает лучшей точности при минимальном overhead по latency. Ключ не в сокращении числа вызовов самом по себе, а в выборе правильных клипов — тех, где действительно есть ответ.

Ablation: что ломает систему по отдельности

Исследователи отключали компоненты по очереди. Без Action Detector система скатывается к caption-based baseline (24.7%). Добавление детектора действий даёт 36.4% — изолированное действие уже сильный примитив для таймлайна. Добавление edge LLM для query-conditioned reasoning добавляет ещё 3.6%. Финальный scoring + reranking доводит результат до 42.7%.

Это показывает, что центральное предположение верно: grounding evidence в локализованные действия — необходимый элемент для темпорального reasoning в непрерывных ADL-видео.

Сравнение с agentic фреймворками

Отдельная таблица в статье сравнивает TimeProVe с agentic VLM-системами: VideoAgent, VideoTree, AVP, GPT-4o direct. VideoAgent хорошо справляется с object-centric вопросами (65.1%), но проседает на state transitions и sparse-evidence reasoning. Причина: frame-level captioning захватывает видимые объекты, но теряет временную структуру. «Рука открыла шкафчик» и «рука закрыла шкафчик» визуально почти идентичны — разница только во времени и контексте.

TimeProVe решает эту проблему через action timeline — действия уже разделены по времени, и提案 generator только выбирает, какие из них релевантны запросу.

Privacy как архитектурный примитив

В существующих подходах privacy — это политика: не отправлять кадры, не генерировать дескрипшены beyond task requirements. TimeProVe делает это на уровне архитектуры. ACE работает локально и генерирует только timeline действий. В облако уходит исключительно short RGB clip, уже прошедший этап filtering. Злоумышленник с доступом к верификатору видит 8-секундный клип с конкретным действием, а не часовой поток личной жизни.

Это важно для сценариев вроде мониторинга пациентов, assistive living, smart home, где камеры работают непрерывно и вопрос приватности стоит остро.

Почему это важно для индустрии

ADL-мониторинг — это не academic exercise. Рынок удалённого мониторинга пожилых и хронических больных растёт. Камеры ставят в домах, квартирах, пансионах. Задачи: убедиться, что лекарства приняты, что падение обнаружено вовремя, что режим дня соблюдается. Всё это требует анализа длинных видео — и всё это должно работать на edge-устройствах с ограниченным бюджетом.

Full-video VLM inference для этих задач — как стрелять из пушки по воробьям. TimeProVe показывает, что domain knowledge (в виде temporal action detector) позволяет радикально сократить вычисления без потери точности.

Вторая импликация — cost-efficiency для облачных VLM API. Gemini и GPT-4o берут за токены. 2.6M токенов на час видео — это ~$0.26+ за один вопрос (цены GPT-4o). TimeProVe отправляет ~500-800 токенов на клип → ~$0.002 за вопрос. Разница на три порядка.

FAQ

Почему нельзя просто сжать токены?

Token compression (LongVLM, VideoChat-Flash) теряет fine-grained детали. Если вопрос про движение руки к шкафчику с лекарством, агрегированные токены могут потерять эту информацию. TimeProVe не сжимает — он выбирает только те клипы, где есть потенциально релевантное действие. Проигрывает в efficiency у compression, но выигрывает в precision-recall.

Какие action detectors используются?

MS-Temba (17M параметров) для темпорального action detection, обученная на Toyota Smarthome Untrimmed и Charades. Детектор специфичен для indoor activities — это strong prior для ADL-сценария. На других доменах (спорт, уличное видео) результаты могут отличаться.

TimeProVe работает только с ADL?

Нет. Систему тестировали на Charades-STA (temporal grounding), где она показала competitive результаты со specialized temporal grounding моделями. ACE — это reusable query-conditioned evidence selection layer, которую можно комбинировать с более сильными темпоральными backbones (TimeSuite, Time-R1) и получать улучшения на +1.3–4.8 IoU points.

Почему Full-Video только 35% точности при казалось бы максимальном использовании информации?

Это контринтуитивно, но факт: показать VLM целый час видео не значит получить лучший ответ. Модель «видит» всё, но не знает, что именно релевантно вопросу. Evidence разбавлено массой нерелевантного контекста, и языковая модель внутри VLM не может автоматически сфокусироваться на нужных секундах. TimeProVe решает эту проблему, делая фокусировку явной через action timeline.

Ограничения и открытые вопросы

TimeProVe не лишён ограничений. Детектор действий обучен на specific доменах (Toyota Smarthome, Charades) — это сильный prior для indoor ADL, но слабый для других сценариев. Если вы захотите использовать систему для анализа видео сfactory floor, спортивных трансляций или уличного видеонаблюдения, action detector придётся переобучать или заменять на domain-specific.

Edge LLM (Gemma4-2B, Qwen2-7B) — это легковесные модели, но они всё ещё требуют ~4-7B параметров. На very low-end edge devices (Raspberry Pi, микроконтроллеры) это может быть неподъёмно. В таких случаях придётся либо further compress модели, либо переносить больше логики на детектор действий.

Ещё один open question: как система справляется с действиями, которые не были в тренировочном датасете детектора? Если action detector обучен на 30 классах, а в видео происходит что-то за пределами этого vocabulary — детектор это просто не увидит, и TimeProVe пропустит потенциально релевантное окно.

Почему это важно для индустрии

Для startup в области AI-мониторинга это означает возможность строить продукт с предсказуемой cost-per-query, а не с exponentially растущим счётом при увеличении числа пользователей или длительности наблюдения.

Связь с broader трендами

TimeProVe встраивается в три больших тренда в AI-индустрии 2025-2026.

Speculative decoding и draft-verify парадигма. В текстовой генерации давно используют идею: быстрая модель генерирует draft tokens, медленная модель верифицирует и принимает. TimeProVe адаптирует эту парадигму для visual domain — и это свежее применение.

Edge-cloud гибридные системы. Время pure cloud inference для latency-sensitive приложений проходит. Edge-first подход, где локальная модель делает грубую работу, а облако используется только для уточнения — это архитектурный паттерн, который TimeProVe хорошо иллюстрирует.

Privacy-preserving AI. Регулирование (GDPR, HIPAA, emerging AI acts) толкает индустрию к architectures that minimize data exposure by design. TimeProVe — редкий пример, где privacy следует из механики системы, а не из политик вокруг неё.

FAQ

Почему нельзя просто сжать токены?

Какие action detectors используются?

TimeProVe работает только с ADL?

Почему Full-Video только 35% точности при казалось бы максимальном использовании информации?

Как TimeProVe справляется с ошибками Action Detector?

В architectures с несколькими этапами ошибки накапливаются: если Action Detector пропустил действие, Proposal Generator не сможет его предложить, и верификатор не увидит. TimeProVe частично смягчает это через scoring function — она может partially recover через semantic matching в query-conditioned proposal. Но принципиально система не детектирует то, что детектор не видел.

Итог

TimeProVe — это хороший пример того, как domain knowledge меняет архитектуру. Вместо того чтобы делать VLM мощнее и дороже, авторы встроили prior про структуру видеоповедения (actions происходят в компактных временных окнах) и разделили задачу на этап фильтрации и этап верификации. Результат: +21.3% точности при 8x меньшем объёме видеоданных на входе в облако, и privacy-by-design.

Для практиков в области AI-мониторинга это означает, что длинные видео уже не exclusive domain для дорогих frontier-моделей. TimeProVe показывает, что при правильной архитектуре задачу можно решать на edge + occasional cloud verification с лучшим результатом и на три порядка дешевле.