Back to list
VideoTemp-o3: エージェント的思考における時間的アンカリングと動画理解の調和
VideoTemp-o3: Harmonizing Temporal Grounding and Video Understanding in Agentic Thinking-with-Videos
Translated: 2026/3/15 19:01:45
Japanese Translation
arXiv:2602.07801v1 Announce Type: new
Abstract: 長尺動画理解において、従来の等間隔フレームサンプリングは重要な視覚証拠を捕捉できないことが多く、パフォーマンスが低下し、幻覚(hallucinations)が増大する。これに対抗するため、近年、loclize-clip-answerパイプラインを採用した「思考付き動画(thinking-with-videos)」のパラダイムが出現し、モデルが関連する動画セグメントを能動的に識別し、そのクリップ内で密集サンプリングを行い、回答を生成している。しかし、既存の手法は非効率であり、ロケージ能力が弱く、画一的なワークフローに拘束されている。これらの問題を解決するため、VideoTemp-o3 という統一された思考付き動画フレームワークを提案し、動画アンカリングと質問応答を共同モデル化する。VideoTemp-o3 は強力なロケージ能力を示し、オンデマンドクリッピングをサポートし、不正確なロケージを精細化できる。具体的には、教師あり微調整段階において、探索を促しつつノイズを防ぐ統一的なマスキング機構を設計した。強化学習に関しては、報酬ハッキング(reward hacking)を軽減するために専用の報酬を導入した。さらに、データ観測の観点から、高品質な長尺動画アンカリング QA データ構築の有効パイプライン、および各種動画長にわたる体系的評価のためのベンチマークも開発した。実験結果は、我々の手法が長尺動画理解とアンカリングの両方で卓越したパフォーマンスを示すことを証明している。
Original Content
arXiv:2602.07801v1 Announce Type: new
Abstract: In long-video understanding, conventional uniform frame sampling often fails to capture key visual evidence, leading to degraded performance and increased hallucinations. To address this, recent agentic thinking-with-videos paradigms have emerged, adopting a localize-clip-answer pipeline in which the model actively identifies relevant video segments, performs dense sampling within those clips, and then produces answers. However, existing methods remain inefficient, suffer from weak localization, and adhere to rigid workflows. To solve these issues, we propose VideoTemp-o3, a unified agentic thinking-with-videos framework that jointly models video grounding and question answering. VideoTemp-o3 exhibits strong localization capability, supports on-demand clipping, and can refine inaccurate localizations. Specifically, in the supervised fine-tuning stage, we design a unified masking mechanism that encourages exploration while preventing noise. For reinforcement learning, we introduce dedicated rewards to mitigate reward hacking. Besides, from the data perspective, we develop an effective pipeline to construct high-quality long video grounded QA data, along with a corresponding benchmark for systematic evaluation across various video durations. Experimental results demonstrate that our method achieves remarkable performance on both long video understanding and grounding.