Back to list
arxiv_cs_cv 2026年2月10日

Vista: Post-Hoc クエリ条件下のストリーミング動画質問応答におけるシーンの認識最適化

Vista: Scene-Aware Optimization for Streaming Video Question Answering under Post-Hoc Queries

Translated: 2026/3/16 14:05:10
streaming-videovision-language-modelsmultimodal-llmvideo-question-answeringmemory-efficiency

Japanese Translation

arXiv:2602.08448v1 発表タイプ: 新しい 要約:ストリーミング動画質問応答(Streaming Video QA)は、マルチモーダル大規模言語モデル(MLLM)に対して特異な課題を提起します。ビデオフレームが順次到着し、ユーザーのクエリが任意のタイミングで発行されるためです。既存の固定サイズメモリや単純な圧縮に依存する手法は、文脈の損失やメモリ超過を引き起こし、長時間の実時間シナリオでの効果を制限します。Vista は、連続するビデオストリームの効率的かつスケーラブルな論理推理を可能にする、シーンの認識に基づくストリーミング動画 QA の新しいフレームワークを提案します。Vista の革新性は、以下の 3 点に要約されます:(1) シーンの認識に基づくセグメンテーション:Vista は、入力のフレームを時間的および視覚的に整合的なシーン単位に動的にクラスタリングします。(2) シーンの認識に基づく圧縮:各シーンはコンパクトなトークン表現に圧縮され、GPU メモリに格納してインデックスに基づく効率的な検索を行う一方、フル解像度のフレームは CPU メモリにオフロードされます。(3) シーンの認識に基づく想起:クエリを受け取った際に、関連するシーンを選択的に想起しモデル入力へ再統合することにより、効率性と完全性の両方を実現します。Vista はモデル非依存であり、多種多様なビジョン言語バックボーンとシームレスに統合でき、レイテンシやメモリ効率の低下を伴わんずに長時間の文脈推理を可能にします。StreamingBench における広範な実験は、Vista が最先進のパフォーマンスを達成し、現実世界のストリーミング動画理解のための強力な基準線となることを示しています。

Original Content

arXiv:2602.08448v1 Announce Type: new Abstract: Streaming video question answering (Streaming Video QA) poses distinct challenges for multimodal large language models (MLLMs), as video frames arrive sequentially and user queries can be issued at arbitrary time points. Existing solutions relying on fixed-size memory or naive compression often suffer from context loss or memory overflow, limiting their effectiveness in long-form, real-time scenarios. We present Vista, a novel framework for scene-aware streaming video QA that enables efficient and scalable reasoning over continuous video streams. The innovation of Vista can be summarized in three aspects: (1) scene-aware segmentation, where Vista dynamically clusters incoming frames into temporally and visually coherent scene units; (2) scene-aware compression, where each scene is compressed into a compact token representation and stored in GPU memory for efficient index-based retrieval, while full-resolution frames are offloaded to CPU memory; and (3) scene-aware recall, where relevant scenes are selectively recalled and reintegrated into the model input upon receiving a query, enabling both efficiency and completeness. Vista is model-agnostic and integrates seamlessly with a variety of vision-language backbones, enabling long-context reasoning without compromising latency or memory efficiency. Extensive experiments on StreamingBench demonstrate that Vista achieves state-of-the-art performance, establishing a strong baseline for real-world streaming video understanding.