Back to list
arxiv_cs_cv 2026年4月24日

SurgViVQA: 外科場面理解のための時系列に根差した動画質問応答

SurgViVQA: Temporally-Grounded Video Question Answering for Surgical Scene Understanding

Translated: 2026/4/24 19:50:34
videoqasurgical-aitemporal-reasoningllmdataset

Japanese Translation

arXiv:2511.03325v3 発表 タイプ: 置換 要旨:外科領域における動画質問応答(VideoQA)は、AI モデルを時系列に整合したイベントに対して論理的推論することにより、術中の理解を向上させることを目指しています。現在のアプローチは静的な画像特徴に限定されており、利用可能なデータセットでは時系列の注釈が不足しており、正確な手順解釈に不可欠なダイナミクスを無視しています。われわれは、静的画像から動的な外科現場へ視覚的論理推理を拡張する外科動画 QA モデルである SurgViVQA を提案します。SurgViVQA は Masked Video--Text エンコーダーを使用して動画および質問特徴を融合し、動きやツール―組織の相互作用などの時系列的な手がかりを捕捉し、その後、微調整された大規模言語モデル(LLM)がこれを整合的な回答としてデコードします。性能を評価するために、われわれは運動関連の質問と診断的特性、および再構成または文法的に変更された形式を持つテンプレート外質問を含む、 Colonoscopy 動画データセットである REAL-Colon-VQA を編制しました。REAL-Colon-VQA と公開されている EndoVis18-VQA データセットでの実験的検証により、SurgViVQA は既存の画像ベースの VQA ベンチマークモデルを超え、特にキー単語精度において、REAL-Colon-VQA で PitVQA より +11%、EndoVis18-VQA で +9% 向上しました。質問に関する擾乱研究は、モデルの汎用性と質問表現の変異に対する堅牢性が改善されていることをさらに確認しました。SurgViVQA と REAL-Colon-VQA データセットは、AI モデルが動的な手順的文脈をより効果的に解釈可能にする、時系列的な理解を可能にする外科 VideoQA の枠組みを提供します。コードとデータセットは https://github.com/madratak/SurgViVQA で利用可能です。

Original Content

arXiv:2511.03325v3 Announce Type: replace Abstract: Video Question Answering (VideoQA) in the surgical domain aims to enhance intraoperative understanding by enabling AI models to reason over temporally coherent events rather than isolated frames. Current approaches are limited to static image features, and available datasets often lack temporal annotations, ignoring the dynamics critical for accurate procedural interpretation. We propose SurgViVQA, a surgical VideoQA model that extends visual reasoning from static images to dynamic surgical scenes. It uses a Masked Video--Text Encoder to fuse video and question features, capturing temporal cues such as motion and tool--tissue interactions, which a fine-tuned large language model (LLM) then decodes into coherent answers. To evaluate its performance, we curated REAL-Colon-VQA, a colonoscopic video dataset that includes motion-related questions and diagnostic attributes, as well as out-of-template questions with rephrased or semantically altered formulations to assess model robustness. Experimental validation on REAL-Colon-VQA and the public EndoVis18-VQA dataset shows that SurgViVQA outperforms existing image-based VQA benchmark models, particularly in keyword accuracy, improving over PitVQA by +11\% on REAL-Colon-VQA and +9\% on EndoVis18-VQA. A perturbation study on the questions further confirms improved generalizability and robustness to variations in question phrasing. SurgViVQA and the REAL-Colon-VQA dataset provide a framework for temporally-aware understanding in surgical VideoQA, enabling AI models to interpret dynamic procedural contexts more effectively. Code and dataset available at https://github.com/madratak/SurgViVQA.