Back to list
VisionReasoner: レイニンforcing Learning を活用した統一的な推論統合視覚認識
VisionReasoner: Unified Reasoning-Integrated Visual Perception via Reinforcement Learning
Translated: 2026/3/15 5:02:22
Japanese Translation
arXiv:2505.12081v5 発表タイプ:置換
要旨:大規模な視線言語モデルは、多様な視覚認識タスクに対応する内在的能力を示しています。この論文では、複数の視覚認識タスクを統合されたモデル内で推論および解決可能な統一的なフレームワークである VisionReasoner を導入します。具体的には、統一的な報酬メカニズムと多対象認知学習戦略を設計することで、VisionReasoner は視覚入力进行分析の推論能力を強化し、統一的なモデル内で多様な認識タスクに対処します。VisionReasoner は、ユーザークエリに対する所望の出力を渡す前に構造化された推論過程を生成します。人間の評価は、アノテートされた推論トレーニングデータなしに、VisionReasoner の推論過程が忠実かつ信頼性が高いことを示しました。統一的な視覚認識能力を厳密に評価するため、検出、分割、計数という 3 つの重要なドメインをまたぐ 10 の多様なタスクで VisionReasoner を評価しました。実験結果は、VisionReasoner が統合されたモデルとして優れていることを示し、COCO(検出)で 29.1%、ReasonSeg(分割)で 22.1%、CountBench(計数)で 13.2% の相対的なマージンで基線の Qwen2.5VL を上回りました。
Original Content
arXiv:2505.12081v5 Announce Type: replace
Abstract: Large vision-language models exhibit inherent capabilities to handle diverse visual perception tasks. In this paper, we introduce VisionReasoner, a unified framework capable of reasoning and solving multiple visual perception tasks within a shared model. Specifically, by designing a unified reward mechanism and multi-object cognitive learning strategies, VisionReasoner enhances its reasoning capabilities to analyze visual inputs, and addresses diverse perception tasks within a unified model. VisionReasoner generates a structured reasoning process before delivering the desired outputs responding to user queries. Human evaluation reveals the reasoning process of VisionReasoner is faithful and reliable even without annotated reasoning train data. To rigorously assess unified visual perception capabilities, we evaluate VisionReasoner on ten diverse tasks spanning three critical domains: detection, segmentation, and counting. Experimental results show that VisionReasoner achieves superior performance as a unified model, outperforming the baseline Qwen2.5VL by relative margins of 29.1\% on COCO (detection), 22.1\% on ReasonSeg (segmentation), and 13.2\% on CountBench (counting).