Back to list
Oscar: 活用最適化 steering の_agentic 運用計画 フレームワークによる複合画像検索
OSCAR: Optimization-Steered Agentic Planning for Composed Image Retrieval
Translated: 2026/3/7 10:15:47
Japanese Translation
複合的な画像検索(CIR)には、多岐にわたる視覚的情報と文書的な制約を組み合わせて処理する複雑で深い推論が必要です。現在のアプローチは主に2つのパラダイムに集中しています:一元的な埋め込み検索により、単一モデルの狭隘性が問題となり、またヒューマンアルゴリズムのagentic検索では、欠陥のある試行錯誤による優れた制約の組み合わせが問題です。このため、我々はOscarと呼ばれる最適化 steering の_agentic 調査計画フレームワークを提案しました。Oscarは第一に、ヒューマンアルゴリズムのagentic CIRから従来のヒュエスティック ロード チェーン で探すような推論から原理的で優れた軌道 オプティマイゼーション問題への再解釈を行います。代わりに、Oscarは従来のヒューマンアルゴリズムの探索経路を頼るのではなく、新しいオフライン-オンリーのパラダイムに基づいて新しい戦略を実装します。オフライン パラメトリックではCIRを原子的な情報選択と解釈において2段階の混合整数最適化問題としてモデリングし数学的に推定した最良な軌道により、訓練サンプルに対する最適のカバー率が最大化しますが、論理的なボーダセット操作を使用します。そしてこれらの軌道はオフラインとオンタイムで再使用するための黄金のライブラリとして保存され、予測時間中にVLM プラナツ にオンライン steering をサポートすると予測されます。Oscarの最適化 steering オフラインモデルからの3つの共有バイブル公約と3つ目のプライベートの産業的バイブルで行われた広範な実験によれば、Oscarは現在の最上位の基準よりも統合的な性能を示しました。特に、それは訓練データが全体の10パーセントに限定されることで、強力な推論のための計画ロジックよりもデータセット間の暗記を超えてそれを達成したことを証明します。
Original Content
arXiv:2602.08603v1 Announce Type: new
Abstract: Composed image retrieval (CIR) requires complex reasoning over heterogeneous visual and textual constraints. Existing approaches largely fall into two paradigms: unified embedding retrieval, which suffers from single-model myopia, and heuristic agentic retrieval, which is limited by suboptimal, trial-and-error orchestration. To this end, we propose OSCAR, an optimization-steered agentic planning framework for composed image retrieval. We are the first to reformulate agentic CIR from a heuristic search process into a principled trajectory optimization problem. Instead of relying on heuristic trial-and-error exploration, OSCAR employs a novel offline-online paradigm. In the offline phase, we model CIR via atomic retrieval selection and composition as a two-stage mixed-integer programming problem, mathematically deriving optimal trajectories that maximize ground-truth coverage for training samples via rigorous boolean set operations. These trajectories are then stored in a golden library to serve as in-context demonstrations for online steering of VLM planner at online inference time. Extensive experiments on three public benchmarks and a private industrial benchmark show that OSCAR consistently outperforms SOTA baselines. Notably, it achieves superior performance using only 10% of training data, demonstrating strong generalization of planning logic rather than dataset-specific memorization.