Back to list
AD-MIR: 構造化された推論を通じた広告ビデオ理解における認識から説得への架橋
AD-MIR: Bridging the Gap from Perception to Persuasion in Advertising Video Understanding via Structured Reasoning
Translated: 2026/3/15 18:05:09
Japanese Translation
arXiv:2602.07625v1 Announce Type: new
抽象: 広告ビデオの多モーダルな理解は、視覚的故事性を抽象的な説得戦略との複雑な関係を読み解くために不可欠である。しかし、既存のエージェントは一般検索において優れているにもかかわらず、ピクセルレベルの認識と高次 Marketing ロジックの間の認知的ギャップを埋めることに失敗することが多い。この課題に対処するために、AD-MIR というフレームワークを提示する。AD-MIR は、2 ステージのア키탴クチャーを通じて広告の意図を解読するための設計である。第一に、構造認識のあるメモリ構築フェーズにおいて、システムは意味検索と正確なキーワード一致を統合することで、生Videoを構造化されたデータベースに変換する。このアプローチは、詳細なブランド情報の優先順位付け(例:ロゴ、画面テキト)を行いながら、非関係の背景ノイズを動的にフィルタリングし、主要な登場人物を孤立させる。第二に、構造化された推論エージェントは、反復的問い合わせループを通じてマーケティング専門家を模倣し、物語を分解して明示的な説得戦略を推論する。至关重要的是、証拠に基づく自己修正メカニズムを採用し、特定のVideoフレームに対してこれらの洞察を厳密に検証し、視覚的支援が不足している場合に自動的にバックトラックする。AdsQA ベンチマークでの評価では、AD-MIR は最も強力な一般目的のエージェントである DVD を、厳密な精度で 1.8%、緩和された精度で 9.5% 上回ることが示され、状態の最前達の成績を達成した。これらの結果は、効果的な広告理解には、抽象的なマーケティング戦略をピクセルレベルの証拠に明示的に着地させることが求められることを示している。コードは https://github.com/Little-Fridge/AD-MIR で利用可能です。
Original Content
arXiv:2602.07625v1 Announce Type: new
Abstract: Multimodal understanding of advertising videos is essential for interpreting the intricate relationship between visual storytelling and abstract persuasion strategies. However, despite excelling at general search, existing agents often struggle to bridge the cognitive gap between pixel-level perception and high-level marketing logic. To address this challenge, we introduce AD-MIR, a framework designed to decode advertising intent via a two-stage architecture. First, in the Structure-Aware Memory Construction phase, the system converts raw video into a structured database by integrating semantic retrieval with exact keyword matching. This approach prioritizes fine-grained brand details (e.g., logos, on-screen text) while dynamically filtering out irrelevant background noise to isolate key protagonists. Second, the Structured Reasoning Agent mimics a marketing expert through an iterative inquiry loop, decomposing the narrative to deduce implicit persuasion tactics. Crucially, it employs an evidence-based self-correction mechanism that rigorously validates these insights against specific video frames, automatically backtracking when visual support is lacking. Evaluation on the AdsQA benchmark demonstrates that AD-MIR achieves state-of-the-art performance, surpassing the strongest general-purpose agent, DVD, by 1.8% in strict and 9.5% in relaxed accuracy. These results underscore that effective advertising understanding demands explicitly grounding abstract marketing strategies in pixel-level evidence. The code is available at https://github.com/Little-Fridge/AD-MIR.