Back to list
arxiv_cs_cv 2026年2月10日

GeoFocus: 多模态幾何問題解決における効率的なグローバルからローカルへの変換を融合

GeoFocus: Blending Efficient Global-to-Local Perception for Multimodal Geometry Problem-Solving

Translated: 2026/3/16 14:05:39
geofocusmultimodalgeometrylmmarxiv

Japanese Translation

arXiv:2602.08524v1 発表タイプ:新 要旨:幾何問題解決は、大型マルチモーダルモデル (LMM) にとって依然として大きな課題であり、単に全体の形状認識だけでなく、幾何学の理論に関連する複雑な局所関係にも注意を払う必要があります。これを解決するために、GeoFocus という新しいフレームワークを提案します。このフレームワークには 2 つの核心的モジュールが含まれています:1) クリティカルローカルパーセプター (Critical Local Perceptor)、これは理論に基づく 13 つのパースプンテンプレートを通じて、角、平行線、比較的距离などの批判的な局所構造を自動的に特定し、強調します。これにより、従来の手法と比較して、批判的な局所特徴の coverage が 61% 向上しました。2) ベルテックスラング (VertexLang)、これはコンパクトなトポロジー形式言語であり、頂点座標と接続関係を通じて全体の図形をエンコードします。膨大なコードベースエンコードを置き換えることで、ベベルトラングはトポロジー認識精度を向上させつつ、グローバルパーセプションのトレーニング時間を 20% 削減しました。Geo3K、GeoQA、FormalGeo7K で評価された場合、GeoFocus は主要な専門モデルよりも 4.7% 高い精度を示し、MATHVERSE において多様な視覚条件下でも優れた強健性を示しました。 プロジェクトページ -- https://github.com/dle666/GeoFocus

Original Content

arXiv:2602.08524v1 Announce Type: new Abstract: Geometry problem-solving remains a significant challenge for Large Multimodal Models (LMMs), requiring not only global shape recognition but also attention to intricate local relationships related to geometric theory. To address this, we propose GeoFocus, a novel framework comprising two core modules. 1) Critical Local Perceptor, which automatically identifies and emphasizes critical local structure (e.g., angles, parallel lines, comparative distances) through thirteen theory-based perception templates, boosting critical local feature coverage by 61% compared to previous methods. 2) VertexLang, a compact topology formal language, encodes global figures through vertex coordinates and connectivity relations. By replacing bulky code-based encodings, VertexLang reduces global perception training time by 20% while improving topology recognition accuracy. When evaluated in Geo3K, GeoQA, and FormalGeo7K, GeoFocus achieves a 4.7% accuracy improvement over leading specialized models and demonstrates superior robustness in MATHVERSE under diverse visual conditions. Project Page -- https://github.com/dle666/GeoFocus