Back to list
arxiv_cs_ai 2026年2月10日

Geo-コード:二段階マルチ・ア gent の進化に基づく幾何画像からの逆生成ためのコーディングフレームワーク

Geo-Code: A Code Framework for Reverse Code Generation from Geometric Images Based on Two-Stage Multi-Agent Evolution

Translated: 2026/3/7 9:03:43

Japanese Translation

プログラミング コードは、視覚と論理の桥梁を形成し、大規模モデルの誘導用い可能な複数モーダルの推定能力を向上させるために微細な几何的操作として補助線の構築や視点変換のような幾何学操作を使用する可視的な手法である。現在存在する逆画像作成方法は、複雑て幾何形詳細に関する正確な再構成という非常に大きな課題に直面するため困難を極めていることは、重要な幾何論的制約の失われまたは構造歪曲がしばしば起こっていることにより、である。そのため我々はGeo-codeを開発し最先端の逆プログラミングフレームワーケットを作成した。地理情報画像に基づいたマルチ・ア ゴェントシステムに基づいて新しいフレームワークは幾何エンコーディングを達成するための新しい方法を開発しました。またステージ1では、視覚オペレータと大きいモデルが持つ補完的な利点を活用し、ピクセル基準のモデリングと色属性に関して正確な抽出を行うだけでなく、ステージ2で生成合成表示評価閉ループを使用することにより両方の視覚反応を使いこなしによるコードの自己修正を導入しました。地理情報画像におけるGeo-codeにより再構築られた幾何学の精度はより高いでありまた観察した一致がほぼ原点と同様です。私たち製品は主な幾何論的semanticsが効果的に維持されているために、我々の方法で生成された画像に対するmultimodal推定と比較して優れた性能を保持します。最終的な手段としては,Geo-codeベース上で構築された地理情報データセットとGeo-コードLMモデルオープンソース化したことで研究開発にかかるコストが大幅に低下しています、これは今後の研究の土壌を形成するのに役立ちます。

Original Content

arXiv:2602.07749v1 Announce Type: new Abstract: Program code serves as a bridge linking vision and logic, providing a feasible supervisory approach for enhancing the multimodal reasoning capability of large models through geometric operations such as auxiliary line construction and perspective transformation. Nevertheless, current inverse graphics methods face tremendous challenges in accurately reconstructing complex geometric details, which often results in the loss of key geometric constraints or structural distortion. To address this bottleneck, we propose Geo-coder -- the first inverse programming framework for geometric images based on a multi-agent system. Our method innovatively decouples the process into geometric modeling via pixel-wise anchoring and metric-driven code evolution: Stage 1 leverages the complementary advantages of visual operators and large models to achieve precise capture of pixel coordinates and visual attributes; Stage 2 introduces a synthesis-rendering-validation closed loop, where bidirectional visual feedback drives the self-correction of code. Extensive experiments demonstrate that Geo-coder achieves a substantial lead in both geometric reconstruction accuracy and visual consistency. Notably, by effectively preserving the core geometric semantics, the images reconstructed with our method exhibit equivalent performance to the original ones in multimodal reasoning tasks, which fully validates the robustness of the framework. Finally, to further reduce research costs, we have open-sourced the Geo-coder dataset constructed on the GeoCode framework, which contains more than 1,500 samples. On this basis, we have also open-sourced the GeocodeLM model, laying a solid data and model foundation for subsequent research in this field.