Back to list
arxiv_cs_ai 2026年4月24日

VLAA-GUI:停止、回復、検索のタイミングを把握する、GUI 自動化のためのモジュラーフレームワーク

VLAA-GUI: Knowing When to Stop, Recover, and Search, A Modular Framework for GUI Automation

Translated: 2026/4/24 20:26:21
gui-automationautonomous-agentsllm-applicationssoftware-testinghuman-robot-interaction

Japanese Translation

arXiv:2604.21375v1 Announce Type: cross Abstract: 自律 GUI エージェントは、初期停止(エージェントが検証可能な証拠なしに早々に成功を宣言してしまう事象)と反復ループ(失敗する同じアクションを循環し、回復なく続く事象)という 2 つの根本的な課題に直面しています。我々は、停止、回復、検索のタイミングをシステムの行動に統合的に導く 3 つの統合コンポーネントを核としたモジュラーな GUI エージェントフレームワーク「VLAA-GUI」を提案します。まず、必須の完全性検証器(Completeness Verifier)は、UI 観測可能な成功基準を強制し、各完了段階で検証を行います。これには、完成主張を決定規則とクロスチェックし、直接視覚的証拠に欠ける主張を拒否するエージェントレベルの検証器が含まれます。第二に、必須のループブレイカー(Loop Breaker)は、多階層フィルタリングを提供します。それは、反復失敗後にインタラクションモードを切り替え、持続的な画面状態の再帰後に戦略の強制変更を促し、反転シグナルを戦略シフトにバインドします。第三に、オンデマンド検索エージェントは、未知のワークフローのためにオンラインを検索し、 capable LLM の検索機能を直接問い合わせ、結果を明記テキストとして返します。我々は、コード集約的なアクションと精密なアクショングラウンディングのためにオンデマンド呼び出しを行うコーディングエージェント(Coding Agent)とグラウンディングエージェント(Grounding Agent)を追加統合しました。我々は、Opus 4.5、4.6、Gemini 3.1 Pro を含む 5 つのトップティアバックボーンを、OSWorld と WindowsAgentArena の 2 つのベンチマークで、Linux タスクと Windows タスクの両方に対して VLAA-GUI を評価し、両方でトップパフォーマンスを達成しました(OSWorld で 77.5%、WindowsAgentArena で 61.0%)。特に、OSWorld の単一パスで 5 つのバックボーンの 3 つが人間のパフォーマンス(72.4%)を超えました。消融研究は、提案された 3 つのコンポーネントすべてが強力なバックボーンを恒常的に改善すること、そしてステップ予算が十分である場合、より弱いバックボーンがこれらのツールからより大きな利益を得ることを示しました。さらに、ループブレイカーがループに悩むモデルにおける無駄なステップを約半減することを示しました。

Original Content

arXiv:2604.21375v1 Announce Type: cross Abstract: Autonomous GUI agents face two fundamental challenges: early stopping, where agents prematurely declare success without verifiable evidence, and repetitive loops, where agents cycle through the same failing actions without recovery. We present VLAA-GUI, a modular GUI agentic framework built around three integrated components that guide the system on when to Stop, Recover, and Search. First, a mandatory Completeness Verifier enforces UI-observable success criteria and verification at every finish step -- with an agent-level verifier that cross-examines completion claims with decision rules, rejecting those lacking direct visual evidence. Second, a mandatory Loop Breaker provides multi-tier filtering: switching interaction mode after repeated failures, forcing strategy changes after persistent screen-state recurrence, and binding reflection signals to strategy shifts. Third, an on-demand Search Agent searches online for unfamiliar workflows by directly querying a capable LLM with search ability, returning results as plain text. We additionally integrate a Coding Agent for code-intensive actions and a Grounding Agent for precise action grounding, both invoked on demand when required. We evaluate VLAA-GUI across five top-tier backbones, including Opus 4.5, 4.6 and Gemini 3.1 Pro, on two benchmarks with Linux and Windows tasks, achieving top performance on both (77.5% on OSWorld and 61.0% on WindowsAgentArena). Notably, three of the five backbones surpass human performance (72.4%) on OSWorld in a single pass. Ablation studies show that all three proposed components consistently improve a strong backbone, while a weaker backbone benefits more from these tools when the step budget is sufficient. Further analysis also shows that the Loop Breaker nearly halves wasted steps for loop-prone models.