arxiv_cs_lg 2026年4月20日

The Amazing Agent Race: 強力なツールユーザ、弱いナビゲーター

The Amazing Agent Race: Strong Tool Users, Weak Navigators

Translated: 2026/4/20 11:08:36

llm-agentsbenchmarktool-useagent-navigationdpg

Japanese Translation

arXiv:2604.10261v2 Announce Type: replace-cross 要約：既存の LLM エージェントのためのツール使用ベンチマークは圧倒的に線形的である：6 つのベンチマークの分析において、55 から 100% のインスタンスが 2 から 5 ステップの単純な連鎖であることを確認しました。We introduce The Amazing Agent Race (AAR)、フォーク - 統合ツールチェーンを備えた方向付き非循環グラフ (DAG) パズル（または「レグ」）を特徴とするベンチマークを導入しました。1,400 つのインスタンスを 2 つのバリアント（順序付きで 800 レグ、組合せ付きで 600 DAG レグ）にリリースしました。エージェントはウィキペディアをナビゲートし、多段階のツールチェーンを実行して、検証可能な答えに結果を集計する必要があります。レグは 4 つの難易度レベルでウィキペディア種子から手続き的に生成され、ライブ API 検証が伴います。3 つの補完的な指標（ゴール精度、ピットストップ訪問率、障害物完了率）はそれぞれ、ナビゲーション、ツール使用、算術の失敗を診断します。1,400 レグに対して 3 つのエージェントフレームワークを評価し、最高のものだけが 37.2% の精度を達成しました。ナビゲーション誤りは支配的です（試行の 27 から 52%）一方で、ツール使用誤りは 17% 未満で、エージェントのアーキテクチャはモデル規模と同じくらい重要です（Claude Code はトークン数を 6 倍減らして Codex CLI と 37% の精度を維持しました）。AAR の組合せ構造は、エージェントはツールの呼び出しではなく、適切なページへのナビゲーションで失敗しており、これは線形的ベンチマークでは視認できない盲点であることを明らかにしています。プロジェクトページは以下の URL からアクセスできます：https://minnesotanlp.github.io/the-amazing-agent-race

Original Content

arXiv:2604.10261v2 Announce Type: replace-cross Abstract: Existing tool-use benchmarks for LLM agents are overwhelmingly linear: our analysis of six benchmarks shows 55 to 100% of instances are simple chains of 2 to 5 steps. We introduce The Amazing Agent Race (AAR), a benchmark featuring directed acyclic graph (DAG) puzzles (or "legs") with fork-merge tool chains. We release 1,400 instances across two variants: sequential (800 legs) and compositional (600 DAG legs). Agents must navigate Wikipedia, execute multi-step tool chains, and aggregate results into a verifiable answer. Legs are procedurally generated from Wikipedia seeds across four difficulty levels with live-API validation. Three complementary metrics (finish-line accuracy, pit-stop visit rate, and roadblock completion rate) separately diagnose navigation, tool-use, and arithmetic failures. Evaluating three agent frameworks on 1,400 legs, the best achieves only 37.2% accuracy. Navigation errors dominate (27 to 52% of trials) while tool-use errors remain below 17%, and agent architecture matters as much as model scale (Claude Code matches Codex CLI at 37% with 6x fewer tokens). The compositional structure of AAR reveals that agents fail not at calling tools but at navigating to the right pages, a blind spot invisible to linear benchmarks. The project page can be accessed at: https://minnesotanlp.github.io/the-amazing-agent-race