Back to list
arxiv_cs_ai 2026年2月10日

W&D: 平行ツール呼び出しによる並行深く進化した研究代理体を高効率化

W&D:Scaling Parallel Tool Calling for Efficient Deep Research Agents

Translated: 2026/3/7 8:23:45

Japanese Translation

深みのある研究代理体は、複雑な知性的タスクの自動化に向けて、多段階思考とウェブベースの情報検索を通じて強力なツールとして登場しました。最近の努力により、これらの代理体が深い部分を拡大するのに対してパフォーマンスを向上させていますが、幅を拡大するための並列ツール呼び出しの潜在的な可能性はまだほぼ利用されていませんでした。この仕事では、私たちのWIDE AND DEEP研究代理体というフレームワークを提案しました。これは、異なる深さではなく、同じ理由ングステップ内で幅も並列化された代理人行為とパフォーマンスを調査するためです。既存の方法とは異なり、「多くの多代理機構」により作業量を並列化することを目指して複雑な機構を使いませんでした。代わりに、内部で並行的なツール呼び出しを利用するというインプライントが利用されます。そのため、合理的な手順での平行の効果的な協調になります。これは、幅の拡大により深みのある研究のベンチマークに対するパフォーマンスを向上させることを示しました。また、幅と深みについての効率的な調整に着目することで高効率な深さのある研究代理体の道につながるとも分析しました。 GPT-5-Medium上でのBROWSECOMPAに至って62.2%の精度を取得し、GPT-5-Highで64.9%と報告されている143のデータはを超えることを確認しました。一方で、特定のバックグランド管理や別のトリックを使用しない状態でも達成可能です。

Original Content

arXiv:2602.07359v1 Announce Type: new Abstract: Deep research agents have emerged as powerful tools for automating complex intellectual tasks through multi-step reasoning and web-based information seeking. While recent efforts have successfully enhanced these agents by scaling depth through increasing the number of sequential thinking and tool calls, the potential of scaling width via parallel tool calling remains largely unexplored. In this work, we propose the Wide and Deep research agent, a framework designed to investigate the behavior and performance of agents when scaling not only depth but also width via parallel tool calling. Unlike existing approaches that rely on complex multi-agent orchestration to parallelize workloads, our method leverages intrinsic parallel tool calling to facilitate effective coordination within a single reasoning step. We demonstrate that scaling width significantly improves performance on deep research benchmarks while reducing the number of turns required to obtain correct answers. Furthermore, we analyze the factors driving these improvements through case studies and explore various tool call schedulers to optimize parallel tool calling strategy. Our findings suggest that optimizing the trade-off between width and depth is a critical pathway toward high-efficiency deep research agents. Notably, without context management or other tricks, we obtain 62.2% accuracy with GPT-5-Medium on BrowseComp, surpassing the original 54.9% reported by GPT-5-High.