Back to list
量より質:コードコードエージェントのトラジェクトリーユーススケール
Beyond Quantity: Trajectory Diversity Scaling for Code Agents
Translated: 2026/2/14 7:04:44
Japanese Translation
コードの大規模言語モデル(LLM)がModel Context Protocol(MCP)を通してツールとのインタラクティブなアジェンダに進化するにつれ、モデルの一般化は、低品質のシミュレーションデータと、数量的なスケーラビリティから得る有益な効果の低下によってますます限られている問題が発生しています。また、数量中心のスケーリングでは、初期フレームワークにバリアントがあり、動径情報に対する利用度が低いです。我々は「TDScaling」という名称の新しい情報生成フレームワークを提案する。「TDScaling」は、コードエージェント向けのトラジェクトリーユーススケールに基づいた情報生成モデルで、効果より多様性に焦点を当てるかたちでパフォーマンスを伸ばすことに特化しています。固定されたトレーニング予算下では、動径の多様性に対する改善は、新たなトリアジェクトリーよりも増加した動径と結果として得られますが、エージェントのトレーニングに対して性能対価バランスを改善してくれます。「TDScaling」には4つのイノベーションが組み込まれています:(1) ビジネスクラスタメカニズムで実在的なサービスからの依存関係を捉える。(2) ブループリーツ導かれのマルチエージェンツな慣行で、動径の一貫性を強制する。また(3) 有効性を変動させている「Domain Entropy」「Reasoning Mode Entropy」そして「Cumulative Action Complexity」を使用して、多様性に基づいてデータ生成の方向性を舵取る演進的なメカニズム。(4) 危険な欠落を制御するためのシャンプング・コードツールが含まれている。一般的な工具利用のテストベジェント(BFCL, tau^2-Bench)と、コードエージェント向けのタスク(RebenchT、CodeCI 、BIRD)での実験により、 「TDScaling」は一般的な効力性の改善と固有のコード能力向上という結果をもたらしました。その研究報告は公表される際には全体プロジェクトのコードベースを公開し、そして生成されたデータセット(30,000+のツールクラスターセットを含む)も公表することを計画しています。
Original Content
arXiv:2602.03219v2 Announce Type: replace
Abstract: As code large language models (LLMs) evolve into tool-interactive agents via the Model Context Protocol (MCP), their generalization is increasingly limited by low-quality synthetic data and the diminishing returns of quantity scaling. Moreover, quantity-centric scaling exhibits an early bottleneck that underutilizes trajectory data. We propose TDScaling, a Trajectory Diversity Scaling-based data synthesis framework for code agents that scales performance through diversity rather than raw volume. Under a fixed training budget, increasing trajectory diversity yields larger gains than adding more trajectories, improving the performance-cost trade-off for agent training. TDScaling integrates four innovations: (1) a Business Cluster mechanism that captures real-service logical dependencies; (2) a blueprint-driven multi-agent paradigm that enforces trajectory coherence; (3) an adaptive evolution mechanism that steers synthesis toward long-tail scenarios using Domain Entropy, Reasoning Mode Entropy, and Cumulative Action Complexity to prevent mode collapse; and (4) a sandboxed code tool that mitigates catastrophic forgetting of intrinsic coding capabilities. Experiments on general tool-use benchmarks (BFCL, tau^2-Bench) and code agent tasks (RebenchT, CodeCI, BIRD) demonstrate a win-win outcome: TDScaling improves both tool-use generalization and inherent coding proficiency. We plan to release the full codebase and the synthesized dataset (including 30,000+ tool clusters) upon publication.