Back to list
arxiv_cs_ai 2026年2月10日

SWE ワイヤーベント ボーンチ: データ学習の評価基準

SWE Context Bench: A Benchmark for Context Learning in Coding

Translated: 2026/3/7 13:28:34
benchmarkcontextual-learningprogramming-agents

Japanese Translation

大規模な言語モデルは、リポジトリレベルのソフトウェア工工程事タスクをプログラム代理体として日益増しており、これは現実のコードベースでの正誤に基づいて評価される多くのベンチマークと似ています。しかし、最近のこれらのベンチマークでは、いくつかのタスクが独立性に基づき評価され、関連問題で経験材料を再利用することは評価されていません。そのため、経験蓄積、参照、適用の能力、そしてその再利用による効率的なガ radに評価の難航は避けられます。我々のSWE-ContextBenchは、プログラミング上の代理人での経験の再使用を有するように設計されており、これらはSW-E-Bench ライトと拡張されます。300本の基底タスクに、GitHubの問題やプルリクエストとの実際の依存関係と参照関係から得られた99つの関連タスクを組み込んでいます.これが共有されるコンテキストに基づくタスクシーケンスが評価されます。計測されます。SWE-ContextBenchでは、予測精度、時間効率そしてコスト効率の三組の補完的なDIMENSIONを評価します。SWE-ContextBenchを使用して、複数の経験再利用の状況を調査し.オラクルからの指図や自己のリカバリも含まれています。,そしてターゲット全体の実行トレースとコンパクトなサマーリー。我々の結果は、適切に選択された要約済みの経験が解決の精度を改善しそしてランタイムやトークン コストを大幅に節約します. しかし、未フィルターされたものや誤って選択されたものは僅かまたは効果的に改善しません。これらの結果は経験表現と抽出品質の重要性を指摘し、SWE-ContextBenchはプログラミング代理体での経験の再使用を研究するための原理的なベンチマークとなっています。

Original Content

arXiv:2602.08316v1 Announce Type: cross Abstract: Large language models are increasingly used as programming agents for repository level software engineering tasks. While recent benchmarks evaluate correctness in realistic codebases, they largely treat tasks as independent and do not assess whether agents can reuse experience across related problems. As a result, the ability of agents to accumulate, retrieve, and apply prior experience, as well as the efficiency gains from such reuse, remains difficult to measure. We introduce SWE-ContextBench, a benchmark designed to explicitly evaluate experience reuse in programming agents. Built on SWE-Bench Lite, SWE-ContextBench augments 300 base tasks with 99 related tasks derived from real dependency and reference relationships among GitHub issues and pull requests, forming task sequences with shared context. The benchmark evaluates agents along three complementary dimensions: prediction accuracy, time efficiency, and cost efficiency. Using SWE-ContextBench, we study multiple experience reuse settings, including oracle guided and autonomous retrieval, as well as full execution trajectories and compact summaries. Our results show that correctly selected summarized experience improves resolution accuracy and substantially reduces runtime and token cost, particularly on harder tasks. In contrast, unfiltered or incorrectly selected experience provides limited or negative benefits. These findings highlight the importance of experience representation and retrieval quality, and position SWE-ContextBench as a principled benchmark for studying experience reuse in programming agents.