arxiv_cs_ai 2026年2月10日

プルリクエストによるリポジトリレベルのコード編集訓練

Pull Requests as a Training Signal for Repo-Level Code Editing

Translated: 2026/3/7 12:35:53

machine-learningprogramming-languagesrepository-level-editingtraining-signal

Japanese Translation

リポジトリレベルのコード編集は、複合的な依存関係を理解し、大きなコーディングベースで複雑な多ファイル変更を実行するモデルに必要とされます。最近のスウェーバンクでの進歩には複雑なアジェントサフカスタールが重視されていますが、これについて明確にしていませんでしたのは、訓練信号を通じてどれだけこの能力を持つことが内部化できるかです。それを解決するために、クリーン・プルリクエスト（Clean-PR）という中間的訓練のプラクティスを提案しました。これは、実世界のGitHubプルリクエストがリポジトリレベルの編集訓練信号となることを利用しています。そのための可処置に数値化され未曽先伝の pipelines は、ゴミ混じりなプルリクエスト diff を再構築と検証を経て、シンキング/リプレース edit ブロックへと展開し、200万个分以上の公開可視プルリクエストに亘る12つのプログラミング言語セットが対象となることを提案しました。そしてこれは訓練信号を利用し、我々のモデルが説明的ステージを経て、アジェントなしで局相調整された監督的な細かなアップデートプロセスを適用したものを実施しました。SWEーバンクテストでの評価によると、我々のモデルはインSTRUCTIONSでチューニングされたベースラインから約13.6ポイントパーセントも約12.3ポイントパーセントも改善し、その結果はリポジトリレベルのコード理解と編集能力を模型重ね込みに内包できないという論理を無視せよと示しました。これは、複雑なインスタンス-トライングが不要である中間的、アジェントによる不適切なプロトコルを使用することなく、モデルの重量でこれらの能力を内包する可能性が証明されています。

Original Content

arXiv:2602.07457v1 Announce Type: cross Abstract: Repository-level code editing requires models to understand complex dependencies and execute precise multi-file modifications across a large codebase. While recent gains on SWE-bench rely heavily on complex agent scaffolding, it remains unclear how much of this capability can be internalised via high-quality training signals. To address this, we propose Clean Pull Request (Clean-PR), a mid-training paradigm that leverages real-world GitHub pull requests as a training signal for repository-level editing. We introduce a scalable pipeline that converts noisy pull request diffs into Search/Replace edit blocks through reconstruction and validation, resulting in the largest publicly available corpus of 2 million pull requests spanning 12 programming languages. Using this training signal, we perform a mid-training stage followed by an agentless-aligned supervised fine-tuning process with error-driven data augmentation. On SWE-bench, our model significantly outperforms the instruction-tuned baseline, achieving absolute improvements of 13.6% on SWE-bench Lite and 12.3% on SWE-bench Verified. These results demonstrate that repository-level code understanding and editing capabilities can be effectively internalised into model weights under a simplified, agentless protocol, without relying on heavy inference-time scaffolding.