Back to list
arxiv_cs_ai 2026年2月10日

ProjDevBench:AIコーディングエージェントのエンディトエンド開発ベンチマークへの調査

ProjDevBench: Benchmarking AI Coding Agents on End-to-End Project Development

Translated: 2026/2/14 6:31:52

Japanese Translation

最近のコードエージェントはシンプルなヒントから完全なコーディングベースを生成することが可能です。しかし、既存の評価は特定のバグ固定に焦点を当てていますが、エンディトエンド開発を追い越すのが遅れています。 ProjDevBenchは、コードエージェントに対してプロジェクト要件を提供し結果となるリポジトリに対するベンチマークです。 オンラインジャッジメント試験(OJ)、人工知能ロボット応助によるコードレビューの組合わせにより、ベンチマークはエージェントについて(1)システムアーキテクチャ設計、(2)機能合意性、および(3)反復ソリューション改良を評価します。弊社は、プログラミング問題20本、8つの分類でカurationし、概念指向型タスクと実世界アプリケーションシナリオの両方の範囲に跨いだ164つのコードエージェントで7種類の後を評価します。弊社の評価は実際27.38%の合意率:エージェントが基本的な機能とデータ構造を処理しますが、複雑なシステム設計や時間計算最適化、リソース管理に困難を感じています。 我々のベンチマークはhttps://github.com/zsworld6/projdevbenchで入手できます。

Original Content

arXiv:2602.01655v2 Announce Type: replace Abstract: Recent coding agents can generate complete codebases from simple prompts, yet existing evaluations focus on issue-level bug fixing and lag behind end-to-end development. We introduce ProjDevBench, an end-to-end benchmark that provides project requirements to coding agents and evaluates the resulting repositories. Combining Online Judge (OJ) testing with LLM-assisted code review, the benchmark evaluates agents on (1) system architecture design, (2) functional correctness, and (3) iterative solution refinement. We curate 20 programming problems across 8 categories, covering both concept-oriented tasks and real-world application scenarios, and evaluate six coding agents built on different LLM backends. Our evaluation reports an overall acceptance rate of 27.38%: agents handle basic functionality and data structures but struggle with complex system design, time complexity optimization, and resource management. Our benchmark is available at https://github.com/zsworld6/projdevbench.