arxiv_cs_lg 2026年4月24日

KOCO-BENCH: 大規模言語モデルがソフトウェア開発におけるドメイン知識を活用できるか？

KOCO-BENCH: Can Large Language Models Leverage Domain Knowledge in Software Development?

Translated: 2026/4/24 20:13:46

large-language-modelssoftware-developmentbenchmarkdomain-specializationcode-generation

Japanese Translation

arXiv:2601.13240v2 Announce Type: replace-cross 要約: 大規模言語モデル（LLM）は汎用的なプログラミングには秀でますが、ドメイン特化型のソフトウェア開発では苦戦し、LLM にドメイン知識およびデータを学習・活用させるための専門化手法が必要となりました。既存のドメイン特化型コードベンチマークは、LLM がどの知識を掌握しているか rather than 新しい知識をどのように取得・適用するかを評価することに焦点を当てており、ドメイン特化型手法の開発に明確な知識コーポラ lacking を欠いています。これに対応して、私たちは現実世界のソフトウェア開発においてドメイン特化型手法を評価するための新しいベンチマークである KOCO-BENCH を提案しました。KOCO-BENCH は、6 つの新興ドメイン、11 つのソフトウェアフレームワーク、および 25 つのプロジェクトを備え、クエラされた知識コーポラ alongside 関数レベルからプロジェクトレベルまでの厳密なテストスイートを含む複数粒度の評価タスク（ドメインコード生成および複数の選択肢 Q&A を通じたドメイン知識理解）を特徴としています。以前のベンチマークが単に評価用テストセットを提供するのみであったのに対し、KOCO-BENCH は評価タスクを解決するために知識コーポラから多様なドメイン知識（API、規則、制約など）を取得・適用することを求めます。わたらの評価は、KOCO-BENCH が最先端の LLM に対し重大な挑戦を課すことを示しています。ドメイン特化型手法（例：SFT、RAG、kNN-LM）を適用しても、改善は依然として微々たるものです。最高性能を達成したコーディングエージェントである Claude Code は、わずか 34.2% の成績を示し、より効果的なドメイン特化型手法の必要性を痛感させます。私たちは KOCO-BENCH、評価コード、およびベースラインをリリースし、さらなる研究を進めるため https://github.com/jiangxxxue/KOCO-bench に公開しています。

Original Content

arXiv:2601.13240v2 Announce Type: replace-cross Abstract: Large language models (LLMs) excel at general programming but struggle with domain-specific software development, necessitating domain specialization methods for LLMs to learn and utilize domain knowledge and data. However, existing domain-specific code benchmarks cannot evaluate the effectiveness of domain specialization methods, which focus on assessing what knowledge LLMs possess rather than how they acquire and apply new knowledge, lacking explicit knowledge corpora for developing domain specialization methods. To this end, we present KOCO-BENCH, a novel benchmark designed for evaluating domain specialization methods in real-world software development. KOCO-BENCH contains 6 emerging domains with 11 software frameworks and 25 projects, featuring curated knowledge corpora alongside multi-granularity evaluation tasks including domain code generation (from function-level to project-level with rigorous test suites) and domain knowledge understanding (via multiple-choice Q&A). Unlike previous benchmarks that only provide test sets for direct evaluation, KOCO-BENCH requires acquiring and applying diverse domain knowledge (APIs, rules, constraints, etc.) from knowledge corpora to solve evaluation tasks. Our evaluations reveal that KOCO-BENCH poses significant challenges to state-of-the-art LLMs. Even with domain specialization methods (e.g., SFT, RAG, kNN-LM) applied, improvements remain marginal. Best-performing coding agent, Claude Code, achieves only 34.2%, highlighting the urgent need for more effective domain specialization methods. We release KOCO-BENCH, evaluation code, and baselines to advance further research at https://github.com/jiangxxxue/KOCO-bench.