Back to list
arxiv_cs_ai 2026年2月10日

大規模言語モデルの評価に関するLDRの違反検出における可能性

Evaluating Large Language Models for Detecting Architectural Decision Violations

Translated: 2026/3/7 12:38:14
machine-learningsoftware-engineeringarchitecture-decision-recordslarge-language-models

Japanese Translation

アーキテクチャ・デシジョンレコード(ADR)はソフトウェアアーキテクチャの品質保護に重要な役割を果たしていますが、プロジェクトが適切なシステムドキュメンテーションと自動化された検出メカニズムを持たない限り、多くの決定違反は注意されていません。最近の大型言語モデル(LLM)の進歩により、大規模なアーキテクチャ・リASONが単一化されることで新たな可能性が開かれました。私たちの研究では、オープンソースシステム内のADRについて109のGitHubリポジトリにおいて、一つのLLMが潜在的な決定違反を初め、3つのオプションのLLMが独立してリーザンの検証を行うマルチモデルパイプラインの効果性を調査しました。その結果は合意度、精度、一貫性、再現性についての評価とともに quantitative な見解、専門的な評価と補完されました。モデルは明確でカレントに可能な決定違反に関して大きな合意と強力な誤差の予期lessnessを達成しましたが、暗黙的またはデプロイメント指向の決定に関する予測可能性は低いです。よって、LLMはアーキテクチャ・デシジョンの適合性に対してバリケンツ的支持が可能である一方で、コード以外に焦点を置く事についてはまだ人間の専門知識を代用しています。

Original Content

arXiv:2602.07609v1 Announce Type: cross Abstract: Architectural Decision Records (ADRs) play a central role in maintaining software architecture quality, yet many decision violations go unnoticed because projects lack both systematic documentation and automated detection mechanisms. Recent advances in Large Language Models (LLMs) open up new possibilities for automating architectural reasoning at scale. We investigated how effectively LLMs can identify decision violations in open-source systems by examining their agreement, accuracy, and inherent limitations. Our study analyzed 980 ADRs across 109 GitHub repositories using a multi-model pipeline in which one LLM primary screens potential decision violations, and three additional LLMs independently validate the reasoning. We assessed agreement, accuracy, precision, and recall, and complemented the quantitative findings with expert evaluation. The models achieved substantial agreement and strong accuracy for explicit, code-inferable decisions. Accuracy falls short for implicit or deployment-oriented decisions that depend on deployment configuration or organizational knowledge. Therefore, LLMs can meaningfully support validation of architectural decision compliance; however, they are not yet replacing human expertise for decisions not focused on code.