Back to list
arxiv_cs_ai 2026年2月10日

DeepQuali: 大規模言語モデルを用いたUser Storyの品質評価の最初の結果

DeepQuali: Initial results of a study on the use of large language models for assessing the quality of user stories

Translated: 2026/3/7 14:18:11
qualitative-assessmentsoftware-engineeringlarge-language-modelsagile-software-development

Japanese Translation

大規模な言語モデル (LLM) を使用してソフトウェアエンジニアリングで広く利用されることが増えています。これは主にコーディングタスクに関連していますが、要求工程 - 特別に要件評価に関してはまだ限られた適用しか目指されていません。生成された人工知能の(GAI)の大規模言語モデル (LLM) を使用して要件を抽出したり変換したり分類するなどの要件は用いましたが、品質評価を行うことがなかったのです。深質性 (DeepQuali) という LLM をベースとしたアプローチを考え出し、 Agile型のソフトウェア開発において要求定義の品質を評価し改善するため、そのアイデアを試みました。我々はそれを 2 つ目の小さな会社に適用しました。そこで LLMS の評価結果とエキピージェンツの判断の評価結果を比較しました。また、彼らはその解決策のためにフォローウォークアウトも参加し、そのフィードバックを提供することでまた評価も行われました。また、各々の評価に対しても評価家の大半が LLMS の評価に近い評価をすると同意しました。これは全体的な評価と説明において一致していましたが、細かいレビューに関しては個々での意見の差異が見受けられました。 この結果からそれぞれの経験と知識が判断する要素としては影響を受けているのであれば理解できます。またこれらの効果的であることには彼らは喜ぶ一方で LLMS の使用の構成に対して意見も言いました。そのため、LLMs については品質評価・改善手段でのソフトウェアエンジニアにとって潜在的な可能性があると言えます。品質モデルを明示化し、説明的なフィードバックを通じてその受け入れ性を引き上げることは可能であると我々は推測します。

Original Content

arXiv:2602.08887v1 Announce Type: cross Abstract: Generative artificial intelligence (GAI), specifically large language models (LLMs), are increasingly used in software engineering, mainly for coding tasks. However, requirements engineering - particularly requirements validation - has seen limited application of GAI. The current focus of using GAI for requirements is on eliciting, transforming, and classifying requirements, not on quality assessment. We propose and evaluate the LLM-based (GPT-4o) approach "DeepQuali", for assessing and improving requirements quality in agile software development. We applied it to projects in two small companies, where we compared LLM-based quality assessments with expert judgments. Experts also participated in walkthroughs of the solution, provided feedback, and rated their acceptance of the approach. Experts largely agreed with the LLM's quality assessments, especially regarding overall ratings and explanations. However, they did not always agree with the other experts on detailed ratings, suggesting that expertise and experience may influence judgments. Experts recognized the usefulness of the approach but criticized the lack of integration into their workflow. LLMs show potential in supporting software engineers with the quality assessment and improvement of requirements. The explicit use of quality models and explanatory feedback increases acceptance.