Back to list
HWE-Bench: リアルワールドのハードウェアバグ修正タスクにおける LLM エージェントのベンチマーク
HWE-Bench: Benchmarking LLM Agents on Real-World Hardware Bug Repair Tasks
Translated: 2026/4/24 20:31:01
Japanese Translation
arXiv:2604.14709v2 発表型:置換
要約: 既存のハードウェア設計ベンチマークは、仕様から HDL モジュールを生成するなど、孤立した部品レベルのタスクに大規模言語モデル (LLM) を評価するのみであり、リポジトリ規模の評価を対応していません。本研究では、LLM エージェントによるリアルワールドのハードウェアバグ修正タスクを評価するための、最初の大型リポジトリレベルベンチマークである「HWE-Bench」を導入しました。HWE-Bench は、Verilog/SystemVerilog と Chisel の両方を含む 6 つの主要オープンソースプロジェクトにわたる、RISC-V コア、SoC、およびセキュリティの信任根元をカバーする 417 つの作業インスタンスから構成されています。各タスクは、プロジェクト固有のシミュレーションおよび回帰フローによって正当性が検証される、完全にコンテナ化された環境に基づいています。このベンチマークは、新しいリポジトリへの効率的な拡張を可能にするほぼ自動パイプラインで構築されています。4 つのエージェントフレームワークと 7 つの LLM を評価し、最も優れたエージェントが全体のタスクの 70.7% を解決したことを発見しました。小型のコアでは 90% を超える性能を発揮しましたが、複雑な SoC レベルのプロジェクトでは 65% 未満に低下しました。ソフトウェアベンチマークでよく報告されているよりも、モデル間でより大きな性能のギャップが観察され、難しさはコードサイズ単独よりもプロジェクトの規模とバグタイプの分布によって駆動されていることが明らかになりました。私たちの失敗分析は、エージェントの失敗をデバッグプロセスの 3 つの段階に追跡し、RTL、構成、検証コンポーネントにわたるクロスアーチファクトの調整など、より能力のあるハードウェア感知エージェントを開発するための具体的な方向性を提供しました。
Original Content
arXiv:2604.14709v2 Announce Type: replace
Abstract: Existing benchmarks for hardware design primarily evaluate Large Language Models (LLMs) on isolated, component-level tasks such as generating HDL modules from specifications, leaving repository-scale evaluation unaddressed. We introduce HWE-Bench, the first large-scale, repository-level benchmark for evaluating LLM agents on real-world hardware bug repair tasks. HWE-Bench comprises 417 task instances derived from real historical bug-fix pull requests across six major open-source projects spanning both Verilog/SystemVerilog and Chisel, covering RISC-V cores, SoCs, and security roots-of-trust. Each task is grounded in a fully containerized environment where the agent must resolve a real bug report, with correctness validated through the project's native simulation and regression flows. The benchmark is built through a largely automated pipeline that enables efficient expansion to new repositories. We evaluate seven LLMs with four agent frameworks and find that the best agent resolves 70.7% of tasks overall, with performance exceeding 90% on smaller cores but dropping below 65% on complex SoC-level projects. We observe larger performance gaps across models than commonly reported on software benchmarks, and difficulty is driven by project scope and bug-type distribution rather than code size alone. Our failure analysis traces agent failures to three stages of the debugging process: fault localization, hardware-semantic reasoning, and cross-artifact coordination across RTL, configuration, and verification components, providing concrete directions for developing more capable hardware-aware agents.