Back to list
arxiv_cs_lg 2026年4月24日

QuanBench+: 一貫したマルチフレームワーク ベンチマークとしての LLM 基盤量子コード生成

QuanBench+: A Unified Multi-Framework Benchmark for LLM-Based Quantum Code Generation

Translated: 2026/4/24 20:10:48
llmquantum-computingcode-generationbenchmarkingmachine-learning

Japanese Translation

arXiv:2604.08570v2 Announce Type: replace 要約:大型言語モデル(LLM)はコード生成にますます利用されていますが、量子コード生成の評価はまだ単一フレームワーク内に限られており、量子論理をフレームワークへの慣れから分離するのが困難です。私たちは、Qiskit、PennyLane、Cirq をまたぐ統一されたベンチマーク QuanBench+ を導入します。このベンチマークには、量子アルゴリズム、ゲートの分解、状態準備をカバーする 42 個の対応するタスクが含まれています。 私たちは実行可能な関数テストモデルを用いて評価し、Pass@1 および Pass@5 を報告し、確率的出力のために KL-分離に基づく受諾則を用います。また、実行時エラーまたは誤った回答後にモデルがコードを修正できるフィードバック基の修復後の Pass@1 についても追加で調査しました。フレームワーク間をわたって、1 つの試行での最高スコアは Qiskit で 59.5%、Cirq で 54.8%、PennyLane で 42.9% に達し、フィードバック基の修復ではそれぞれ 83.3%、76.2%、66.7% に上昇しました。これらの結果は明確な進歩を示していますが、また信頼性の高いマルチフレームワーク量子コード生成がまだ解決されていないことがあり、依然としてフレームワーク固有の知識に強く依存していることを示しています。

Original Content

arXiv:2604.08570v2 Announce Type: replace Abstract: Large Language Models (LLMs) are increasingly used for code generation, yet quantum code generation is still evaluated mostly within single frameworks, making it difficult to separate quantum reasoning from framework familiarity. We introduce QuanBench+, a unified benchmark spanning Qiskit, PennyLane, and Cirq, with 42 aligned tasks covering quantum algorithms, gate decomposition, and state preparation. We evaluate models with executable functional tests, report Pass@1 and Pass@5, and use KL-divergence-based acceptance for probabilistic outputs. We additionally study Pass@1 after feedback-based repair, where a model may revise code after a runtime error or wrong answer. Across frameworks, the strongest one-shot scores reach 59.5% in Qiskit, 54.8% in Cirq, and 42.9% in PennyLane; with feedback-based repair, the best scores rise to 83.3%, 76.2%, and 66.7%, respectively. These results show clear progress, but also that reliable multi-framework quantum code generation remains unsolved and still depends strongly on framework-specific knowledge.