Back to list
NISQ デバイスにおける動的回路の量子ビット再利用と Grover 最適化によるスケーラブルな量子強化学習
Scalable Quantum Reinforcement Learning on NISQ Devices with Dynamic-Circuit Qubit Reuse and Grover Optimization
Translated: 2026/4/24 20:12:45
Japanese Translation
arXiv:2509.16002v2 Announce Type: replace-cross
要約:本稿では、多段階量子マルコフ決定過程(QMDPs)における線形量子ビットスケーリングの壁を取り除く、スケーラブルかつリソース効率の高い量子強化学習フレームワークを提示します。提案されたフレームワークは、QMDP 記述、動的回路実行、および Grover ベースの振幅増幅を統合した統合的な量子ネイティブアーキテクチャを特徴とします。環境ダイナミクスは完全に量子ヒルベルト空間内に変換されており、状態・行動シーケンスにおけるコヒーレント重ね合わせを可能にし、量子ビットから古典情報への中間変換なしに直接的に量子エージェント・環境インターフェースを確立します。中心的な貢献は、多段階 QMDPs 向けの動的実行モデルであり、これが中回路測定とリセットを採用して、順序立てた相互作用において固定された物理量子レジスタを再利用率を高めるとともに、物理量子ビット数を 7×T から T に比例しない定数の 7 に削減します。このアプローチは、静的に展開された QMDP に対する経路忠実度を維持しつつ、状態・行動シーケンスを生成することを可能にし、T 交互の物理量子ビット要件を O(T) から O(1) に変更します。経路リターンは量子演算子を用いて評価され、高リターン経路は振幅増幅を用いてマーキング・増幅され、サンプリング確率が増加します。シミュレーションは、静的設計と比較して 66% の量子ビット削減においても経路忠実度の保全を裏付けています。IBM Heron クラスプロセッサでの実験的実行は、ノイズ中間規模量子ハードウェアにおける実現可能性を証明し、大規模量子ネイティブ強化学習のためのスケーラブルかつリソース効率の高い基礎を確立します。
Original Content
arXiv:2509.16002v2 Announce Type: replace-cross
Abstract: A scalable and resource-efficient quantum reinforcement learning framework is presented that eliminates the linear qubit-scaling barrier in multi-step quantum Markov decision processes (QMDPs). The proposed framework integrates a QMDP formulation, dynamic-circuit execution, and Grover-based amplitude amplification into a unified quantum-native architecture. Environment dynamics are encoded entirely within quantum Hilbert space, enabling coherent superposition over state-action sequences and a direct quantum agent-environment interface without intermediate quantum-to-classical conversion. The central contribution is a dynamic execution model for multi-step QMDPs that employs mid-circuit measurement and reset to recycle a fixed physical quantum register across sequential interactions. This approach preserves trajectory fidelity relative to a static unrolled QMDP, generating identical state-action sequences while reducing the physical qubit requirement from 7xT to a constant 7, independent of the interaction horizon T. Thus, the qubit complexity of multi-step QMDPs is transformed from O(T) to O(1) while maintaining functional equivalence at the level of trajectory generation. Trajectory returns are evaluated via quantum arithmetic, and high-return trajectories are marked and amplified using amplitude amplification to increase their sampling probability. Simulations confirm preservation of trajectory fidelity with a 66% qubit reduction compared to a static design. Experimental execution on an IBM Heron-class processor demonstrates feasibility on noisy intermediate-scale quantum hardware, establishing a scalable and resource-efficient foundation for large-scale quantum-native reinforcement learning.