Back to list
VVS: 部分検証スキップによる視覚自己回帰生成の推測推論加速度化
VVS: Accelerating Speculative Decoding for Visual Autoregressive Generation via Partial Verification Skipping
Translated: 2026/4/24 19:50:39
Japanese Translation
arXiv:2511.13587v2 発表 タイプ:置換
要旨:
視覚的自己回帰(AR)生成モデルは画像生成において強い潜在力を示しており、しかしその次トークン予測パラダイムは大幅な推論遅延をもたらします。仮説推論(Speculative Decoding:SD)は視覚 AR モデルの加速度化において有効であることが証明されましたが、「ドラフト 1 ステップ、その後検証 1 ステップ」というパラダイムは、目標モデルのフワードパス数を直接削減することを防止し、加速度の限界を阻害しています。視覚トークンの相互置換性をモチベーションとし、初めて SD プロセスにおける検証スキップを探索し、目標モデルのフワードパス数を明確に削減することで推論遅延を軽減することを試みました。ドラフト段階の特性を分析したところ、検証の冗長性と陳腐化特性の機能再利用は、検証なしのステップにおいて生成品質を維持し、速度を向上させるための重要な要因であることが観察されました。これらの 2 つの観察を刺激して、VVS という新しい SD フレームワークを提案し、部分検証スキップによって視覚 AR モデルを加速度化しました。これは、3 つの補完的なモジュールを統合しています:(1) 動的短縮機能を持つ検証なしトークン選択器、(2) トークンレベルの機能キャッシュと再利用、(3) 詳細なスキップステップスケジュールです。したがって、VVS は従来の AR デコーディングに対する$2.8 imes$の比率で目標モデルのフワードパス数を削減し、競争的な生成品質を維持するとともに、従来の SD フレームワークに比べて優れた速度と品質のトレードオフを提供し、SD パラダイムの再構築に強い潜在力を持つことを示しました。当社のコードは https://github.com/HyattDD/VVS に入手可能です。
Original Content
arXiv:2511.13587v2 Announce Type: replace
Abstract: Visual autoregressive (AR) generation models have demonstrated strong potential for image generation, yet their next-token-prediction paradigm introduces considerable inference latency. Although speculative decoding (SD) has been proven effective for accelerating visual AR models, its "draft one step, then verify one step" paradigm prevents a direct reduction in the number of forward passes, limiting its acceleration potential. Motivated by the interchangeability of visual tokens, we explore verification skipping in the SD process for the first time to explicitly cut the number of target model forward passes, thereby reducing inference latency. By analyzing the characteristics of the drafting stage, we observe that verification redundancy and stale feature reusability are key factors to maintain generation quality while improving speed for verification-free steps. Inspired by these two observations, we propose a novel SD framework VVS to accelerate visual AR model via partial verification skipping, which integrates three complementary modules: (1) a verification-free token selector with dynamic truncation, (2) token-level feature caching and reuse, and (3) fine-grained skipped step scheduling. Consequently, VVS reduces the number of target model forward passes by $2.8\times$ relative to vanilla AR decoding while maintaining competitive generation quality, offering a superior speed-quality trade-off over conventional SD frameworks and revealing strong potential to reshape the SD paradigm. Our code is available at https://github.com/HyattDD/VVS.