Back to list
GraphLeap: グラフ構築と畳み込みの解離による FPGA 上のビジョン GNN 加速
GraphLeap: Decoupling Graph Construction and Convolution for Vision GNN Acceleration on FPGA
Translated: 2026/4/24 19:42:20
Japanese Translation
arXiv:2604.21290v1 Announce Type: new
摘要:ビジョングラフニューラルネットワーク(ViG)は、画像をパッチトークンのグラフとして表現し、適応的で特徴指向的な近傍を提供します。固定グリッドバイアスを持つ CNN や、グローバルトークン相互作用を持つビジョントランスフォーマーとは異なり、ViG は動的なグラフ畳み込みに基づいています。各層で、現在のパッチ特徴に基づき k 近傍(kNN)検索を行い、その後メッセージパッシングを行うため、動的なグラフが構築されます。この層ごとのグラフ構築が、CPU および GPU 上でグラフ畳みの時間全体の 50〜95% を占める主要なボトルネックであり、パッチ数 N に比例して $O(N^2)$ でスケールし、グラフ構築と特徴更新の間の順序依存性を生み出しています。
われわれは、この依存関係を層間において特徴更新とグラフ構築の解離によって削除する、シンプルな再定式化 GraphLeap を提案します。GraphLeap は、層 $\ell$ の特徴更新を前層の特徴に基づいたグラフを用いて実行しつつ、同時に現在の層の特徴を層 $\ell+1$ のグラフ構築に利用します。この 1 レイヤー先のグラフ構築により、グラフ構築とメッセージパッシングが並列化されます。先層の特徴を使用することは精度の軽微な低下をもたらす可能性がありますが、数エポック向けの軽量化微調整を行うことで元々の精度が回復します。GraphLeap を構築し、われわれは、初めてビジョン GNN のエンドエンド FPGA アクセラレーターを提示します。わたしたちのスリーミング・レイパイプライン設計は、kNN グラフ構築エンジンと特徴更新エンジンを重ね合わせ、ノードおよびチャネル並列性を活用し、明示的なエッジ・特徴材質化なしに効率的なオンチップデータフローを実現させます。等方性とピラミッド型 ViG モデルを Alveo U280 FPGA で評価し、GraphLeap は CPU に対して最大 $95.7 imes$ の高速化、GPU ベースラインに対して $8.5 imes$ の高速化を達成し、リアルタイムビジョン GNN 推論の実現可能性を示しました。
Original Content
arXiv:2604.21290v1 Announce Type: new
Abstract: Vision Graph Neural Networks (ViGs) represent an image as a graph of patch tokens, enabling adaptive, feature-driven neighborhoods. Unlike CNNs with fixed grid biases or Vision Transformers with global token interactions, ViGs rely on dynamic graph convolution: at each layer, a feature-dependent graph is built via k-nearest-neighbor (kNN) search on current patch features, followed by message passing. This per-layer graph construction is the main bottleneck, consuming 50--95\% of graph convolution time on CPUs and GPUs, scaling as $O(N^2)$ with the number of patches $N$, and creating a sequential dependency between graph construction and feature updates.
We introduce GraphLeap, a simple reformulation that removes this dependency by decoupling graph construction from feature update across layers. GraphLeap performs the feature update at layer $\ell$ using a graph built from the previous layer's features, while simultaneously using the current layer's features to construct the graph for layer $\ell+1$. This one-layer-lookahead graph construction enables concurrent graph construction and message passing. Although using prior-layer features can introduce minor accuracy degradation, lightweight fine-tuning for a few epochs is sufficient to recover the original accuracy. Building on GraphLeap, we present the first end-to-end FPGA accelerator for Vision GNNs. Our streaming, layer-pipelined design overlaps a kNN graph construction engine with a feature update engine, exploits node- and channel-level parallelism, and enables efficient on-chip dataflow without explicit edge-feature materialization. Evaluated on isotropic and pyramidal ViG models on an Alveo U280 FPGA, GraphLeap achieves up to $95.7\times$ speedup over CPU and $8.5\times$ speedup over GPU baselines, demonstrating the feasibility of real-time Vision GNN inference.