Back to list
ハイブリッド RAG におけるリトリアル・ピボット攻撃:ベクターシードからグラフ展開への増幅された漏洩の測定と緩和
Retrieval Pivot Attacks in Hybrid RAG: Measuring and Mitigating Amplified Leakage from Vector Seeds to Graph Expansion
Translated: 2026/3/15 8:09:05
Japanese Translation
arXiv:2602.08668v1 Announce Type: cross
要約:混合型リトリアル・オーギュメンテッド・ジェネレーション (Hybrid RAG) パイプラインは、ベクター類似検索と知識グラフの展開を組み合わせて多段推論を実現します。本稿では、この組み合わせがセキュリティ上の新たな失敗モードを導入していることを示します。ベクターで抽出された「シード」チャンクが、エンティティのリンクを通じて感度の高いグラフ領域にピボット(転換)し、ベクター単独の検索では起こらないクロステナントデータ漏洩を引き起こすのです。このリスクをリトリアル・ピボット・リスク (Retrieval Pivot Risk, RPR) として形式化し、漏洩の規模とトラaversal 構造を定量化するために、Leakage@k、増幅因子、およびピボット深さ (Pivot Depth, PD) を伴行指標として導入しました。
我々はベクターからグラフの境界を悪用する 7 つのリトリアル・ピボット・攻撃を提案し、アディバーサリなインジェクションの必要性はないことを示しました。自然に共有されるエンティティが、クロステナントのピボット経路を有機的に創出します。合成マルチテナント企業コーパスとエンロン・メール・コーパスを跨ぎ、防護されていない混合型パイプラインは高いピボットリスクを示し (RPR は最大 0.95)、クエリーごと複数の無許可アイテムが返却されます。漏洩は一貫して PD=2 で観測され、これは双部分のチャンク・エンティティトポロジに起因すると推定し、提案として形式化しました。
次に、我々は単一の位置(グラフの展開境界)で認可を強制することで、両方のコーパス、すべての攻撃バリエーション、10 ٪までのラベル偽造率において計測された漏洩を排除(RPR は 0 に近い)することを示しました。オーバーヘッドは最小限です。我々の結果は、原因が複雑な防御自体ではなく境界の強制にあることを示唆します。2 つの個別にセキュリティ的な検索コンポーネントが、転換点で認可が再確認されない限り、不安全なシステムとして構成されてしまうのです。
Original Content
arXiv:2602.08668v1 Announce Type: cross
Abstract: Hybrid Retrieval-Augmented Generation (RAG) pipelines combine vector similarity search with knowledge graph expansion for multi-hop reasoning. We show that this composition introduces a distinct security failure mode: a vector-retrieved "seed" chunk can pivot via entity links into sensitive graph neighborhoods, causing cross-tenant data leakage that does not occur in vector-only retrieval. We formalize this risk as Retrieval Pivot Risk (RPR) and introduce companion metrics Leakage@k, Amplification Factor, and Pivot Depth (PD) to quantify leakage magnitude and traversal structure.
We present seven Retrieval Pivot Attacks that exploit the vector-to-graph boundary and show that adversarial injection is not required: naturally shared entities create cross-tenant pivot paths organically. Across a synthetic multi-tenant enterprise corpus and the Enron email corpus, the undefended hybrid pipeline exhibits high pivot risk (RPR up to 0.95) with multiple unauthorized items returned per query. Leakage consistently appears at PD=2, which we attribute to the bipartite chunk-entity topology and formalize as a proposition.
We then show that enforcing authorization at a single location, the graph expansion boundary, eliminates measured leakage (RPR near 0) across both corpora, all attack variants, and label forgery rates up to 10 percent, with minimal overhead. Our results indicate the root cause is boundary enforcement, not inherently complex defenses: two individually secure retrieval components can compose into an insecure system unless authorization is re-checked at the transition point.