Back to list
SPIRE: 構造化情報を保持した解釈可能な証拠検索
SPIRE: Structure-Preserving Interpretable Retrieval of Evidence
Translated: 2026/4/24 20:19:38
Japanese Translation
arXiv:2604.20849v1 Announce Type: cross
要旨:HTML などの半構造化ソースに対する検索拡張生成(RAG)は、文書の構造化された構造と、現在の埋め込み・生成モデルが平面的かつシーケンスベースであるという不整合によって制限されている。検索パイプラインは、インデックス化前に文書を固定サイズのアナログに線形化することがよくあり、セクション構造、リスト、テーブルなどの構造を曖昧にし、解釈可能性をもたらす周囲の文脈を失ったまま、引用可能な証拠を小規模で検索することを実行しにくくしている。
私たちは、木構造文書上に作用する構造感知型検索パイプラインを提示する。核心的なアイデアは、候補をサブドキュメントとして表することである。サブドキュメントとは、構造同一性を保ちつつ、周囲の文脈の選択を遅延させる、正確でアクセス可能な選択である。私たちは、ドキュメントプリミティブとして、パスとパスの集合、剪定によるサブドキュメント抽出、および 2 つの文脈化メカニズムを定義する。グローバル文脈化は、選択を理解可能にするための非局所的な骨組み(例:タイトル、ヘッダー、リストおよびテーブルの構造)を追加する。ローカル文脈化は、標的予算の下で、コンパクトで文脈豊かな視点を得るために、種の選択をその構造的な近隣内へ拡張する。これらのプリミティブを基に、私たちは句を種とするサブドキュメントをインデックス化し、共有構造的な文脈を均価化する、クエリ実行時の文書感知型アグリゲーションステップを記述する。その後、ローカル文脈化された視点で再スコアリングを行う、文脈フィルタリングステップを導入する。
HTML クエスチョニングベンチマークの実験全体を通じて、私たちは、構造を維持しつつ選択を文脈化することで、固定予算の下で高品質で多様な引用を得られるが、スケーラビリティを維持しつつ、強力なパスベースのベースラインに比べて優れていることを発見した。
Original Content
arXiv:2604.20849v1 Announce Type: cross
Abstract: Retrieval-augmented generation over semi-structured sources such as HTML is constrained by a mismatch between document structure and the flat, sequence-based interfaces of today's embedding and generative models. Retrieval pipelines often linearize documents into fixed-size chunks before indexing, which obscures section structure, lists, and tables, and makes it difficult to return small, citation-ready evidence without losing the surrounding context that makes it interpretable.
We present a structure-aware retrieval pipeline that operates over tree-structured documents. The core idea is to represent candidates as subdocuments: precise, addressable selections that preserve structural identity while deferring the choice of surrounding context. We define a small set of document primitives--paths and path sets, subdocument extraction by pruning, and two contextualization mechanisms. Global contextualization adds the non-local scaffolding needed to make a selection intelligible (e.g., titles, headers, list and table structure). Local contextualization expands a seed selection within its structural neighborhood to obtain a compact, context-rich view under a target budget. Building on these primitives, we describe an embedding-based candidate generator that indexes sentence-seeded subdocuments and a query-time, document-aware aggregation step that amortizes shared structural context. We then introduce a contextual filtering stage that re-scores retrieved candidates using locally contextualized views.
Across experiments on HTML question-answering benchmarks, we find that preserving structure while contextualizing selections yields higher-quality, more diverse citations under fixed budgets than strong passage-based baselines, while maintaining scalability.