Back to list
arxiv_cs_ai 2026年2月10日

Nexus: メタデータのみで接続グラフの推定を用いるためのイテーラティブな低ランク行列補完

Nexus: Inferring Join Graphs from Metadata Alone via Iterative Low-Rank Matrix Completion

Translated: 2026/3/7 13:24:29
matrix-completionjoin-graph-inferencemetadata-onlylarge-language-models

Japanese Translation

自動的に接続関係の推測は、効果的なデータ検索・統合・問いや再生という重要なタスクです。しかし、アクセスが制限されており、大規模で複雑なスキーマの中で、多くの場合に正確で効率的におそれるため、その識別には困難があります。この論文では、メタデータだけである接続グラフの推定問題を紹介しています。当社は、これらの一連の新しい観察に基づいて、接続リストグラフの推定を低ランク行列補完問題として形式化し、唯一的な解決策であるNexusを導入しました。メタデータのみで実行するための。さらにのしきたい性能を向上させるために我々はノーベルの期待マックスイムアルゴリズムを開発して低ランク行列補完と組み合わせて接続候補確率の改善を行いました。この大規模な実験では、4つのデータセットに対する Nexus よりその他のメソッドが約1桁上回る結果を示しました。またNexusは、最多で6倍の増加も可能な快適な速度で動作するため、実世界での展開と容易に応用できる実践的な解決策となります。

Original Content

arXiv:2602.08186v1 Announce Type: cross Abstract: Automatically inferring join relationships is a critical task for effective data discovery, integration, querying and reuse. However, accurately and efficiently identifying these relationships in large and complex schemas can be challenging, especially in enterprise settings where access to data values is constrained. In this paper, we introduce the problem of join graph inference when only metadata is available. We conduct an empirical study on a large number of real-world schemas and observe that join graphs when represented as adjacency matrices exhibit two key properties: high sparsity and low-rank structure. Based on these novel observations, we formulate join graph inference as a low-rank matrix completion problem and propose Nexus, an end-to-end solution using only metadata. To further enhance accuracy, we propose a novel Expectation-Maximization algorithm that alternates between low-rank matrix completion and refining join candidate probabilities by leveraging Large Language Models. Our extensive experiments demonstrate that Nexus outperforms existing methods by a significant margin on four datasets including a real-world production dataset. Additionally, Nexus can operate in a fast mode, providing comparable results with up to 6x speedup, offering a practical and efficient solution for real-world deployments.