Back to list
arxiv_cs_lg 2026年4月24日

神経科学に着想を得たタイムリーな信頼度付けおよび関係性の有識向量埋め込みによる検索増強生成:スマートベクター

Self-Aware Vector Embeddings for Retrieval-Augmented Generation: A Neuroscience-Inspired Framework for Temporal, Confidence-Weighted, and Relational Knowledge

Translated: 2026/4/24 20:05:53
retrieval-augmented-generationvector-embeddingsartificial-memoryneuroscience-aitemporal-knowledge-graphs

Japanese Translation

arXiv:2604.20598v1 発表 タイプ:クロス 要約:現代の検索増強生成(RAG)システムは、向量化埋め込みを静的で文脈依らないArtefact(人工物)として扱っています。埋め込みには、いつ作成されたか、ソースの信頼性はどうか、他の埋め込みがどれほど依存しているかの概念がありません。この知識の平坦化には測可能なるコストがあります:最近の VersionRAG に関する研究は、従来の RAG がバージョンされた技術的クエリにおいて 58% という低い精度しか達成していないことを報告し、これは検索が意味的に類似しているが時間的妥当性を失ったコンテンツを返すからです。我々は、海馬 - 大脳皮質の記憶統合理論に基づいた 5 つの階層的生命周期モデルを持ち、3 つの明示的性質(時間的認識、信頼度の減衰、関係性の認識)を加えた SmartVector という枠組みを提案します。検索パイプラインは単なる余弦類似度を、文脈的関連性、時間的妥当性、生きた信頼度、およびグラフ的关系的重要性が混在する 4 つのシグナルスコアに置き換えます。背景統合エージェントは矛盾を検出し、依存関係エッジを構築し、それらのエッジに沿ってグラフニューラルネットワーク様メッセージとして更新を伝播させます。信頼度は、Ebbinghaus 風の指数減衰、ユーザーフィードバックによる再統合、対数アクセス強化を組み合わせた閉形式関数によって支配されます。我々はこのモデルを形式化し、時間的知識グラフ埋め込み、エージェント的記憶アーキテクチャ、不確実性認識 RAG との関係を明らかにし、参照実装を提示します。再現可能な合成版ポリシーベンチマークにおいて(258 ベクトル、138 クエリ)、SmartVector は単純な余弦 RAG を約 2 倍のトップ -1 精度で上回る(62.0% 対 31.0%、留保スプリットで)、陳腐な回答率を 35.0% から 13.3% へと低下させ、期待適合誤差を約 2 倍に削減(0.244 対 0.470)、単一単語修正あたりの再埋め込みコストを 77% 削減し、0% から 75% の範囲での矛盾注入率に対して頑健です。

Original Content

arXiv:2604.20598v1 Announce Type: cross Abstract: Modern retrieval-augmented generation (RAG) systems treat vector embeddings as static, context-free artifacts: an embedding has no notion of when it was created, how trustworthy its source is, or which other embeddings depend on it. This flattening of knowledge has a measurable cost: recent work on VersionRAG reports that conventional RAG achieves only 58% accuracy on versioned technical queries, because retrieval returns semantically similar but temporally invalid content. We propose SmartVector, a framework that augments dense embeddings with three explicit properties -- temporal awareness, confidence decay, and relational awareness -- and a five-stage lifecycle modeled on hippocampal-neocortical memory consolidation. A retrieval pipeline replaces pure cosine similarity with a four-signal score that mixes semantic relevance, temporal validity, live confidence, and graph-relational importance. A background consolidation agent detects contradictions, builds dependency edges, and propagates updates along those edges as graph-neural-network-style messages. Confidence is governed by a closed-form function combining an Ebbinghaus-style exponential decay, user-feedback reconsolidation, and logarithmic access reinforcement. We formalize the model, relate it to temporal knowledge graph embedding, agentic memory architectures, and uncertainty-aware RAG, and present a reference implementation. On a reproducible synthetic versioned-policy benchmark of 258 vectors and 138 queries, SmartVector roughly doubles top-1 accuracy over plain cosine RAG (62.0% vs. 31.0% on a held-out split), drops stale-answer rate from 35.0% to 13.3%, cuts Expected Calibration Error by nearly 2x (0.244 vs. 0.470), reduces re-embedding cost per single-word edit by 77%, and is robust across contradiction-injection rates from 0% to 75%.