Back to list
SAGE: スケーラブルAI管治と評価
SAGE: Scalable AI Governance & Evaluation
Translated: 2026/3/7 13:14:23
Japanese Translation
大型規模の検索システムにおける関連性の評価は、複雑なリソース制約のある人間の監視と生産的なシステムの高効率を求められた間で根本的に限られる可能性があります。一般的にはプロキシのような介入代理者または疎らな手動レビューが使用されていますが、これらは高レベルの影響力のある関連性の失敗を完全にカプセル化できないことが多いです。我々は"SAGE"(スケーラブルAI管治と評価)ーー高品質の人間産品の判断をスケーラブルな評価信号として操作する仕組みを提案します。SAGEの中核にあるのは自然言語のポリシー、カスタマイズされたprecedent、そしてLLM代理裁判官がバイナリ的なコーエーベループで進化します。SAGEは専門的で誤解なしの関連性評価をシステム的に解決し、人間レベル近い合意のシードラボラトリーを作り出すようにスケーラブルな評価信号を体系立てます。AIフレームワークの境界と産業の範囲でのインフェーザー・ストライデン化を適用する必要があるため、先端モデルの推理と産業スケールの推進力が異なる点をはばかることにありました。私たちの教師学生型の学習によって高品質の評価のデータがコンパクトな後続代理人としてターゲットコストの最大92倍に収縮しました。デファックスするLinkedIn検索システムの中でSAGEはモデルの進化を導入しました、ポリシーが一致するモデルの抽出がオンラインでの推奨と並行し可能です、そして離脱的な後続評価が必要となる。またこれらの効果では、2. 5%のリフトによりLinkedInの毎日のアクティブユーザー数が向上しました。
Original Content
arXiv:2602.07840v1 Announce Type: cross
Abstract: Evaluating relevance in large-scale search systems is fundamentally constrained by the governance gap between nuanced, resource-constrained human oversight and the high-throughput requirements of production systems. While traditional approaches rely on engagement proxies or sparse manual review, these methods often fail to capture the full scope of high-impact relevance failures. We present \textbf{SAGE} (Scalable AI Governance \& Evaluation), a framework that operationalizes high-quality human product judgment as a scalable evaluation signal. At the core of SAGE is a bidirectional calibration loop where natural-language \emph{Policy}, curated \emph{Precedent}, and an \emph{LLM Surrogate Judge} co-evolve. SAGE systematically resolves semantic ambiguities and misalignments, transforming subjective relevance judgment into an executable, multi-dimensional rubric with near human-level agreement. To bridge the gap between frontier model reasoning and industrial-scale inference, we apply teacher-student distillation to transfer high-fidelity judgments into compact student surrogates at \textbf{92$\times$} lower cost. Deployed within LinkedIn Search ecosystems, SAGE guided model iteration through simulation-driven development, distilling policy-aligned models for online serving and enabling rapid offline evaluation. In production, it powered policy oversight that measured ramped model variants and detected regressions invisible to engagement metrics. Collectively, these drove a \textbf{0.25\%} lift in LinkedIn daily active users.