2602.07840v2 Feb 08, 2026 cs.IR

SAGE: 확장 가능한 인공지능 거버넌스 및 평가

SAGE: Scalable AI Governance & Evaluation

Jingwei Wu
Jingwei Wu
Citations: 294
h-index: 5
Jie Huang
Jie Huang
Citations: 11
h-index: 3
Benjamin Le
Benjamin Le
Citations: 0
h-index: 0
Xueying Lu
Xueying Lu
Citations: 39
h-index: 2
Nick Stern
Nick Stern
Citations: 17
h-index: 2
Wenqiong Liu
Wenqiong Liu
Citations: 9
h-index: 2
Igor Lapchuk
Igor Lapchuk
Citations: 0
h-index: 0
Xiang Li
Xiang Li
Citations: 316
h-index: 6
Baofeng Zheng
Baofeng Zheng
Citations: 20
h-index: 2
K. Rosenberg
K. Rosenberg
Citations: 23
h-index: 2
Zhe Zhang
Zhe Zhang
Citations: 87
h-index: 1
Abraham Cabangbang
Abraham Cabangbang
Citations: 0
h-index: 0
S. Wagle
S. Wagle
Citations: 29
h-index: 3
Jianqiang Shen
Jianqiang Shen
Citations: 23
h-index: 3
Raghavan Muthuregunathan
Raghavan Muthuregunathan
Citations: 63
h-index: 4
Abhinav Gupta
Abhinav Gupta
Citations: 0
h-index: 0
Mathew Teoh
Mathew Teoh
Citations: 0
h-index: 0
A. Kirk
A. Kirk
Citations: 28
h-index: 3
T. Kwan
T. Kwan
Citations: 37
h-index: 3
Wenjing Zhang
Wenjing Zhang
Citations: 12
h-index: 2

대규모 검색 시스템에서 관련성을 평가하는 것은, 미묘하고 자원이 제한된 인간의 감독과 생산 시스템의 높은 처리량 요구 사항 간의 격차로 인해 근본적으로 제약됩니다. 기존 방법은 참여 지표 또는 희소한 수동 검토에 의존하지만, 이러한 방법은 종종 고성능 관련성 실패의 전체 범위를 포착하지 못합니다. 본 논문에서는 고품질의 인간 제품 판단을 확장 가능한 평가 신호로 활용하는 프레임워크인 **SAGE (Scalable AI Governance & Evaluation)**를 제시합니다. SAGE의 핵심은 자연어 기반의 extit{정책}, 선별된 extit{선례}, 그리고 extit{LLM 대체 평가자}가 함께 진화하는 양방향 교정 루프입니다. SAGE는 의미적 모호성과 불일치를 체계적으로 해결하여 주관적인 관련성 판단을 실행 가능한 다차원 기준 체계로 변환하며, 이는 인간 수준의 높은 일관성을 보입니다. 최첨단 모델의 추론 능력과 산업 규모의 추론 간의 격차를 해소하기 위해, 우리는 고정밀 판단을 소형의 대체 모델로 이전하는 교수-학생 증류 방법을 사용하여 **92배** 더 낮은 비용으로 구현했습니다. SAGE는 LinkedIn 검색 시스템 내에서 모델 반복을 시뮬레이션을 통해 주도하며, 정책에 부합하는 모델을 온라인 서비스에 배포하고 빠른 오프라인 평가를 가능하게 했습니다. 실제 운영 환경에서 SAGE는 정책 준수를 위한 감독 기능을 제공하여, 참여 지표로는 감지할 수 없는 모델 변경 사항을 측정하고 회귀를 감지했습니다. 이러한 노력은 LinkedIn의 일일 활성 사용자 수를 **0.25%** 증가시키는 데 기여했습니다.

Original Abstract

Evaluating relevance in large-scale search systems is fundamentally constrained by the governance gap between nuanced, resource-constrained human oversight and the high-throughput requirements of production systems. While traditional approaches rely on engagement proxies or sparse manual review, these methods often fail to capture the full scope of high-impact relevance failures. We present \textbf{SAGE} (Scalable AI Governance \& Evaluation), a framework that operationalizes high-quality human product judgment as a scalable evaluation signal. At the core of SAGE is a bidirectional calibration loop where natural-language \emph{Policy}, curated \emph{Precedent}, and an \emph{LLM Surrogate Judge} co-evolve. SAGE systematically resolves semantic ambiguities and misalignments, transforming subjective relevance judgment into an executable, multi-dimensional rubric with near human-level agreement. To bridge the gap between frontier model reasoning and industrial-scale inference, we apply teacher-student distillation to transfer high-fidelity judgments into compact student surrogates at \textbf{92$\times$} lower cost. Deployed within LinkedIn Search ecosystems, SAGE guided model iteration through simulation-driven development, distilling policy-aligned models for online serving and enabling rapid offline evaluation. In production, it powered policy oversight that measured ramped model variants and detected regressions invisible to engagement metrics. Collectively, these drove a \textbf{0.25\%} lift in LinkedIn daily active users.

0 Citations
0 Influential
3 Altmetric
15.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!