핀터레스트의 의사 결정 품질 평가 프레임워크
Decision Quality Evaluation Framework at Pinterest
온라인 플랫폼은 대규모로 콘텐츠 안전 정책을 시행하기 위한 강력한 시스템을 필요로 합니다. 이러한 시스템의 중요한 구성 요소는 인간 관리자와 대규모 언어 모델(LLM)이 내리는 판단의 품질을 평가하는 능력입니다. 그러나 비용, 규모, 신뢰성 간의 고유한 상충 관계와 변화하는 정책의 복잡성으로 인해 이러한 평가는 어렵습니다. 이러한 문제를 해결하기 위해, 본 논문에서는 핀터레스트에서 개발 및 배포된 포괄적인 의사 결정 품질 평가 프레임워크를 소개합니다. 이 프레임워크는 주제 전문가(SMEs)가 큐레이팅한 고신뢰 Golden Set(GDS)를 중심으로 구성되며, 이는 진실의 기준으로 사용됩니다. 우리는 경향 점수를 활용하여 데이터 세트의 범위를 효율적으로 확장하는 자동화된 지능형 샘플링 파이프라인을 소개합니다. 본 논문에서는 이 프레임워크의 실제 적용 사례를 여러 주요 영역에서 보여줍니다. 여기에는 다양한 LLM 에이전트의 비용-성능 균형 벤치마킹, 데이터 기반 프롬프트 최적화를 위한 엄격한 방법론 구축, 복잡한 정책 진화 관리, 그리고 지속적인 검증을 통해 정책 콘텐츠의 유효성 지표의 무결성을 보장하는 것이 포함됩니다. 이 프레임워크는 주관적인 평가에서 벗어나 콘텐츠 안전 시스템을 관리하는 데이터 중심적이고 정량적인 방식으로 전환할 수 있도록 합니다.
Online platforms require robust systems to enforce content safety policies at scale. A critical component of these systems is the ability to evaluate the quality of moderation decisions made by both human agents and Large Language Models (LLMs). However, this evaluation is challenging due to the inherent trade-offs between cost, scale, and trustworthiness, along with the complexity of evolving policies. To address this, we present a comprehensive Decision Quality Evaluation Framework developed and deployed at Pinterest. The framework is centered on a high-trust Golden Set (GDS) curated by subject matter experts (SMEs), which serves as a ground truth benchmark. We introduce an automated intelligent sampling pipeline that uses propensity scores to efficiently expand dataset coverage. We demonstrate the framework's practical application in several key areas: benchmarking the cost-performance trade-offs of various LLM agents, establishing a rigorous methodology for data-driven prompt optimization, managing complex policy evolution, and ensuring the integrity of policy content prevalence metrics via continuous validation. The framework enables a shift from subjective assessments to a data-driven and quantitative practice for managing content safety systems.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.