Luna-2: 소형 언어 모델을 활용한 확장 가능한 단일 토큰 평가
Luna-2: Scalable Single-Token Evaluation with Small Language Models
실시간 가드레일은 정확하고 저렴하며 빠른 평가를 필요로 하지만, 오늘날 기본으로 사용되는 LLM-as-a-judge(LLMAJ) 방식은 다중 토큰 생성으로 인해 속도가 느리고 비용이 많이 들며 운영상 비결정적이다. 우리는 디코더 전용 소형 언어 모델(SLM)을 결정론적 평가 모델로 활용하여, 계산 비용과 지연 시간을 획기적으로 줄이면서도 최첨단 LLM을 사용하는 LLMAJ와 동등하거나 더 높은 정확도로 복잡한 작업별 LLMAJ 지표(예: 유해성, 환각, 도구 선택 품질 등)를 신뢰성 있게 계산하는 새로운 아키텍처인 Luna-2를 제시한다. 각 지표는 공유되는 SLM 백본 위에 경량의 LoRA/PEFT 헤드로 구현되어, 단일 GPU에서 수백 개의 특화된 지표가 동시에 실행될 수 있도록 하며, 프라이버시를 보호하고 지연 시간을 최적화하는 방식으로 AI 시스템 옆에 로컬로 배포할 수 있다. 콘텐츠 안전성 및 환각 벤치마크 전반에서 Luna-2는 최첨단 LLM 기반 평가 모델의 정확도에 필적하면서도 추론 비용을 80배 이상, 지연 시간을 20배 이상 감소시켰다. 본 논문에서는 모델 아키텍처와 훈련 방법론을 개괄하고 정확도, 지연 시간 및 처리량에 대한 실제 경험적 결과를 보고한다. 실제 서비스 환경에서 Luna-2는 고객을 위해 매월 1억 개 이상의 AI 세션을 보호하고 1,000억 개 이상의 토큰을 처리하고 있으며, 연간 3,000만 달러 이상의 평가 비용 절감 효과를 제공하고 있다.
Real-time guardrails require evaluation that is accurate, cheap, and fast - yet today's default, LLM-as-a-judge (LLMAJ), is slow, expensive, and operationally non-deterministic due to multi-token generation. We present Luna-2, a novel architecture that leverages decoder-only small language models (SLMs) into a deterministic evaluation model to reliably compute complex task-specific LLMAJ metrics (e.g. toxicity, hallucination, tool selection quality, etc.) at an accuracy at par or higher than LLMAJ using frontier LLMs while drastically reducing the cost and latency of computation. Each metric is implemented as a lightweight LoRA/PEFT head on top of a shared SLM backbone, enabling hundreds of specialized metrics to run concurrently on a single GPU, deployable locally next to AI systems in a privacy-preserving and latency optimizing manner. Across content safety and hallucination benchmarks, Luna-2 matches the accuracy of state-of-the-art LLM-based evaluators while reducing inference cost by over 80x and latency by over 20x. In this paper, we outline the model architecture, training methodology and report real-world empirical results on accuracy, latency, and throughput results. In production, Luna-2 is protecting 100M+ AI sessions and processing over 100B tokens per month for our customers with eval cost savings of over $30M annually.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.