2604.05083v1 Apr 06, 2026 cs.CL

LLM을 평가 도구로 활용하는 것을 넘어: 다국어 생성 텍스트 평가를 위한 결정론적 메트릭

Beyond LLM-as-a-Judge: Deterministic Metrics for Multilingual Generative Text Evaluation

S. Chowdhury
S. Chowdhury
Citations: 20
h-index: 2
Firoj Alam
Firoj Alam
Citations: 16
h-index: 2
Gagan Bhatia
Gagan Bhatia
Citations: 203
h-index: 7
Sahinur Rahman Laskar
Sahinur Rahman Laskar
Citations: 407
h-index: 12

대규모 언어 모델(LLM)이 생성된 텍스트를 평가하는 자동 평가 도구로 점점 더 많이 활용되고 있지만, LLM의 출력 결과는 비용이 많이 들고 프롬프트 설계, 언어 및 집계 전략에 매우 민감하여 재현성을 저해하는 문제가 있습니다. 이러한 문제점을 해결하기 위해, 우리는 작은 크기(<$1B)의 파라미터 모델을 사용하여 개발된 상호 보완적인 결정론적 학습 메트릭인 extbf{ extit{OmniScore}}를 제안합니다. OmniScore는 기존 모델 기반 평가 방식의 낮은 지연 시간과 일관성을 유지하면서 LLM 평가 모델의 동작을 모방합니다. 우리는 대규모 합성 데이터(약 564,000개 인스턴스, extbf{107개 언어})로 모델을 학습하고, 8,617개의 수동으로 주석이 달린 데이터로 평가했습니다. OmniScore는 참조 기반, 소스 기반 및 하이브리드 평가를 포함한 다양한 환경에서 신뢰할 수 있는 다차원 점수를 제공합니다. 우리는 이 모델들을 6개 언어의 질문 답변(QA), 번역, 요약 작업에서 평가했습니다. 우리의 결과는 경량화된 결정론적 학습 메트릭이 최첨단 LLM에 대한 매우 실용적이고 확장 가능한 대안을 제공한다는 것을 보여줍니다. 우리의 모델과 데이터셋은 https://huggingface.co/collections/QCRI/omniscore 에서 확인할 수 있습니다.

Original Abstract

While Large Language Models (LLMs) are increasingly adopted as automated judges for evaluating generated text, their outputs are often costly, and highly sensitive to prompt design, language, and aggregation strategies, severely, which limits reproducibility. To address these challenges, we propose \textbf{\textit{OmniScore}}, a family of complementary, deterministic learned metrics developed using small size ($<$1B) parameter models. OmniScore approximates LLM-judge behavior while preserving the low latency and consistency of traditional model-based scoring. We trained the models large-scale synthetic supervision ($\sim$564k instances, in \textbf{107 languages}) and evaluated using 8,617 manually annotated instances. The OmniScore family supports reliable, multi-dimensional scores across a variety of settings, including reference-based, source-grounded, and hybrid evaluations. We evaluate these models across question answering (QA), translation, and summarization in \textbf{6 languages}. Our results demonstrate that lightweight, deterministic learned metrics provide a highly practical and scalable alternative to frontier LLMs. Our models and datasets can be found at https://huggingface.co/collections/QCRI/omniscore

0 Citations
0 Influential
26 Altmetric
130.0 Score
Original PDF
0

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!