2601.21464v1 Jan 29, 2026 cs.CL

검증 불가능한 학습을 위한 대화: 메타 평가를 통한 자기 진화형 LLM

Conversation for Non-verifiable Learning: Self-Evolving LLMs through Meta-Evaluation

Yuan Sui
Yuan Sui
Citations: 169
h-index: 7
Bryan Hooi
Bryan Hooi
Citations: 908
h-index: 15

창의적 글쓰기, 대화, 윤리적 추론과 같이 검증 가능한 데이터가 없는 작업에 대한 대규모 언어 모델(LLM)의 훈련은 여전히 어려운 과제입니다. LLM-as-Judge 방식은 인간 피드백의 확장 가능한 대안을 제공하지만, 평가자의 자체적인 품질에 의해 성능이 제한된다는 근본적인 한계가 있습니다. 평가자가 좋은 솔루션을 인식하지 못하면 유용한 훈련 신호를 제공할 수 없으며, 평가 편향(예: 품질보다 장황함을 선호하는 경우) 문제는 해결되지 않습니다. 이러한 문제점을 해결하기 위해, 우리는 평가자 자체를 평가하고 개선하는 메타 평가를 제안합니다. 본 연구에서는 생성, 평가, 그리고 메타 평가를 다중 에이전트 자기 학습을 통해 통합하는 프레임워크인 CoNL을 소개합니다. 핵심 아이디어는 비평의 품질은 다른 사람들이 솔루션을 개선하는 데 도움이 되는지 여부로 측정할 수 있다는 것입니다. CoNL에서 동일한 정책을 공유하는 여러 에이전트가 정형화된 대화를 통해 솔루션을 제안하고, 비판하며, 수정합니다. 솔루션 개선을 가능하게 하는 비평은 진단 보상을 얻으며, 이를 통해 메타 평가에 대한 명시적인 감독을 제공하고, 외부 평가자나 정답 데이터 없이 자기 학습을 통해 생성 및 평가 능력을 동시에 최적화합니다. 다섯 가지 벤치마크에 대한 실험 결과, CoNL은 자기 보상 기반 모델보다 일관된 성능 향상을 보였으며, 안정적인 훈련을 유지했습니다.

Original Abstract

Training large language models (LLMs) for non-verifiable tasks, such as creative writing, dialogue, and ethical reasoning, remains challenging due to the absence of ground-truth labels. While LLM-as-Judge approaches offer a scalable alternative to human feedback, they face a fundamental limitation: performance is constrained by the evaluator's own quality. If the judge cannot recognize good solutions, it cannot provide useful training signals, and evaluation biases (e.g., favoring verbosity over quality) remain unaddressed. This motivates meta-evaluation: the ability to evaluate and improve the evaluator itself. We introduce CoNL, a framework that unifies generation, evaluation, and meta-evaluation through multi-agent self-play. Our key insight: critique quality can be measured by whether it helps others improve their solutions. In CoNL, multiple agents sharing the same policy engage in structured conversations to propose, critique, and revise solutions. Critiques that enable solution improvements earn a diagnostic reward, creating explicit supervision for meta-evaluation and enabling joint optimization of generation and judging capabilities through self-play, without external judges or ground truth. Experiments on five benchmarks show that CoNL achieves consistent improvements over self-rewarding baselines while maintaining stable training.

0 Citations
0 Influential
7.5 Altmetric
37.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!