2601.07651v2 Jan 12, 2026 cs.AI

일반적인 에이전트의 능동적 평가: 문제 정의 및 기준 알고리즘 비교

Active Evaluation of General Agents: Problem Definition and Comparison of Baseline Algorithms

Marc Lanctot
Marc Lanctot
Citations: 28
h-index: 3
Kate Larson
Kate Larson
Citations: 31
h-index: 3
Ian M. Gemp
Ian M. Gemp
Citations: 2,551
h-index: 14
Michael Kaisers
Michael Kaisers
Citations: 31
h-index: 2

지능형 에이전트가 다양한 작업을 수행할 수 있는 범용성을 갖추게 됨에 따라, 에이전트를 적절하게 평가하는 데 필요한 복잡성과 비용이 크게 증가합니다. 에이전트의 특정 능력을 평가하는 작업은 상관관계가 있고 확률적일 수 있으며, 정확한 비교를 위해서는 많은 샘플이 필요하여 추가적인 비용이 발생합니다. 본 논문에서는 여러 작업에 걸쳐 에이전트를 능동적으로 평가하기 위한 형식적인 정의와 개념적 프레임워크를 제안하며, 평가 데이터 샘플의 수에 따른 순위 알고리즘의 성능을 평가합니다. 기존 데이터 세트를 선별, 필터링 또는 압축하는 사전 처리 단계 대신, 온라인 방식으로 접근합니다. 각 반복마다 순위 알고리즘은 점수를 추출할 작업과 에이전트를 선택합니다. 그런 다음, 평가 알고리즘은 각 반복마다 에이전트의 순위를 보고, 이 순위의 성능은 시간이 지남에 따라 실제 순위와 비교하여 평가됩니다. 합성 데이터를 사용하고, Atari 게임 에이전트로부터 얻은 실제 평가 데이터를 시뮬레이션하여 다양한 실험 환경에서 여러 기준 알고리즘을 비교합니다. 고전적인 Elo 평점 시스템은 이론적으로 알려진 문제점을 가지고 있지만, 실제로 순위 오류를 효율적으로 줄이는 데 지속적으로 신뢰할 수 있는 선택임을 확인했습니다. 최근에 제안된 Soft Condorcet Optimization 방법은 합성 데이터에서는 Elo와 유사한 성능을 보였으며, 실제 Atari 에이전트 평가에서는 Elo보다 훨씬 뛰어난 성능을 보였습니다. 실제 순위와의 작업 변동성이 높을 때, 비례적 대표성을 기반으로 작업을 선택하면 순위 오류 감소율이 높아집니다.

Original Abstract

As intelligent agents become more generally-capable, i.e. able to master a wide variety of tasks, the complexity and cost of properly evaluating them rises significantly. Tasks that assess specific capabilities of the agents can be correlated and stochastic, requiring many samples for accurate comparisons, leading to added costs. In this paper, we propose a formal definition and a conceptual framework for active evaluation of agents across multiple tasks, which assesses the performance of ranking algorithms as a function of number of evaluation data samples. Rather than curating, filtering, or compressing existing data sets as a preprocessing step, we propose an online framing: on every iteration, the ranking algorithm chooses the task and agents to sample scores from. Then, evaluation algorithms report a ranking of agents on each iteration and their performance is assessed with respect to the ground truth ranking over time. Several baselines are compared under different experimental contexts, with synthetic generated data and simulated online access to real evaluation data from Atari game-playing agents. We find that the classical Elo rating system -- while it suffers from well-known failure modes, in theory -- is a consistently reliable choice for efficient reduction of ranking error in practice. A recently-proposed method, Soft Condorcet Optimization, shows comparable performance to Elo on synthetic data and significantly outperforms Elo on real Atari agent evaluation. When task variation from the ground truth is high, selecting tasks based on proportional representation leads to higher rate of ranking error reduction.

0 Citations
0 Influential
7 Altmetric
35.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!