범용 에이전트의 능동적 평가: 문제 정의 및 베이스라인 알고리즘 비교
Active Evaluation of General Agents: Problem Definition and Comparison of Baseline Algorithms
지능형 에이전트가 더욱 범용적인 능력, 즉 다양한 작업을 숙달할 수 있게 됨에 따라 이를 적절히 평가하는 데 드는 복잡성과 비용이 크게 증가하고 있습니다. 에이전트의 특정 능력을 평가하는 작업들은 상호 연관되어 있거나 확률적(stochastic)일 수 있어, 정확한 비교를 위해 많은 샘플이 필요하며 이는 추가적인 비용 발생으로 이어집니다. 본 논문에서는 여러 작업에 걸쳐 에이전트를 능동적으로 평가하기 위한 공식적인 정의와 개념적 프레임워크를 제안하며, 이는 평가 데이터 샘플 수에 따른 순위 알고리즘의 성능을 평가합니다. 기존 데이터 세트를 전처리 단계에서 큐레이팅, 필터링 또는 압축하는 대신, 우리는 온라인 프레이밍(online framing) 방식을 제안합니다. 즉, 매 반복마다 순위 알고리즘이 점수를 샘플링할 작업과 에이전트를 선택하는 것입니다. 그 후, 평가 알고리즘은 각 반복마다 에이전트의 순위를 보고하고, 시간이 지남에 따라 실측(ground truth) 순위와 비교하여 그 성능을 평가받습니다. 합성 생성 데이터와 Atari 게임 플레이 에이전트의 실제 평가 데이터에 대한 시뮬레이션된 온라인 접근 방식을 사용하여, 다양한 실험 환경에서 여러 베이스라인을 비교합니다. 연구 결과, 고전적인 Elo 등급 시스템은 이론적으로 잘 알려진 실패 모드들이 존재함에도 불구하고, 실제로는 순위 오차를 효율적으로 줄이는 데 있어 일관되게 신뢰할 수 있는 선택지임을 확인했습니다. 최근 제안된 방법인 Soft Condorcet Optimization은 합성 데이터에서는 Elo와 유사한 성능을 보이지만, 실제 Atari 에이전트 평가에서는 Elo보다 훨씬 뛰어난 성능을 보여줍니다. 또한 실측값에 대한 작업 변동성이 높을 때, 비례 대표성(proportional representation)에 기반하여 작업을 선택하면 순위 오차 감소율이 더 높아짐을 확인했습니다.
As intelligent agents become more generally-capable, i.e. able to master a wide variety of tasks, the complexity and cost of properly evaluating them rises significantly. Tasks that assess specific capabilities of the agents can be correlated and stochastic, requiring many samples for accurate comparisons, leading to added costs. In this paper, we propose a formal definition and a conceptual framework for active evaluation of agents across multiple tasks, which assesses the performance of ranking algorithms as a function of number of evaluation data samples. Rather than curating, filtering, or compressing existing data sets as a preprocessing step, we propose an online framing: on every iteration, the ranking algorithm chooses the task and agents to sample scores from. Then, evaluation algorithms report a ranking of agents on each iteration and their performance is assessed with respect to the ground truth ranking over time. Several baselines are compared under different experimental contexts, with synthetic generated data and simulated online access to real evaluation data from Atari game-playing agents. We find that the classical Elo rating system -- while it suffers from well-known failure modes, in theory -- is a consistently reliable choice for efficient reduction of ranking error in practice. A recently-proposed method, Soft Condorcet Optimization, shows comparable performance to Elo on synthetic data and significantly outperforms Elo on real Atari agent evaluation. When task variation from the ground truth is high, selecting tasks based on proportional representation leads to higher rate of ranking error reduction.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.