2603.03915v1 Mar 04, 2026 cs.CL

역할극 평가 재고: 익명 벤치마킹과 성격 효과에 대한 체계적 연구

Rethinking Role-Playing Evaluation: Anonymous Benchmarking and a Systematic Study of Personality Effects

Yun-Nung Chen
Yun-Nung Chen
Citations: 3
h-index: 1
Jichao Peng
Jichao Peng
Citations: 2
h-index: 1

대규모 언어 모델(LLM)은 역할극 에이전트(RPA) 개발에 상당한 잠재력을 보여주었습니다. 그러나 현재 연구에서는 주로 유명한 가상 인물을 사용하여 RPA를 평가하는데, 이는 모델이 인물 이름과 관련된 기억에 의존하게 만들어 편향을 초래하고 RPA의 일반화 능력을 제한합니다. 이 문제를 해결하기 위해, 우리는 익명 평가 방법을 제안합니다. 여러 벤치마크를 통한 실험 결과, 익명화는 역할극 성능을 현저히 저하시키는 것으로 나타났으며, 이는 인물 이름 노출이 암묵적인 정보를 담고 있음을 확인해 줍니다. 또한, 익명 환경에서 역할 충실도를 향상시키기 위해 성격 보강을 연구했습니다. 인간 주석을 통해 얻은 성격 특성과 모델 자체적으로 생성한 성격 특성의 효과를 체계적으로 비교했습니다. 연구 결과, 성격 정보를 통합하면 RPA 성능이 꾸준히 향상되는 것으로 나타났습니다. 특히, 모델이 자체적으로 생성한 성격은 인간이 주석을 달아 생성한 성격과 동등한 수준의 성능을 달성했습니다. 본 연구는 공정한 평가 프로토콜을 확립하고, 견고한 RPA 구축을 위한 확장 가능한, 성격 기반 프레임워크를 검증합니다.

Original Abstract

Large language models (LLMs) have demonstrated significant potential in developing Role-Playing Agents (RPAs). However, current research primarily evaluates RPAs using famous fictional characters, allowing models to rely on memory associated with character names. This dependency creates a bias that limits the generalization of RPAs to unseen personas. To address this issue, we propose an anonymous evaluation method. Experiments across multiple benchmarks reveal that anonymization significantly degrades role-playing performance, confirming that name exposure carries implicit information. Furthermore, we investigate personality augmentation to enhance role fidelity under anonymous setting. We systematically compare the efficacy of personality traits derived from human annotations versus those self-generated by the model. Our results demonstrate that incorporating personality information consistently improves RPA performance. Crucially, self-generated personalities achieve performance comparable to human-annotated ones. This work establishes a fairer evaluation protocol and validates a scalable, personality-enhanced framework for constructing robust RPAs.

0 Citations
0 Influential
0.5 Altmetric
2.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!