2604.00979v2 Apr 01, 2026 cs.CL

듀얼 옵티멀: LLM을 존엄성을 갖춘 동료처럼 만드는 방법

Dual Optimal: Make Your LLM Peer-like with Dignity

Xiangliang Zhang
Xiangliang Zhang
Citations: 870
h-index: 14
Haomin Zhuang
Haomin Zhuang
Citations: 99
h-index: 4
Xiangqi Wang
Xiangqi Wang
Citations: 166
h-index: 7
Yue Huang
Yue Huang
Citations: 569
h-index: 9
Kehan Guo
Kehan Guo
Citations: 370
h-index: 12

현재의 정렬된 언어 모델은 '회피하는 하인(Evasive Servant)'이라는 이중적인 문제점을 보입니다. 즉, 오류가 있는 사용자 신념을 아첨하는 방식으로 확인하는 동시에, 일반적인 면죄부 조항을 사용하여 책임을 회피합니다. 우리는 이러한 문제를 해결하기 위해 '존엄한 동료(Dignified Peer)' 프레임워크를 제안합니다. 이 프레임워크는 아첨을 방지하고 신뢰성을 높이며, 공감과 창의성을 통해 회피성을 완화합니다. 이러한 에이전트를 구현하기 위해서는 데이터 감독, 목표 붕괴, 평가 편향 등 상당한 기술적 과제를 해결해야 합니다. 우리는 이러한 문제를 해결하기 위해, 여러 페르소나의 선호도를 나타내는 복합적인 부분 순서 구조를 가진 'PersonaKnob' 데이터셋을 소개합니다. 이 데이터는 행동 붕괴를 방지하기 위해 모든 페르소나 차원을 동적으로 균형 있게 조정하는 'tolerant constrained Lagrangian DPO' 알고리즘과 함께 사용됩니다. 또한, 심리 측정 기준으로 교정된 문항 반응 이론(Item Response Theory) 평가 프로토콜을 사용하여 모델의 잠재적인 페르소나 능력을 평가자의 편향과 같은 혼란 요인으로부터 분리합니다. 광범위한 실험 결과는 우리의 접근 방식이 존엄성과 동료성을 모두 갖춘 LLM 에이전트를 성공적으로 구축할 수 있음을 보여줍니다.

Original Abstract

Current aligned language models exhibit a dual failure mode we term the Evasive Servant: they sycophantically validate flawed user beliefs while deflecting responsibility with boilerplate disclaimers. We propose the Dignified Peer framework, which counters servility with anti-sycophancy and trustworthiness, and mitigates evasiveness through empathy and creativity. Realizing this agent requires overcoming significant challenges in data supervision, objective collapse, and evaluation bias. We address these issues by introducing the PersonaKnob dataset which features a compositional partial order structure of multiple persona preference. This data is utilized alongside a tolerant constrained Lagrangian DPO algorithm that dynamically balances all persona dimensions to prevent behavioral collapse. Additionally, we employ a psychometrically calibrated Item Response Theory evaluation protocol to disentangle latent model persona capability from confounders like judge biases. Extensive empirical studies demonstrate that our approach successfully build a LLM agent with both dignity and peer.

0 Citations
0 Influential
7 Altmetric
35.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!