2601.15330v1 Jan 20, 2026 cs.CL

ICPO: 화용론 기반 정책 최적화를 통한 다중 턴 대화 성능 향상

ICPO: Illocution-Calibrated Policy Optimization for Multi-Turn Conversation

Zhebo Wang
Zhebo Wang
Citations: 80
h-index: 4
Dezhang Kong
Dezhang Kong
Citations: 90
h-index: 6
Meng Han
Meng Han
Citations: 1
h-index: 1
Wenpeng Xing
Wenpeng Xing
Citations: 148
h-index: 7
Xiaohu Mu
Xiaohu Mu
Citations: 1
h-index: 1
Zijie Zhou
Zijie Zhou
Citations: 4
h-index: 1
Mohan Li
Mohan Li
Citations: 60
h-index: 3

대규모 언어 모델(LLM)은 다중 턴 대화에서 종종 '대화에서 길을 잃는' 현상을 겪는데, 이는 초기 오해로부터 회복하기 어려울 때 특히 두드러지며, 사용자가 모호한 초기 지시를 제공할 때 더욱 심화됩니다. 기존의 강화 학습 기반 보상 기법(예: 검증 가능한 보상 기반 강화 학습, RLVR)은 모델이 자신감 있는 직접적인 답변을 제공하도록 장려함으로써 이러한 문제를 악화시키는데, 이는 과신을 유발하고 모델이 명확화를 구하는 것을 방해합니다. 이러한 문제를 해결하기 위해, 우리는 화용론 기반 정책 최적화(ICPO)라는 새로운 학습 프레임워크를 제안합니다. ICPO는 모델이 지시의 모호성에 민감하게 반응하도록 훈련시키기 위해, 불완전하게 정의된 프롬프트를 학습 데이터에 추가하고, 사용자의 화용론적 의도를 기반으로 보상 신호를 조정합니다. 즉, 모델이 모호한 상황에 직면했을 때 불확실성을 표현하거나 명확화를 요청하도록 장려합니다. 실험 결과, ICPO는 적절한 겸손함을 길러주어, 다중 턴 대화에서 평균적으로 75%의 상당한 성능 향상을 가져왔으며, 단일 턴 벤치마크에서의 강력한 성능도 유지했습니다. 본 연구는 인간 상호 작용의 미묘한 측면을 더 잘 이해하고 활용할 수 있는 더욱 강력하고 협력적인 대화형 AI를 개발하기 위한 실질적인 방법을 제시합니다.

Original Abstract

Large Language Models (LLMs) in multi-turn conversations often suffer from a ``lost-in-conversation'' phenomenon, where they struggle to recover from early incorrect assumptions, particularly when users provide ambiguous initial instructions. We find that standard post-training techniques like Reinforcement Learning with Verifiable Rewards (RLVR) exacerbate this issue by rewarding confident, direct answers, thereby inducing overconfidence and discouraging the model from seeking clarification. To address this, we propose Illocution-Calibrated Policy Optimization (ICPO), a novel training framework that sensitizes the model to instruction ambiguity. ICPO augments the training corpus with underspecified prompts and conditions the reward signal on the user's illocutionary intent, rewarding the model for expressing uncertainty or asking for clarification when faced with ambiguity. Experiments demonstrate that ICPO fosters appropriate humility, yielding a substantial average improvement of 75\% in multi-turn conversation, while preserving robust performance on single-turn benchmarks. Our work presents a practical path toward more robust and collaborative conversational AI that can better navigate the nuances of human interaction.

1 Citations
0 Influential
3.5 Altmetric
18.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!