2602.03664v1 Feb 03, 2026 cs.AI

멀티 턴 에이전트에서의 대화 관성 완화

Mitigating Conversational Inertia in Multi-Turn Agents

Changhua Meng
Changhua Meng
Citations: 66
h-index: 2
Zhengwen Zeng
Zhengwen Zeng
Citations: 93
h-index: 3
Shuheng Shen
Shuheng Shen
Citations: 66
h-index: 2
Linchao Zhu
Linchao Zhu
Citations: 30
h-index: 2
Zheng Cao
Zheng Cao
Citations: 6
h-index: 2
Zhenhao Zhang
Zhenhao Zhang
Citations: 10
h-index: 2
Y. Wan
Y. Wan
Citations: 71
h-index: 4

대규모 언어 모델(LLM)은 적절한 시연이 제공될 때 퓨샷(few-shot) 학습자로서 탁월한 능력을 보이지만, 이러한 강점은 멀티 턴 에이전트 시나리오에서는 문제가 된다. 이 시나리오에서 LLM은 자신의 이전 응답을 퓨샷 예시인 것처럼 잘못 모방하기 때문이다. 우리는 어텐션(attention) 분석을 통해 모델이 이전 응답에 대해 강한 대각선 어텐션을 보이는 현상인 '대화 관성(conversational inertia)'을 규명하였으며, 이는 탐색을 저해하는 모방 편향과 연관된다. 이는 퓨샷 LLM을 에이전트로 전환할 때의 딜레마를 보여준다. 즉, 긴 문맥은 활용(exploitation)을 위한 환경 피드백을 풍부하게 하지만, 동시에 탐색(exploration)을 약화시키는 대화 관성을 증폭시킨다. 우리의 핵심 통찰은 동일한 상태일 때 긴 문맥으로 생성된 행동이 짧은 문맥으로 생성된 행동보다 더 강한 관성을 보인다는 점이며, 이를 통해 환경 보상 없이 선호 쌍(preference pairs)을 구축할 수 있다는 것이다. 이에 기반하여 우리는 고관성 응답보다 저관성 응답을 선호하도록 모델을 조정하는 '문맥 선호 학습(Context Preference Learning)'을 제안한다. 또한, 추론 시 탐색과 활용의 균형을 맞추기 위한 문맥 관리 전략을 제공한다. 8개의 에이전트 환경과 1개의 심층 연구 시나리오에 대한 실험 결과, 우리의 프레임워크가 대화 관성을 감소시키고 성능 향상을 달성함을 확인하였다.

Original Abstract

Large language models excel as few-shot learners when provided with appropriate demonstrations, yet this strength becomes problematic in multiturn agent scenarios, where LLMs erroneously mimic their own previous responses as few-shot examples. Through attention analysis, we identify conversational inertia, a phenomenon where models exhibit strong diagonal attention to previous responses, which is associated with imitation bias that constrains exploration. This reveals a tension when transforming few-shot LLMs into agents: longer context enriches environmental feedback for exploitation, yet also amplifies conversational inertia that undermines exploration. Our key insight is that for identical states, actions generated with longer contexts exhibit stronger inertia than those with shorter contexts, enabling construction of preference pairs without environment rewards. Based on this, we propose Context Preference Learning to calibrate model preferences to favor low-inertia responses over highinertia ones. We further provide context management strategies at inference time to balance exploration and exploitation. Experimental results across eight agentic environments and one deep research scenario validate that our framework reduces conversational inertia and achieves performance improvements.

0 Citations
0 Influential
2 Altmetric
10.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!