2602.03664v2 Feb 03, 2026 cs.AI

다중 턴 에이전트 시스템에서의 대화 관성 완화

Mitigating Conversational Inertia in Multi-Turn Agents

Changhua Meng
Changhua Meng
Citations: 66
h-index: 2
Zhengwen Zeng
Zhengwen Zeng
Citations: 93
h-index: 3
Shuheng Shen
Shuheng Shen
Citations: 66
h-index: 2
Linchao Zhu
Linchao Zhu
Citations: 30
h-index: 2
Zheng Cao
Zheng Cao
Citations: 6
h-index: 2
Zhenhao Zhang
Zhenhao Zhang
Citations: 10
h-index: 2
Y. Wan
Y. Wan
Citations: 71
h-index: 4

대규모 언어 모델(LLM)은 적절한 예시가 제공될 경우 뛰어난 학습 능력을 보이지만, 이는 다중 턴 에이전트 시나리오에서 문제가 될 수 있습니다. 왜냐하면 LLM이 이전 응답을 '예시'로 오인하여, 자신의 이전 응답을 모방하는 경향이 있기 때문입니다. 어텐션 분석을 통해 우리는 '대화 관성'이라는 현상을 발견했습니다. 이는 모델이 이전 응답에 강한 대각선 어텐션을 보이는 현상이며, 이는 모방 편향과 연결되어 탐색을 제한합니다. 이는 몇 가지 예시를 활용한 LLM을 에이전트로 변환할 때 발생하는 긴장감을 보여줍니다. 더 긴 컨텍스트는 환경으로부터의 피드백을 풍부하게 하여 활용을 돕지만, 동시에 탐색을 저해하는 대화 관성을 증폭시킵니다. 우리의 핵심적인 발견은, 동일한 상태에서 더 긴 컨텍스트로 생성된 행동이 더 짧은 컨텍스트로 생성된 행동보다 더 강한 관성을 보인다는 것입니다. 이를 통해 환경 보상이 없는 상태에서도 선호 쌍을 구성할 수 있습니다. 이를 바탕으로, 우리는 모델의 선호도를 조정하여 관성이 낮은 응답을 선호하도록 하는 '컨텍스트 선호 학습(Context Preference Learning)' 방법을 제안합니다. 또한, 추론 시 컨텍스트 관리 전략을 통해 탐색과 활용의 균형을 맞추는 방법을 제시합니다. 실험 결과, 8개의 에이전트 환경과 1개의 심층 연구 시나리오에서, 제안하는 프레임워크가 대화 관성을 줄이고 성능 향상을 이룬다는 것을 확인했습니다.

Original Abstract

Large language models excel as few-shot learners when provided with appropriate demonstrations, yet this strength becomes problematic in multiturn agent scenarios, where LLMs erroneously mimic their own previous responses as few-shot examples. Through attention analysis, we identify conversational inertia, a phenomenon where models exhibit strong diagonal attention to previous responses, which is associated with imitation bias that constrains exploration. This reveals a tension when transforming few-shot LLMs into agents: longer context enriches environmental feedback for exploitation, yet also amplifies conversational inertia that undermines exploration. Our key insight is that for identical states, actions generated with longer contexts exhibit stronger inertia than those with shorter contexts, enabling construction of preference pairs without environment rewards. Based on this, we propose Context Preference Learning to calibrate model preferences to favor low-inertia responses over highinertia ones. We further provide context management strategies at inference time to balance exploration and exploitation. Experimental results across eight agentic environments and one deep research scenario validate that our framework reduces conversational inertia and achieves performance improvements.

0 Citations
0 Influential
2 Altmetric
10.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!