2602.19225v1 Feb 22, 2026 cs.AI

근접성 기반 다중 턴 최적화: LLM 에이전트 훈련을 위한 실용적인 기여도 할당

Proximity-Based Multi-Turn Optimization: Practical Credit Assignment for LLM Agent Training

Yangyi Fang
Yangyi Fang
Citations: 22
h-index: 2
Cong Qin
Cong Qin
Citations: 21
h-index: 3
H. Shi
H. Shi
Citations: 76
h-index: 3
Chang Liu
Chang Liu
Citations: 80
h-index: 4
Jiaye Lin
Jiaye Lin
Citations: 43
h-index: 3
Xiao Fu
Xiao Fu
Citations: 15
h-index: 2
Peilin Zhao
Peilin Zhao
Citations: 167
h-index: 1

다중 턴(Multi-turn) LLM 에이전트는 고객 서비스 자동화, 이커머스 지원, 대화형 작업 관리를 아우르며 프로덕션 시스템의 중추가 되고 있다. 이러한 환경에서는 샘플 효율적인 훈련을 위해 확률적 노이즈로부터 고가치의 정보 신호를 정확하게 구별하는 것이 필수적이다. 실제 시나리오에서 단순한 작업의 실패는 무작위적 불안정성을 반영할 수 있는 반면, 고난이도 작업의 성공은 실질적인 능력 향상을 의미한다. 그러나 기존의 그룹 기반 정책 최적화 기법들은 이산적인 배치 내의 통계적 편차에 경직되게 의존하여, 작업 난이도가 변동할 때 기여도(credit)를 잘못 할당하는 경우가 빈번하다. 이 문제를 해결하기 위해, 우리는 실제 배포 환경의 제약에 맞춰 특별히 설계된 실용적이고 견고한 프레임워크인 근접성 기반 다중 턴 최적화(ProxMO)를 제안한다. ProxMO는 두 가지 경량화된 메커니즘을 통해 전역 컨텍스트를 통합한다. 첫째, 성공률 인지 변조(success-rate-aware modulation)는 에피소드 수준의 난이도에 따라 그래디언트 강도를 동적으로 조정한다. 둘째, 근접성 기반 소프트 집계(proximity-based soft aggregation)는 스텝 수준에서 연속적인 의미론적 가중치 부여를 통해 베이스라인을 도출한다. ALFWorld 및 WebShop 벤치마크에 대한 광범위한 평가를 통해 ProxMO가 연산 비용을 거의 발생시키지 않으면서도 기존 베이스라인 대비 상당한 성능 향상을 제공함을 입증했다. 또한 절제 연구(ablation study)를 통해 두 메커니즘의 독립적인 효과 및 시너지 효과를 추가로 검증했다. 가장 중요한 점은 ProxMO가 표준 GRPO 프레임워크와 플러그 앤 플레이 방식의 호환성을 제공하여, 기존 산업 훈련 파이프라인에 마찰 없이 즉각적으로 도입할 수 있다는 것이다. 구현 코드는 \href{https://anonymous.4open.science/r/proxmo-B7E7/README.md}{https://anonymous.4open.science/r/proxmo}에서 확인할 수 있다.

Original Abstract

Multi-turn LLM agents are becoming pivotal to production systems, spanning customer service automation, e-commerce assistance, and interactive task management, where accurately distinguishing high-value informative signals from stochastic noise is critical for sample-efficient training. In real-world scenarios, a failure in a trivial task may reflect random instability, whereas success in a high-difficulty task signifies a genuine capability breakthrough. Yet, existing group-based policy optimization methods rigidly rely on statistical deviation within discrete batches, frequently misallocating credit when task difficulty fluctuates. To address this issue, we propose Proximity-based Multi-turn Optimization (ProxMO), a practical and robust framework engineered specifically for the constraints of real-world deployment. ProxMO integrates global context via two lightweight mechanisms: success-rate-aware modulation dynamically adapts gradient intensity based on episode-level difficulty, while proximity-based soft aggregation derives baselines through continuous semantic weighting at the step level. Extensive evaluations on ALFWorld and WebShop benchmarks demonstrate that ProxMO yields substantial performance gains over existing baselines with negligible computational cost. Ablation studies further validate the independent and synergistic efficacy of both mechanisms. Crucially, ProxMO offers plug-and-play compatibility with standard GRPO frameworks, facilitating immediate, low-friction adoption in existing industrial training pipelines. Our implementation is available at: \href{https://anonymous.4open.science/r/proxmo-B7E7/README.md}{https://anonymous.4open.science/r/proxmo}.

0 Citations
0 Influential
2 Altmetric
10.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!