2603.00656v1 Feb 28, 2026 cs.AI

InfoPO: 정보 기반 정책 최적화 - 사용자 중심 에이전트를 위한 방법

InfoPO: Information-Driven Policy Optimization for User-Centric Agents

Bang Liu
Bang Liu
Citations: 12
h-index: 3
Chenglin Wu
Chenglin Wu
Citations: 287
h-index: 6
Fanqi Kong
Fanqi Kong
Citations: 46
h-index: 4
Jiayi Zhang
Jiayi Zhang
Citations: 1
h-index: 1
Mingyi Deng
Mingyi Deng
Citations: 8
h-index: 2
Yuyu Luo
Yuyu Luo
Citations: 0
h-index: 0

실제 환경에서 LLM 에이전트에게 주어지는 사용자 요청은 종종 불명확한 경우가 많습니다. 에이전트는 누락된 정보를 습득하고 올바른 후속 결정을 내리기 위해 상호 작용해야 합니다. 그러나 현재의 다중 턴 강화 학습 기반 방법은 종종 전체 경로 수준의 보상 계산에 의존하는데, 이는 보상 할당 문제를 야기하고 롤아웃 그룹 내에서 충분한 이득 신호를 제공하지 못합니다. 유망한 접근 방식은 더 목표 지향적인 학습을 위해 중요한 상호 작용 단계를 미세하게 식별하는 것입니다. 이러한 문제를 해결하기 위해, 본 논문에서는 정보 기반 정책 최적화(InfoPO)라는 방법을 제안합니다. InfoPO는 다중 턴 상호 작용을 능동적인 불확실성 감소 과정으로 정의하고, 정보 획득량 보상을 계산합니다. 이 보상은 에이전트의 후속 행동 분포에 대한 피드백이 마스크된 피드백을 기준으로 측정 가능한 변화를 가져오는 단계를 평가합니다. 그런 다음 이 신호를 작업 결과와 결합하여 정보의 중요성을 파악하는 동시에 작업 지향적인 목표 방향을 유지합니다. 다양한 작업(예: 의도 명확화, 협업 코딩, 도구 기반 의사 결정)에서 InfoPO는 프롬프팅 및 다중 턴 강화 학습 기반 방법보다 일관되게 우수한 성능을 보입니다. 또한, 사용자 시뮬레이터 변화에 대한 견고성을 보여주며 환경과의 상호 작용이 필요한 작업에서도 효과적으로 일반화됩니다. 전반적으로, InfoPO는 복잡한 에이전트-사용자 협력을 최적화하기 위한 체계적이고 확장 가능한 메커니즘을 제공합니다. 관련 코드는 https://github.com/kfq20/InfoPO 에서 확인할 수 있습니다.

Original Abstract

Real-world user requests to LLM agents are often underspecified. Agents must interact to acquire missing information and make correct downstream decisions. However, current multi-turn GRPO-based methods often rely on trajectory-level reward computation, which leads to credit assignment problems and insufficient advantage signals within rollout groups. A feasible approach is to identify valuable interaction turns at a fine granularity to drive more targeted learning. To address this, we introduce InfoPO (Information-Driven Policy Optimization), which frames multi-turn interaction as a process of active uncertainty reduction and computes an information-gain reward that credits turns whose feedback measurably changes the agent's subsequent action distribution compared to a masked-feedback counterfactual. It then combines this signal with task outcomes via an adaptive variance-gated fusion to identify information importance while maintaining task-oriented goal direction. Across diverse tasks, including intent clarification, collaborative coding, and tool-augmented decision making, InfoPO consistently outperforms prompting and multi-turn RL baselines. It also demonstrates robustness under user simulator shifts and generalizes effectively to environment-interactive tasks. Overall, InfoPO provides a principled and scalable mechanism for optimizing complex agent-user collaboration. Code is available at https://github.com/kfq20/InfoPO.

0 Citations
0 Influential
29.931471805599 Altmetric
149.7 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!