TRIP-Bench: 실제 시나리오에서의 장기 상호작용 에이전트를 위한 벤치마크
TRIP-Bench: A Benchmark for Long-Horizon Interactive Agents in Real-World Scenarios
LLM 기반 에이전트가 점차 복잡해지는 실제 환경에 배치됨에 따라, 기존 벤치마크들은 전역적 제약 조건 준수, 다중 도구 추론 조정, 그리고 긴 멀티턴 상호작용 속에서 변화하는 사용자 행동에 대한 적응과 같은 핵심 과제들을 충분히 반영하지 못하고 있습니다. 이러한 격차를 해소하기 위해, 우리는 현실적인 여행 계획 시나리오에 기반한 장기 벤치마크인 TRIP-Bench를 소개합니다. TRIP-Bench는 실제 데이터를 활용하며, 엄선된 18개의 도구와 40개 이상의 여행 요구사항을 제공하고 자동화된 평가를 지원합니다. 이 벤치마크는 다양한 난이도의 데이터 분할을 포함하며, 특히 고난이도(hard) 분할은 길고 모호한 상호작용, 스타일 변화, 실행 가능성 변동, 반복적인 버전 수정을 강조합니다. 대화는 최대 15회의 사용자 턴(turn)에 이르며, 150회 이상의 도구 호출이 포함될 수 있고, 문맥(context)은 20만 토큰을 초과할 수 있습니다. 실험 결과, 최첨단 모델조차도 '쉬움(easy)' 분할에서는 최대 50%의 성공률을 보이는 데 그쳤으며, '어려움' 하위 집합에서는 성능이 10% 미만으로 떨어졌습니다. 우리는 더 나아가 특화된 보상 정규화와 보상 차분을 적용한 온라인 멀티턴 강화학습 방법인 GTPO를 제안합니다. Qwen2.5-32B-Instruct 모델에 적용된 GTPO는 제약 조건 충족도와 상호작용의 견고성을 향상시켰으며, 평가에서 Gemini-3-Pro를 능가하는 성능을 보였습니다. 우리는 TRIP-Bench가 실용적인 장기 상호작용 에이전트의 발전을 이끌고, GTPO가 견고한 장기 학습을 위한 효과적인 온라인 강화학습 방안을 제공할 것으로 기대합니다.
As LLM-based agents are deployed in increasingly complex real-world settings, existing benchmarks underrepresent key challenges such as enforcing global constraints, coordinating multi-tool reasoning, and adapting to evolving user behavior over long, multi-turn interactions. To bridge this gap, we introduce \textbf{TRIP-Bench}, a long-horizon benchmark grounded in realistic travel-planning scenarios. TRIP-Bench leverages real-world data, offers 18 curated tools and 40+ travel requirements, and supports automated evaluation. It includes splits of varying difficulty; the hard split emphasizes long and ambiguous interactions, style shifts, feasibility changes, and iterative version revision. Dialogues span up to 15 user turns, can involve 150+ tool calls, and may exceed 200k tokens of context. Experiments show that even advanced models achieve at most 50\% success on the easy split, with performance dropping below 10\% on hard subsets. We further propose \textbf{GTPO}, an online multi-turn reinforcement learning method with specialized reward normalization and reward differencing. Applied to Qwen2.5-32B-Instruct, GTPO improves constraint satisfaction and interaction robustness, outperforming Gemini-3-Pro in our evaluation. We expect TRIP-Bench to advance practical long-horizon interactive agents, and GTPO to provide an effective online RL recipe for robust long-horizon training.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.