Mini-BEHAVIOR-Gran: 지시 세분성의 U자형 효과를 밝히는 언어 기반 로봇 에이전트에 대한 연구
Mini-BEHAVIOR-Gran: Revealing U-Shaped Effects of Instruction Granularity on Language-Guided Embodied Agents
지시 세분성은 언어 기반 로봇 인공지능에서 중요한 요소이지만, 제대로 통제되지 않는 변수입니다. 기존의 벤치마크는 일반적으로 각 작업에 대해 단일하고 고정된 지시를 사용하므로, 동일한 작업에 대해 서로 다른 수준의 세부 사항으로 설명할 때 에이전트의 행동이 어떻게 변화하는지 연구하기 어렵습니다. 본 연구에서는 작업 당 다양한 지시 변형을 제공하여 지시 세분성에 대한 체계적인 연구를 가능하게 하는 새로운 벤치마크인 Mini-BEHAVIOR-Gran을 소개합니다. 이 벤치마크를 사용하여, 작업 간의 지시 세분성을 정량화하기 위한 네 가지 후보 지표(토큰 수, 개체 수, 동작-동사 수, 계획 폭)를 비교한 결과, 계획 폭이 에이전트 성능과 가장 일관되게 상관관계가 있음을 확인했습니다. 계획 폭을 사용하여 학습 및 평가를 구성한 결과, 지시 세분성과 성능 사이에 비선형적인 U자형 관계가 나타나는 것을 발견했으며, 이는 세밀한 수준과 거친 수준 모두에서 성능이 최고조에 달함을 의미합니다. 추가 분석 결과, 거친 세분성에서 성능이 회복되는 현상은 에이전트가 시각 정보에 의존하는 정책을 학습하는 '얕은 연관성'과 관련이 있음을 시사합니다.
Instruction granularity is an important yet poorly controlled variable in language-guided embodied AI. Existing benchmarks typically pair each task with a single static instruction, making it difficult to study how agent behavior changes when the same task is described at different levels of detail. We introduce Mini-BEHAVIOR-Gran, a new benchmark for controlled studies of instruction granularity that extends Mini-BEHAVIOR with multiple instruction variants per task, ranging from high-level goal descriptions to step-by-step guidance. Using this benchmark, we compare four candidate metrics for cross-task granularity quantification: token count, entity count, action-verb count, and planning-width, and find that width correlates most consistently with agent performance. Using width to organize training and evaluation further reveals a non-monotonic U-shaped relationship between instruction granularity and performance, with peaks at both fine and coarse extremes. Further analysis suggests that the coarse-granularity performance rebound is associated with shallow grounding, where agents learn vision-dominant policies.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.