로봇이 집안일을 할 때: 장기적인 가정 환경 작업 수행을 위한 벤치마크 및 에이전트
When Robots Do the Chores: A Benchmark and Agent for Long-Horizon Household Task Execution
장기적인 가정 환경 작업은 견고한 고수준 계획 능력과 지속적인 추론 능력을 요구하지만, 기존의 임베디드 AI 벤치마크는 주로 단기적인 내비게이션 또는 조작에 초점을 맞추고 고정된 작업 범주에 의존하여 이러한 부분을 간과합니다. 본 연구에서는 자유 형식의 지시를 통해 정의된 장기적인 가정 환경 작업에서 계획 수준의 자율성을 평가하기 위한 벤치마크인 LongAct을 소개합니다. LongAct은 로봇의 특정한 제어 방식과 관련된 저수준 제어를 추상화하여, 지시 이해, 의존성 관리, 기억 유지, 적응적 계획과 같은 고수준 인지 능력을 분리합니다. 또한, 본 연구에서는 DAG 기반의 장기적인 계층적 계획 시스템, 지속적인 세계 모델링을 위한 다중 모드 공간 메모리, 경험 재사용을 위한 에피소드 메모리, 그리고 반사적 감독을 위한 전역 평가기를 갖춘 VLM 기반 에이전트인 HoloMind을 제안합니다. GPT-5 및 Qwen3-VL 모델을 사용한 실험 결과, HoloMind은 장기적인 성능을 크게 향상시키면서 모델 크기에 대한 의존성을 줄이는 것으로 나타났습니다. 그러나 최첨단 모델조차도 59%의 목표 달성률과 16%의 전체 작업 성공률을 기록했으며, 이는 LongAct의 어려움과 임베디드 에이전트에서 더욱 강력한 장기 계획 능력의 필요성을 강조합니다.
Long-horizon household tasks demand robust high-level planning and sustained reasoning capabilities, which are largely overlooked by existing embodied AI benchmarks that emphasize short-horizon navigation or manipulation and rely on fixed task categories. We introduce LongAct, a benchmark designed to evaluate planning-level autonomy in long-horizon household tasks specified through free-form instructions. By abstracting away embodiment-specific low-level control, LongAct isolates high-level cognitive capabilities such as instruction understanding, dependency management, memory maintenance, and adaptive planning. We further propose HoloMind, a VLM-driven agent with a DAG-based long-horizon hierarchical planner, a Multimodal Spatial Memory for persistent world modeling, an Episodic Memory for experience reuse, and a global Critic for reflective supervision. Experiments with GPT-5 and Qwen3-VL models show that HoloMind substantially improves long-horizon performance while reducing reliance on model scale. Even top models achieve only 59% goal completion and 16% full-task success, underscoring the difficulty of LongAct and the need for stronger long-horizon planning in embodied agents.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.