구조적 자기 일관성(Structured Self-Consistency): VirtualHome에서의 LLM 다중 작업 평가
Structured Self-Consistency:A Multi-Task Evaluation of LLMs on VirtualHome
체화된 AI(Embodied AI)는 에이전트가 시뮬레이션 환경 내에서 목표를 이해하고, 행동을 계획하며, 작업을 수행할 것을 요구한다. 본 연구에서는 EAI(Embodied Agent Interface) 프레임워크를 활용하여 VirtualHome 벤치마크에서 거대 언어 모델(LLM)에 대한 포괄적인 평가를 제시한다. 우리는 목표 해석, 행동 순서 배열, 하위 목표 분해, 전이 모델링의 네 가지 핵심 작업 전반에 걸쳐 두 가지 대표적인 7B 파라미터 모델인 OPENPANGU-7B와 QWEN2.5-7B를 비교 분석한다. 또한, 구조화된 생성 작업의 출력 품질을 개선하기 위해 도메인 특화 투표 메커니즘과 다중 샘플링을 활용하는 향상된 디코딩 전략인 구조적 자기 일관성(Structured Self-Consistency, SSC)을 제안한다. 실험 결과에 따르면 SSC는 성능을 크게 향상시키는 것으로 나타났으며, OPENPANGU-7B는 계층적 계획에서 탁월한 성능을 보인 반면 QWEN2.5-7B는 행동 수준 작업에서 강점을 보였다. 우리의 분석은 모델 유형 간의 상호 보완적인 강점을 밝혀내어 향후 체화된 AI 시스템 개발을 위한 통찰력을 제공한다.
Embodied AI requires agents to understand goals, plan actions, and execute tasks in simulated environments.We present a comprehensive evaluation of Large Language Models (LLMs) on the VirtualHome benchmark using the Embodied Agent Interface (EAI) framework.We compare two representative 7B-parameter models OPENPANGU-7B and QWEN2.5-7B across four fundamental tasks: Goal Interpretation, Action Sequencing, Subgoal Decomposition, and Transition Modeling.We propose Structured Self-Consistency (SSC), an enhanced decoding strategy that leverages multiple sampling with domain-specific voting mechanisms to improve output quality for structured generation tasks. Experimental results demonstrate that SSC significantly enhances performance, with OPENPANGU-7B excelling at hierarchical planning while QWEN2.5-7B show advantages in action-level tasks. Our analysis reveals complementary strengths across model types, providing insights for future embodied AI system development.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.