기억을 믿으세요: 다차원 보상을 활용한 강화 학습을 통한 스마트 홈의 검증 가능한 제어
Trust Your Memory: Verifiable Control of Smart Homes through Reinforcement Learning with Multi-dimensional Rewards
대규모 언어 모델(LLM)은 개인화된 스마트 홈 경험을 가능하게 하는 핵심 기반 기술로 자리 잡았습니다. 기존 연구에서는 스마트 홈 어시스턴트가 실시간으로 사용자의 질문을 이해하여 기기를 제어하는 방법을 탐구했지만, 메모리를 기반으로 한 기기 제어를 수행하는 능력은 평가 및 방법론 측면에서 모두 어려움을 겪고 있습니다. 평가 측면에서, 기존 벤치마크는 즉각적인 기기 제어 또는 일반적인 개방형 도메인 메모리 검색 작업에 초점을 맞추고 있기 때문에 모델의 메모리 기반 기기 제어 능력을 효과적으로 평가할 수 없습니다. 방법론 측면에서, 메모리 기반 기기 제어는 강화 학습을 통해 접근할 수 있지만, 기존 강화 학습 방법은 일반적으로 결과 기반의 지도(즉, 최종 작업이 달성되었는지 여부)에 의존합니다. 이러한 중간 피드백의 부족은 세분화된 메모리 관리 작업(추가, 업데이트, 삭제 및 활용)에서 최적 이하의 성능이나 부분적인 실패를 초래할 수 있습니다. 이러한 문제를 해결하기 위해, 우리는 익명화된 실제 사용자 상호 작용 로그로 구성된 MemHomeLife를 공개합니다. 또한, 다양한 메모리 관련 하위 작업을 보다 세분화된 방식으로 평가할 수 있도록, 스마트 홈 시나리오에서 메모리 기반 기기 제어를 체계적으로 평가하도록 설계된 첫 번째 벤치마크인 MemHome을 구축했습니다.
Large Language Models (LLMs) have become a key foundation for enabling personalized smart home experiences. While existing studies have explored how smart home assistants understand user queries to control devices in real time, their ability to perform memory-driven device control remains challenging from both evaluation and methodological perspectives. In terms of evaluation, existing benchmarks either focus on immediate device control or general open-domain memory retrieval tasks, and therefore cannot effectively evaluate a model's ability to perform memory-driven device control. Methodologically, while memory-driven device control can be approached using Reinforcement Learning, conventional RL methods generally rely on outcome-based supervision (i.e., whether the final task is achieved). This lack of intermediate feedback can lead to sub-optimal performance or local failures in fine-grained memory management tasks (adding, updating, deleting, and utilizing). To address these issues, we first release MemHomeLife, built from anonymized real-world long-term user interaction logs. To enable more fine-grained evaluation of different memory-related subtasks, we further construct MemHome, the first benchmark designed to systematically evaluate memory-driven device control in smart home scenarios.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.