2601.13880v1 Jan 20, 2026 cs.AI

LifeAgentBench: 디지털 헬스의 개인 건강 비서를 위한 다차원 벤치마크 및 에이전트

LifeAgentBench: A Multi-dimensional Benchmark and Agent for Personal Health Assistants in Digital Health

Zihao Wang
Zihao Wang
Citations: 4
h-index: 1
Onat Gungor
Onat Gungor
Citations: 12
h-index: 1
Ye Tian
Ye Tian
Citations: 6
h-index: 2
Tajana Simunic
Tajana Simunic
Citations: 59
h-index: 4
Xiaoran Fan
Xiaoran Fan
Citations: 2,529
h-index: 14

개인화된 디지털 건강 지원은 이질적인 라이프스타일 신호에 대한 장기적이고 교차 차원적인 추론을 필요로 하며, 모바일 센싱과 대규모 언어 모델(LLM)의 최근 발전은 이러한 지원을 점점 더 현실화하고 있습니다. 그러나 체계적인 벤치마크의 부재로 인해 이 환경에서 현재 LLM의 능력은 여전히 불분명합니다. 본 논문에서는 기초적인 검색부터 복잡한 추론에 이르는 22,573개의 질문을 포함하는, 장기적이고 교차 차원적이며 다중 사용자 라이프스타일 건강 추론을 위한 대규모 QA 벤치마크인 LifeAgentBench를 소개합니다. 우리는 LLM 기반 건강 비서의 신뢰할 수 있고 확장 가능한 평가를 가능하게 하기 위해 확장 가능한 벤치마크 구축 파이프라인과 표준화된 평가 프로토콜을 공개합니다. 그런 다음 LifeAgentBench에서 11개의 주요 LLM을 체계적으로 평가하고 장기 데이터 집계 및 교차 차원 추론에서의 주요 병목 현상을 파악합니다. 이러한 결과를 바탕으로, 우리는 다단계 증거 검색과 결정론적 집계를 통합하여 널리 사용되는 두 가지 베이스라인과 비교해 상당한 성능 향상을 달성하는 건강 비서를 위한 강력한 베이스라인 에이전트로 LifeAgent를 제안합니다. 사례 연구를 통해 실제 일상생활 시나리오에서의 잠재력을 추가로 입증합니다. 이 벤치마크는 https://anonymous.4open.science/r/LifeAgentBench-CE7B 에서 공개적으로 이용 가능합니다.

Original Abstract

Personalized digital health support requires long-horizon, cross-dimensional reasoning over heterogeneous lifestyle signals, and recent advances in mobile sensing and large language models (LLMs) make such support increasingly feasible. However, the capabilities of current LLMs in this setting remain unclear due to the lack of systematic benchmarks. In this paper, we introduce LifeAgentBench, a large-scale QA benchmark for long-horizon, cross-dimensional, and multi-user lifestyle health reasoning, containing 22,573 questions spanning from basic retrieval to complex reasoning. We release an extensible benchmark construction pipeline and a standardized evaluation protocol to enable reliable and scalable assessment of LLM-based health assistants. We then systematically evaluate 11 leading LLMs on LifeAgentBench and identify key bottlenecks in long-horizon aggregation and cross-dimensional reasoning. Motivated by these findings, we propose LifeAgent as a strong baseline agent for health assistant that integrates multi-step evidence retrieval with deterministic aggregation, achieving significant improvements compared with two widely used baselines. Case studies further demonstrate its potential in realistic daily-life scenarios. The benchmark is publicly available at https://anonymous.4open.science/r/LifeAgentBench-CE7B.

0 Citations
0 Influential
7 Altmetric
35.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!