ECG-Agent: ECG 다중 턴 대화를 위한 온디바이스 도구 호출 에이전트
ECG-Agent: On-Device Tool-Calling Agent for ECG Multi-Turn Dialogue
최근 멀티모달 대규모 언어 모델의 발전은 심전도(ECG) 분야로 빠르게 확장되었으며, 주로 분류, 보고서 생성, 단일 턴 질의응답 작업에 집중되어 왔습니다. 그러나 이러한 모델들은 다중 턴 대화 능력, 온디바이스 효율성, 그리고 PQRST 간격과 같은 ECG 측정치에 대한 정밀한 이해가 부족하여 실제 시나리오에서 한계를 보입니다. 이러한 한계를 해결하기 위해, 우리는 다중 턴 ECG 대화를 위한 최초의 LLM 기반 도구 호출 에이전트인 ECG-Agent를 소개합니다. 또한 개발 및 평가를 촉진하기 위해, 다양한 ECG 리드 구성에 대한 현실적인 사용자-어시스턴트 다중 턴 대화 모음인 ECG-Multi-Turn-Dialogue (ECG-MTD) 데이터셋을 제시합니다. 우리는 온디바이스 구동이 가능한 모델부터 더 큰 모델까지 다양한 크기의 ECG-Agent를 개발했습니다. 실험 결과, ECG-Agent는 응답 정확도 면에서 기준 ECG-LLM을 능가하는 것으로 나타났습니다. 더 나아가, 온디바이스 에이전트는 응답 정확도, 도구 호출 능력, 환각 현상을 평가하는 다양한 평가에서 더 큰 에이전트와 대등한 성능을 달성하여 실제 애플리케이션에서의 실행 가능성을 입증했습니다.
Recent advances in Multimodal Large Language Models have rapidly expanded to electrocardiograms, focusing on classification, report generation, and single-turn QA tasks. However, these models fall short in real-world scenarios, lacking multi-turn conversational ability, on-device efficiency, and precise understanding of ECG measurements such as the PQRST intervals. To address these limitations, we introduce ECG-Agent, the first LLM-based tool-calling agent for multi-turn ECG dialogue. To facilitate its development and evaluation, we also present ECG-Multi-Turn-Dialogue (ECG-MTD) dataset, a collection of realistic user-assistant multi-turn dialogues for diverse ECG lead configurations. We develop ECG-Agents in various sizes, from on-device capable to larger agents. Experimental results show that ECG-Agents outperform baseline ECG-LLMs in response accuracy. Furthermore, on-device agents achieve comparable performance to larger agents in various evaluations that assess response accuracy, tool-calling ability, and hallucinations, demonstrating their viability for real-world applications.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.