TS-Debate: 제로샷 시계열 추론을 위한 멀티모달 협력적 토론
TS-Debate: Multimodal Collaborative Debate for Zero-Shot Time Series Reasoning
거대 언어 모델(LLM)과 시계열(TS) 분석의 교차점에서 이루어진 최근의 발전은 가능성과 취약점을 동시에 드러냈습니다. LLM은 정교하게 설계된 문맥이 주어지면 시간적 구조에 대해 추론할 수 있지만, 수치적 충실도, 모달리티 간섭, 그리고 원칙에 입각한 교차 모달 통합에는 종종 어려움을 겪습니다. 우리는 제로샷 시계열 추론을 위한 모달리티 특화 협력적 멀티 에이전트 토론 프레임워크인 TS-Debate를 제안합니다. TS-Debate는 명시적인 도메인 지식 도출을 선행한 후, 텍스트 문맥, 시각적 패턴, 수치적 신호에 전담 전문가 에이전트를 할당하고, 구조화된 토론 프로토콜을 통해 이들의 상호작용을 조정합니다. 검토자 에이전트는 프로그램적 검증을 위한 경량 코드 실행 및 수치 조회를 지원받아, 검증-충돌-보정 메커니즘을 사용하여 에이전트의 주장을 평가합니다. 이러한 아키텍처는 모달리티 충실도를 보존하고, 상충되는 증거를 드러내며, 작업별 미세 조정 없이 수치적 환각을 완화합니다. 3개의 공개 벤치마크에 걸친 20개 작업에서 TS-Debate는 모든 에이전트가 모든 입력을 관찰하는 표준 멀티모달 토론을 포함한 강력한 기준 모델들에 비해 일관되고 유의미한 성능 향상을 달성했습니다.
Recent progress at the intersection of large language models (LLMs) and time series (TS) analysis has revealed both promise and fragility. While LLMs can reason over temporal structure given carefully engineered context, they often struggle with numeric fidelity, modality interference, and principled cross-modal integration. We present TS-Debate, a modality-specialized, collaborative multi-agent debate framework for zero-shot time series reasoning. TS-Debate assigns dedicated expert agents to textual context, visual patterns, and numerical signals, preceded by explicit domain knowledge elicitation, and coordinates their interaction via a structured debate protocol. Reviewer agents evaluate agent claims using a verification-conflict-calibration mechanism, supported by lightweight code execution and numerical lookup for programmatic verification. This architecture preserves modality fidelity, exposes conflicting evidence, and mitigates numeric hallucinations without task-specific fine-tuning. Across 20 tasks spanning three public benchmarks, TS-Debate achieves consistent and significant performance improvements over strong baselines, including standard multimodal debate in which all agents observe all inputs.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.