2605.04449v1 May 06, 2026 cs.CL

GEM: 그래프 기반 강화된 전문가 혼합 모델과 ReAct 에이전트를 활용한 대화 상태 추적

GEM: Graph-Enhanced Mixture-of-Experts with ReAct Agents for Dialogue State Tracking

Ziqi Zhu
Ziqi Zhu
Citations: 16
h-index: 2
A. Suresh
A. Suresh
Citations: 0
h-index: 0
Tomal Deb
Tomal Deb
Citations: 9
h-index: 2
Iman Abbasnejad
Iman Abbasnejad
Citations: 2
h-index: 1

대화 상태 추적(DST)은 다양한 분야의 대화에서 구조화된 정보를 정확하게 추출하는 작업이며, 이는 뛰어난 일반적인 능력을 가지고 있음에도 불구하고, 거대 언어 모델(LLM)이 어려움을 겪는 분야입니다. 본 논문에서는 언어 모델과 그래프 기반의 대화 이해를 결합하고, ReAct 에이전트 기반의 추론을 통해 우수한 DST 성능을 제공하는 새로운 프레임워크인 GEM(Graph-Enhanced Mixture-of-Experts)을 제안합니다. 저희의 접근 방식은 특화된 전문가들 간의 동적 경로 설정 기능을 제공합니다. 여기에는 대화 구조와 턴 레벨 의존성을 파악하는 그래프 신경망(GNN)과 시퀀스 모델링을 위한 T5-Small 인코더-디코더가 포함되며, 이는 지능적인 라우터에 의해 조정됩니다. 복잡한 값 생성 작업의 경우, 대화 맥락에 대한 구조화된 추론을 수행하는 ReAct 에이전트를 통합합니다. MultiWOZ 2.2 데이터셋에서 GEM은 65.19%의 Joint Goal Accuracy를 달성하여, 엔드투엔드 LLM 방식(최고 38.43%)보다 훨씬 뛰어난 성능을 보이며, TOATOD (63.79%), D3ST (58.70%), Diable (56.48%)을 포함한 최첨단(SOTA) 방법보다 우수한 성능을 보였습니다. 그래프 기반의 전문가 혼합 모델과 ReAct 통합은 구조화된 대화 표현, 동적 전문가 라우팅, 그리고 에이전트 기반 추론을 결합함으로써 대화 상태 추적에 강력한 패러다임을 제공하며, 선택적인 전문가 활성화를 통해 우수한 정확도를 유지하면서도 계산 효율성을 제공합니다.

Original Abstract

Dialogue State Tracking (DST) requires precise extraction of structured information from multi-domain conversations, a task where Large Language Models (LLMs) struggle despite their impressive general capabilities. We present GEM (Graph-Enhanced Mixture-of-Experts), a novel framework that combines language models and graph-structured dialogue understanding with ReAct agent-based reasoning for superior DST performance. Our approach dynamically routes between specialized experts: a Graph Neural Network that captures dialogue structure and turn-level dependencies, and a finetuned T5-Small encoder-decoder for sequence modeling, coordinated by an intelligent router. For complex value generation tasks, we integrate ReAct agents that perform structured reasoning over dialogue context. On MultiWOZ 2.2, GEM achieves 65.19% Joint Goal Accuracy, substantially outperforming end-to-end LLM approaches (best: 38.43%) and surpassing state-of-the-art (SOTA) methods including TOATOD (63.79%), D3ST (58.70%), and Diable (56.48%). Our graph-enhanced mixture-of-experts architecture with ReAct integration demonstrates that combining structured dialogue representation with dynamic expert routing and agent-based reasoning provides a powerful paradigm for dialogue state tracking, achieving superior accuracy while maintaining computational efficiency through selective expert activation.

0 Citations
0 Influential
1 Altmetric
5.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!