ESAinsTOD: 작업 지향 대화 모델링을 위한 통합적인 스키마 기반 지시 조정 프레임워크
ESAinsTOD: A Unified End-to-End Schema-Aware Instruction-Tuning Framework for Task-Oriented Dialog Modeling
기존의 모듈형 작업 지향 대화 시스템을 위한 엔드투엔드 모델링 방법은 일반적으로 특정 데이터셋에 맞춰 설계되어 있어 새로운 대화 시나리오에 적응하기 어렵습니다. 본 연구에서는 일반적인 작업 지향 대화 모델링을 위한 통합적인 엔드투엔드 스키마 기반 지시 조정 프레임워크인 ESAinsTOD를 제안합니다. 이 프레임워크는 단순히 대규모 언어 모델(LLM)을 미세 조정하는 것을 넘어 구조적인 방법론을 도입하여 다양한 대화 작업 흐름 및 스키마에 대한 유연한 적응을 가능하게 합니다. 구체적으로, 우리는 LLM의 전체 파라미터를 미세 조정하고, 다음과 같은 두 가지 정렬 메커니즘을 도입하여 결과 시스템이 지시 인식적이고 스키마 인식적이도록 합니다: (i) 지시 정렬: 시스템이 다양한 작업 흐름을 수행하기 위해 주어진 지시를 충실히 따르도록 보장합니다. (ii) 스키마 정렬: 시스템이 지정된 스키마를 준수하도록 예측을 유도합니다. 또한, 세션 레벨의 엔드투엔드 모델링을 사용하여 시스템이 대화 기록 내에서 이전에 실행된 작업 흐름의 결과를 활용할 수 있도록 하여, 지시 조정 패러다임과 실제 작업 지향 시스템의 적용 간의 격차를 해소합니다. 실험 결과는 미세 조정된 LLM이 강력한 기준선 역할을 하지만, 우리의 구조적인 접근 방식이 상당한 추가적인 이점을 제공한다는 것을 보여줍니다. 특히, 우리의 연구 결과는 다음과 같습니다: (i) ESAinsTOD는 CamRest676, In-Car, MultiWOZ와 같은 엔드투엔드 작업 지향 대화 모델링 벤치마크에서 최첨단 모델보다 상당한 성능 향상을 보입니다. (ii) 더욱 중요한 점은, 제안된 정렬 메커니즘 덕분에 다양한 저자원 환경에서 우수한 일반화 능력을 보여주며, 제로샷 성능을 크게 향상시킵니다. (iii) 우리의 지시 조정 패러다임은 모델의 데이터 노이즈 및 연쇄 오류에 대한 견고성을 크게 향상시킵니다.
Existing end-to-end modeling methods for modular task-oriented dialog systems are typically tailored to specific datasets, making it challenging to adapt to new dialog scenarios. In this work, we propose ESAinsTOD, a unified End-to-end Schema-Aware Instruction-tuning framework for general Task-Oriented Dialog modeling. This framework introduces a structured methodology to go beyond simply fine-tuning Large Language Models (LLMs), enabling flexible adaptation to various dialogue task flows and schemas. Specifically, we leverage full-parameter fine-tuning of LLMs and introduce two alignment mechanisms to make the resulting system both instruction-aware and schema-aware: (i) instruction alignment, which ensures that the system faithfully follows task instructions to complete various task flows from heterogeneous TOD datasets; and (ii) schema alignment, which encourages the system to make predictions adhering to the specified schema. In addition, we employ session-level end-to-end modeling, which allows the system to access the results of previously executed task flows within the dialogue history, to bridge the gap between the instruction-tuning paradigm and the real-world application of TOD systems. Empirical results show that while a fine-tuned LLM serves as a strong baseline, our structured approach provides significant additional benefits. In particular, our findings indicate that: (i) ESAinsTOD outperforms state-of-the-art models by a significant margin on end-to-end task-oriented dialog modeling benchmarks: CamRest676, In-Car and MultiWOZ; (ii) more importantly, it exhibits superior generalization capabilities across various low-resource settings, with the proposed alignment mechanisms significantly enhancing zero-shot performance; and (iii) our instruction-tuning paradigm substantially improves the model's robustness against data noise and cascading errors.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.