FloCA: 충실하고 논리적으로 일관된 순서도 추론을 향하여
FloCA: Towards Faithful and Logically Consistent Flowchart Reasoning
순서도 지향 대화(FOD) 시스템은 과제 목표를 달성하기 위해 도메인별 순서도를 따라 멀티턴 의사결정 또는 운영 절차를 통해 사용자를 안내하는 것을 목표로 한다. 본 연구에서는 FOD의 순서도 추론을, 노드 전환이 올바른 순서도 경로와 일치하도록 보장하면서 각 대화 턴에서 사용자 입력을 순서도 노드에 그라운딩(grounding)하는 과정으로 정형화한다. 과제 지향 대화 시스템 분야에서 거대 언어 모델(LLM)의 최근 발전에도 불구하고, 이를 FOD에 적용하는 것은 여전히 두 가지 한계에 직면해 있다. (1) LLM은 순서도 위상(topology)을 표현하고 추론하는 명시적인 메커니즘이 부족하다. (2) 환각 현상을 일으키기 쉬워 충실하지 않은 순서도 추론을 유발한다. 이러한 한계를 해결하기 위해, 우리는 제로샷 순서도 지향 대화 에이전트인 FloCA를 제안한다. FloCA는 의도 파악 및 응답 생성에는 LLM을 사용하고, 순서도 추론은 위상 제약이 있는 그래프 실행을 수행하는 외부 도구에 위임하여 대화 턴 전반에 걸쳐 충실하고 논리적으로 일관된 노드 전환을 보장한다. 또한 우리는 LLM 기반 사용자 시뮬레이터와 추론 정확도 및 상호작용 효율성을 아우르는 5가지 새로운 지표를 포함한 평가 프레임워크를 소개한다. FLODIAL 및 PFDial 데이터셋에 대한 광범위한 실험을 통해 기존 LLM 기반 방법론의 한계를 파악하고 FloCA의 우수성을 입증한다. 코드는 https://github.com/Jinzi-Zou/FloCA-flowchart-reasoning 에서 확인할 수 있다.
Flowchart-oriented dialogue (FOD) systems aim to guide users through multi-turn decision-making or operational procedures by following a domain-specific flowchart to achieve a task goal. In this work, we formalize flowchart reasoning in FOD as grounding user input to flowchart nodes at each dialogue turn while ensuring node transition is consistent with the correct flowchart path. Despite recent advances of LLMs in task-oriented dialogue systems, adapting them to FOD still faces two limitations: (1) LLMs lack an explicit mechanism to represent and reason over flowchart topology, and (2) they are prone to hallucinations, leading to unfaithful flowchart reasoning. To address these limitations, we propose FloCA, a zero-shot flowchart-oriented conversational agent. FloCA uses an LLM for intent understanding and response generation while delegating flowchart reasoning to an external tool that performs topology-constrained graph execution, ensuring faithful and logically consistent node transitions across dialogue turns. We further introduce an evaluation framework with an LLM-based user simulator and five new metrics covering reasoning accuracy and interaction efficiency. Extensive experiments on FLODIAL and PFDial datasets highlight the bottlenecks of existing LLM-based methods and demonstrate the superiority of FloCA. Our codes are available at https://github.com/Jinzi-Zou/FloCA-flowchart-reasoning.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.