MIND: 기준 기반 임상 지원을 활용한 통합적 정신과 상담을 위한 강화 학습 시스템
MIND: Unified Inquiry and Diagnosis RL with Criteria Grounded Clinical Supports for Psychiatric Consultation
대규모 언어 모델(LLM)은 의료 대화 시스템의 발전에 기여했지만, 정신과 상담은 주관적인 모호성과 복합적인 동반 질환으로 인해 훨씬 더 높은 수준의 요구를 합니다. 에이전트는 다단계 상호 작용에서 불완전하고 일관성 없는 환자 보고서로부터 정신병리적 단서를 지속적으로 추출하고, 엄격한 감별 진단 추론을 수행해야 합니다. 그러나 기존 방법은 두 가지 근본적인 문제에 직면합니다. 첫째, 기준 기반 임상 지원이 없으면, 비전형적이거나 구체적으로 명시되지 않은 증상이 나타날 때 근거 없는 임상적 주장을 할 가능성이 높습니다. 둘째, 다단계 상호 작용에서, 주제에서 벗어난 질문(off-topic 또는 낮은 효율의 질문)을 줄이고 질문 전략을 최적화하는 데 어려움을 겪습니다. 이러한 문제를 해결하기 위해, 정신과 상담을 위한 통합적인 질문-진단 강화 학습 프레임워크인 MIND를 제안합니다. 구체적으로, 우리는 대화 맥락을 임상 검색 상태로 요약하고, 의미적으로 유사한 참고 상담을 검색하며, 기준에 부합하는 질문과 추론을 안내하기 위한 재사용 가능한 기준 기반 임상 지원을 추출하는 기준 기반 정신과 추론 은행(PRB)을 구축합니다. 이러한 기반을 바탕으로, MIND는 명시적인 임상 추론을 수행하고, 규칙 기반 프로세스 보상을 통해 중간 의사 결정 단계를 세밀하게 감독하며, 정보 획득과 진단 의사 결정을 동시에 개선하기 위한 가치 기반 경로 수정 메커니즘을 통합합니다. 광범위한 실험 결과, MIND는 진단 정확도, 공감적 상호 작용 품질, 해석 가능성 및 일반화 측면에서 강력한 기존 모델보다 우수한 성능을 보임을 입증합니다.
Large language models (LLMs) have advanced medical dialogue systems, yet psychiatric consultation poses substantially higher demands due to subjective ambiguity and comorbidity complexity: an agent must continuously extract psychopathological cues from incomplete and inconsistent patient reports in multi-turn interactions and perform rigorous differential diagnostic reasoning. However, existing methods face two fundamental challenges. First, without criteria-grounded clinical supports, they are prone to unsupported clinical assertions when symptoms are atypical or underspecified. Second, in multi-turn interactions, they struggle to mitigate inquiry drift (off-topic or low-yield questioning) and optimize questioning strategies. To address these challenges, we propose MIND, a unified inquiry--diagnosis reinforcement learning framework for psychiatric consultation. Specifically, we build a Criteria-Grounded Psychiatric Reasoning Bank (PRB) that summarizes dialogue context into clinical retrieval states, retrieves semantically similar reference consultations, and distills reusable criteria-grounded clinical supports to guide criteria-aligned inquiry and reasoning. Building on this foundation, MIND enforces explicit clinical reasoning with rubric-based process rewards to provide fine-grained supervision over intermediate decision steps, and incorporates a value-aware trajectory rectification mechanism to jointly improve information acquisition and diagnostic decision-making across turns. Extensive experiments demonstrate that MIND consistently outperforms strong baselines in diagnostic accuracy, empathetic interaction quality, interpretability, and generalization.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.