실제 위장내시경 검사 환경에서의 인간-AI 협업을 위한 도메인 적응 음성 인식 시스템 개발 및 다기관 평가
Development and multi-center evaluation of domain-adapted speech recognition for human-AI teaming in real-world gastrointestinal endoscopy
자동 음성 인식(ASR)은 위장내시경 검사에서 인간-AI 상호 작용을 위한 중요한 인터페이스이지만, 실제 임상 환경에서의 신뢰성은 특정 분야의 전문 용어와 복잡한 음향 조건으로 인해 제한됩니다. 본 연구에서는 실시간 내시경 작업 흐름에 적용하기 위해 설계된 도메인 적응 ASR 시스템인 EndoASR을 소개합니다. 우리는 합성된 내시경 보고서를 기반으로 하는 두 단계의 적응 전략을 개발하여, 특정 분야의 언어 모델링과 노이즈 강건성을 향상시키는 데 중점을 두었습니다. 6명의 내시경 전문의를 대상으로 한 회고적 평가에서 EndoASR은 음성 기록 정확도와 임상적 사용성 모두를 크게 향상시켰습니다. 문자 오류율(CER)은 20.52%에서 14.14%로 감소했고, 의료 용어 정확도(Med ACC)는 54.30%에서 87.59%로 증가했습니다. 5개의 독립적인 내시경 센터를 포괄하는 전향적 다기관 연구에서 EndoASR은 다양한 실제 환경 조건에서도 일관된 성능을 보였습니다. 기준 모델인 Paraformer 모델과 비교했을 때, CER은 16.20%에서 14.97%로 감소했고, Med ACC는 61.63%에서 84.16%로 향상되어, 실제 적용 시나리오에서의 견고성을 확인했습니다. 특히, EndoASR은 실시간 처리 속도(RTF)가 0.005로, Whisper-large-v3(RTF 0.055)보다 훨씬 빠르면서도, 모델 크기가 220M 파라미터로 작아 효율적인 엣지 배포가 가능합니다. 또한, 대규모 언어 모델과의 통합을 통해 향상된 ASR 품질이 후속 단계의 구조화된 정보 추출 및 의료 전문가-AI 상호 작용을 직접적으로 향상시키는 것을 확인했습니다. 이러한 결과는 도메인 적응 ASR이 위장내시경 검사에서 인간-AI 협업을 위한 신뢰할 수 있는 인터페이스 역할을 할 수 있으며, 다기관의 실제 임상 환경에서 일관된 성능을 보이는 것을 입증합니다.
Automatic speech recognition (ASR) is a critical interface for human-AI interaction in gastrointestinal endoscopy, yet its reliability in real-world clinical settings is limited by domain-specific terminology and complex acoustic conditions. Here, we present EndoASR, a domain-adapted ASR system designed for real-time deployment in endoscopic workflows. We develop a two-stage adaptation strategy based on synthetic endoscopy reports, targeting domain-specific language modeling and noise robustness. In retrospective evaluation across six endoscopists, EndoASR substantially improves both transcription accuracy and clinical usability, reducing character error rate (CER) from 20.52% to 14.14% and increasing medical term accuracy (Med ACC) from 54.30% to 87.59%. In a prospective multi-center study spanning five independent endoscopy centers, EndoASR demonstrates consistent generalization under heterogeneous real-world conditions. Compared with the baseline Paraformer model, CER is reduced from 16.20% to 14.97%, while Med ACC is improved from 61.63% to 84.16%, confirming its robustness in practical deployment scenarios. Notably, EndoASR achieves a real-time factor (RTF) of 0.005, significantly faster than Whisper-large-v3 (RTF 0.055), while maintaining a compact model size of 220M parameters, enabling efficient edge deployment. Furthermore, integration with large language models demonstrates that improved ASR quality directly enhances downstream structured information extraction and clinician-AI interaction. These results demonstrate that domain-adapted ASR can serve as a reliable interface for human-AI teaming in gastrointestinal endoscopy, with consistent performance validated across multi-center real-world clinical settings.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.