2604.01705v1 Apr 02, 2026 cs.CL

실제 위장내시경 검사 환경에서의 인간-AI 협업을 위한 도메인 적응 음성 인식 시스템 개발 및 다기관 평가

Development and multi-center evaluation of domain-adapted speech recognition for human-AI teaming in real-world gastrointestinal endoscopy

Yan Zhu
Yan Zhu
Citations: 22
h-index: 3
Tengfei Luo
Tengfei Luo
Citations: 23
h-index: 4
Peiyao Fu
Peiyao Fu
Citations: 19
h-index: 3
Xian Yang
Xian Yang
Citations: 8
h-index: 2
Quan-run Li
Quan-run Li
Citations: 5
h-index: 1
Pinghong Zhou
Pinghong Zhou
Citations: 73
h-index: 5
Shuo Wang
Shuo Wang
Citations: 68
h-index: 4
Ruijie Yang
Ruijie Yang
Citations: 7
h-index: 2
Zhihua Wang
Zhihua Wang
Citations: 8
h-index: 2

자동 음성 인식(ASR)은 위장내시경 검사에서 인간-AI 상호 작용을 위한 중요한 인터페이스이지만, 실제 임상 환경에서의 신뢰성은 특정 분야의 전문 용어와 복잡한 음향 조건으로 인해 제한됩니다. 본 연구에서는 실시간 내시경 작업 흐름에 적용하기 위해 설계된 도메인 적응 ASR 시스템인 EndoASR을 소개합니다. 우리는 합성된 내시경 보고서를 기반으로 하는 두 단계의 적응 전략을 개발하여, 특정 분야의 언어 모델링과 노이즈 강건성을 향상시키는 데 중점을 두었습니다. 6명의 내시경 전문의를 대상으로 한 회고적 평가에서 EndoASR은 음성 기록 정확도와 임상적 사용성 모두를 크게 향상시켰습니다. 문자 오류율(CER)은 20.52%에서 14.14%로 감소했고, 의료 용어 정확도(Med ACC)는 54.30%에서 87.59%로 증가했습니다. 5개의 독립적인 내시경 센터를 포괄하는 전향적 다기관 연구에서 EndoASR은 다양한 실제 환경 조건에서도 일관된 성능을 보였습니다. 기준 모델인 Paraformer 모델과 비교했을 때, CER은 16.20%에서 14.97%로 감소했고, Med ACC는 61.63%에서 84.16%로 향상되어, 실제 적용 시나리오에서의 견고성을 확인했습니다. 특히, EndoASR은 실시간 처리 속도(RTF)가 0.005로, Whisper-large-v3(RTF 0.055)보다 훨씬 빠르면서도, 모델 크기가 220M 파라미터로 작아 효율적인 엣지 배포가 가능합니다. 또한, 대규모 언어 모델과의 통합을 통해 향상된 ASR 품질이 후속 단계의 구조화된 정보 추출 및 의료 전문가-AI 상호 작용을 직접적으로 향상시키는 것을 확인했습니다. 이러한 결과는 도메인 적응 ASR이 위장내시경 검사에서 인간-AI 협업을 위한 신뢰할 수 있는 인터페이스 역할을 할 수 있으며, 다기관의 실제 임상 환경에서 일관된 성능을 보이는 것을 입증합니다.

Original Abstract

Automatic speech recognition (ASR) is a critical interface for human-AI interaction in gastrointestinal endoscopy, yet its reliability in real-world clinical settings is limited by domain-specific terminology and complex acoustic conditions. Here, we present EndoASR, a domain-adapted ASR system designed for real-time deployment in endoscopic workflows. We develop a two-stage adaptation strategy based on synthetic endoscopy reports, targeting domain-specific language modeling and noise robustness. In retrospective evaluation across six endoscopists, EndoASR substantially improves both transcription accuracy and clinical usability, reducing character error rate (CER) from 20.52% to 14.14% and increasing medical term accuracy (Med ACC) from 54.30% to 87.59%. In a prospective multi-center study spanning five independent endoscopy centers, EndoASR demonstrates consistent generalization under heterogeneous real-world conditions. Compared with the baseline Paraformer model, CER is reduced from 16.20% to 14.97%, while Med ACC is improved from 61.63% to 84.16%, confirming its robustness in practical deployment scenarios. Notably, EndoASR achieves a real-time factor (RTF) of 0.005, significantly faster than Whisper-large-v3 (RTF 0.055), while maintaining a compact model size of 220M parameters, enabling efficient edge deployment. Furthermore, integration with large language models demonstrates that improved ASR quality directly enhances downstream structured information extraction and clinician-AI interaction. These results demonstrate that domain-adapted ASR can serve as a reliable interface for human-AI teaming in gastrointestinal endoscopy, with consistent performance validated across multi-center real-world clinical settings.

1 Citations
1 Influential
2.5 Altmetric
15.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!