2604.23284v1 Apr 25, 2026 cs.CL

Au-M-ol: 의료 오디오 및 언어 이해를 위한 통합 모델

Au-M-ol: A Unified Model for Medical Audio and Language Understanding

Tao Sheng
Tao Sheng
Citations: 24
h-index: 3
Meizhu Liu
Meizhu Liu
Citations: 763
h-index: 13
Nistha Mitra
Nistha Mitra
Citations: 6
h-index: 1
Paul Li
Paul Li
Citations: 9
h-index: 2
Amine Abdaoui
Amine Abdaoui
Citations: 398
h-index: 8
Adam Ledyard
Adam Ledyard
Citations: 0
h-index: 0

본 연구에서는 의료 오디오 처리 기능을 대규모 언어 모델(LLM)에 통합한 새로운 다중 모드 아키텍처인 Au-M-ol을 제안합니다. Au-M-ol은 자동 음성 인식(ASR)과 같은 임상적으로 중요한 작업의 성능을 향상시키는 것을 목표로 합니다. Au-M-ol은 세 가지 주요 구성 요소로 구성됩니다. (1) 의료 음성에서 풍부한 음향 특징을 추출하는 오디오 인코더, (2) 오디오 특징을 LLM 입력 공간으로 매핑하는 적응 계층, (3) 전처리된 LLM으로, 음성 기록 및 임상 언어 이해를 수행합니다. 이러한 설계는 모델이 음성으로 전달된 의료 정보를 직접 해석하여 정확도와 안정성을 향상시킵니다. 실험 결과, Au-M-ol은 의료 음성 기록 작업에서 최첨단 모델과 비교하여 단어 오류율(WER)을 56% 줄였습니다. 또한, Au-M-ol은 노이즈 환경, 특정 분야 용어, 화자 변동성 등 어려운 조건에서도 뛰어난 성능을 보입니다. 이러한 결과는 Au-M-ol이 신뢰성 있고 상황 인지적인 오디오 이해가 필수적인 실제 임상 응용 분야에서 강력한 후보가 될 수 있음을 시사합니다.

Original Abstract

In this work, we present Au-M-ol, a novel multimodal architecture that extends Large Language Models (LLMs) with audio processing. It is designed to improve performance on clinically relevant tasks such as Automatic Speech Recognition (ASR). Au-M-ol has three main components: (1) an audio encoder that extracts rich acoustic features from medical speech, (2) an adaptation layer that maps audio features into the LLM input space, and (3) a pretrained LLM that performs transcription and clinical language understanding. This design allows the model to interpret spoken medical content directly, improving both accuracy and robustness. In experiments, Au-M-ol reduces Word Error Rate (WER) by 56\% compared to state-of-the-art baselines on medical transcription tasks. The model also performs well in challenging conditions, including noisy environments, domain-specific terminology, and speaker variability. These results suggest that Au-M-ol is a strong candidate for real-world clinical applications, where reliable and context-aware audio understanding is essential.

0 Citations
0 Influential
6.5 Altmetric
32.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!