2604.09450v1 Apr 10, 2026 cs.LG

ECHO: 단일 블록 확산(One-step Block Diffusion)을 이용한 효율적인 흉부 X선 보고서 자동 생성

ECHO: Efficient Chest X-ray Report Generation with One-step Block Diffusion

Xiaofeng Mou
Xiaofeng Mou
Citations: 13
h-index: 1
Yi Xu
Yi Xu
Citations: 3
h-index: 1
Lifeng Chen
Lifeng Chen
Citations: 11
h-index: 2
Tianqi You
Tianqi You
Citations: 5
h-index: 1
Zhimin Bao
Zhimin Bao
Citations: 281
h-index: 2
J. Jiao
J. Jiao
Citations: 336
h-index: 10
Zhi-Zhong Ou
Zhi-Zhong Ou
Citations: 1
h-index: 1
Xiao Han
Xiao Han
Citations: 5
h-index: 1
Hao-Nan Liu
Hao-Nan Liu
Citations: 77
h-index: 5
Tao Sun
Tao Sun
Citations: 7
h-index: 1
Xiaojie Jin
Xiaojie Jin
Citations: 21
h-index: 2

흉부 X선 보고서 자동 생성(CXR-RG)은 방사선 전문의의 업무 부담을 크게 줄일 수 있는 잠재력을 가지고 있습니다. 그러나 기존의 순차적 토큰 디코딩 방식을 사용하는 비전-언어 모델(VLMs)은 추론 지연 시간이 길다는 단점이 있습니다. 확산 모델은 병렬 생성을 통해 유망한 대안을 제시하지만, 여전히 여러 번의 디노이징 과정을 거쳐야 합니다. 다단계 디노이징을 단일 단계로 압축하면 지연 시간을 더욱 줄일 수 있지만, 토큰-팩터화된 디노이저에 의해 발생하는 평균장 편향으로 인해 텍스트의 일관성이 저하되는 경우가 많습니다. 이러한 문제를 해결하기 위해, 본 논문에서는 흉부 X선 보고서 생성에 특화된 효율적인 확산 기반 VLM인 extbf{ECHO}를 제안합니다. ECHO는 새로운 Direct Conditional Distillation (DCD) 프레임워크를 통해 안정적인 단일 단계 블록 단위 추론을 가능하게 합니다. DCD는 온-정책 확산 경로로부터 비팩터화된 감독 신호를 구성하여 평균장 제한을 완화하고 토큰 간의 상호 의존성을 효과적으로 모델링합니다. 또한, 모델의 효과성을 유지하면서 학습 효율성을 더욱 향상시키는 Response-Asymmetric Diffusion (RAD) 학습 전략을 도입했습니다. 광범위한 실험 결과, ECHO는 기존의 최첨단 모델보다 RaTE와 SemScore를 각각 extbf{64.33%} 및 extbf{60.58%} 향상시켰으며, 임상적 정확도를 손상시키지 않으면서 extbf{8배} 빠른 추론 속도를 달성했습니다.

Original Abstract

Chest X-ray report generation (CXR-RG) has the potential to substantially alleviate radiologists' workload. However, conventional autoregressive vision--language models (VLMs) suffer from high inference latency due to sequential token decoding. Diffusion-based models offer a promising alternative through parallel generation, but they still require multiple denoising iterations. Compressing multi-step denoising to a single step could further reduce latency, but often degrades textual coherence due to the mean-field bias introduced by token-factorized denoisers. To address this challenge, we propose \textbf{ECHO}, an efficient diffusion-based VLM (dVLM) for chest X-ray report generation. ECHO enables stable one-step-per-block inference via a novel Direct Conditional Distillation (DCD) framework, which mitigates the mean-field limitation by constructing unfactorized supervision from on-policy diffusion trajectories to encode joint token dependencies. In addition, we introduce a Response-Asymmetric Diffusion (RAD) training strategy that further improves training efficiency while maintaining model effectiveness. Extensive experiments demonstrate that ECHO surpasses state-of-the-art autoregressive methods, improving RaTE and SemScore by \textbf{64.33\%} and \textbf{60.58\%} respectively, while achieving an \textbf{$8\times$} inference speedup without compromising clinical accuracy.

1 Citations
0 Influential
5 Altmetric
26.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!