ECHO: 단일 블록 확산(One-step Block Diffusion)을 이용한 효율적인 흉부 X선 보고서 자동 생성
ECHO: Efficient Chest X-ray Report Generation with One-step Block Diffusion
흉부 X선 보고서 자동 생성(CXR-RG)은 방사선 전문의의 업무 부담을 크게 줄일 수 있는 잠재력을 가지고 있습니다. 그러나 기존의 순차적 토큰 디코딩 방식을 사용하는 비전-언어 모델(VLMs)은 추론 지연 시간이 길다는 단점이 있습니다. 확산 모델은 병렬 생성을 통해 유망한 대안을 제시하지만, 여전히 여러 번의 디노이징 과정을 거쳐야 합니다. 다단계 디노이징을 단일 단계로 압축하면 지연 시간을 더욱 줄일 수 있지만, 토큰-팩터화된 디노이저에 의해 발생하는 평균장 편향으로 인해 텍스트의 일관성이 저하되는 경우가 많습니다. 이러한 문제를 해결하기 위해, 본 논문에서는 흉부 X선 보고서 생성에 특화된 효율적인 확산 기반 VLM인 extbf{ECHO}를 제안합니다. ECHO는 새로운 Direct Conditional Distillation (DCD) 프레임워크를 통해 안정적인 단일 단계 블록 단위 추론을 가능하게 합니다. DCD는 온-정책 확산 경로로부터 비팩터화된 감독 신호를 구성하여 평균장 제한을 완화하고 토큰 간의 상호 의존성을 효과적으로 모델링합니다. 또한, 모델의 효과성을 유지하면서 학습 효율성을 더욱 향상시키는 Response-Asymmetric Diffusion (RAD) 학습 전략을 도입했습니다. 광범위한 실험 결과, ECHO는 기존의 최첨단 모델보다 RaTE와 SemScore를 각각 extbf{64.33%} 및 extbf{60.58%} 향상시켰으며, 임상적 정확도를 손상시키지 않으면서 extbf{8배} 빠른 추론 속도를 달성했습니다.
Chest X-ray report generation (CXR-RG) has the potential to substantially alleviate radiologists' workload. However, conventional autoregressive vision--language models (VLMs) suffer from high inference latency due to sequential token decoding. Diffusion-based models offer a promising alternative through parallel generation, but they still require multiple denoising iterations. Compressing multi-step denoising to a single step could further reduce latency, but often degrades textual coherence due to the mean-field bias introduced by token-factorized denoisers. To address this challenge, we propose \textbf{ECHO}, an efficient diffusion-based VLM (dVLM) for chest X-ray report generation. ECHO enables stable one-step-per-block inference via a novel Direct Conditional Distillation (DCD) framework, which mitigates the mean-field limitation by constructing unfactorized supervision from on-policy diffusion trajectories to encode joint token dependencies. In addition, we introduce a Response-Asymmetric Diffusion (RAD) training strategy that further improves training efficiency while maintaining model effectiveness. Extensive experiments demonstrate that ECHO surpasses state-of-the-art autoregressive methods, improving RaTE and SemScore by \textbf{64.33\%} and \textbf{60.58\%} respectively, while achieving an \textbf{$8\times$} inference speedup without compromising clinical accuracy.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.