2604.02787v1 Apr 03, 2026 cs.CV

LumaFlux: 물리 기반 확산 트랜스포머를 활용한 8비트 이미지를 HDR 환경으로 변환

LumaFlux: Lifting 8-Bit Worlds to HDR Reality with Physically-Guided Diffusion Transformers

Shreshth Saini
Shreshth Saini
Citations: 23
h-index: 2
N. Birkbeck
N. Birkbeck
Citations: 2,285
h-index: 23
Balu Adsumilli
Balu Adsumilli
Citations: 37
h-index: 3
Yilin Wang
Yilin Wang
Citations: 2,995
h-index: 16
H. Gedik
H. Gedik
Citations: 18
h-index: 2
Alan C. Bovik
Alan C. Bovik
Citations: 14
h-index: 3

HDR 기능을 지원하는 기기의 급속한 보급으로 인해, 8비트 표준 동적 범위(SDR) 콘텐츠를 시각적으로나 물리적으로 정확한 10비트 고동적 범위(HDR)로 변환하는 것이 시급한 과제가 되었습니다. 기존의 역 톤 매핑(ITM) 방법은 종종 고정된 톤 매핑 연산자에 의존하는데, 이러한 연산자는 실제 환경의 왜곡, 스타일 변화 및 카메라 파이프라인에 대한 일반화에 어려움을 겪으며, 종종 밝기가 손실되거나 채도가 감소하며, 톤 재현이 불안정해지는 문제가 발생합니다. 본 논문에서는 대규모 사전 학습된 확산 트랜스포머(DiT)를 활용하여 SDR-to-HDR 재구성을 위한 물리적 및 시각적 가이드 기반의 첫 번째 DiT 모델인 LumaFlux를 소개합니다. LumaFlux는 다음과 같은 특징을 가집니다: (1) 저랭크 잔차를 통해 어텐션에 휘도, 공간 정보 및 주파수 정보를 주입하는 물리적 가이드 적응(PGA) 모듈; (2) 비전 인코더 특징으로부터 FiLM 조건을 사용하여 색상과 질감을 안정화하는 지각적 교차 변조(PCM) 레이어; (3) 시간 단계 및 레이어에 따라 적응적으로 조절되는 물리적 및 지각적 신호를 융합하는 HDR 잔차 커플러. 마지막으로, 경량화된 Rational-Quadratic Spline 디코더는 밝기 확장 및 노출 조정을 위한 부드럽고 해석 가능한 톤 필드를 재구성하여 VAE 디코더의 출력을 향상시켜 HDR 이미지를 생성합니다. 강력한 HDR 학습을 위해, 최초의 대규모 SDR-HDR 학습 데이터셋을 구축했습니다. 공정하고 재현 가능한 비교를 위해, HDR 참조 이미지와 해당 전문가 평가 SDR 버전을 포함하는 새로운 평가 벤치마크를 확립했습니다. 다양한 벤치마크에서 LumaFlux는 최첨단 모델보다 우수한 성능을 보이며, 최소한의 추가 파라미터로 우수한 휘도 재구성 및 지각적 색상 충실도를 달성합니다.

Original Abstract

The rapid adoption of HDR-capable devices has created a pressing need to convert the 8-bit Standard Dynamic Range (SDR) content into perceptually and physically accurate 10-bit High Dynamic Range (HDR). Existing inverse tone-mapping (ITM) methods often rely on fixed tone-mapping operators that struggle to generalize to real-world degradations, stylistic variations, and camera pipelines, frequently producing clipped highlights, desaturated colors, or unstable tone reproduction. We introduce LumaFlux, a first physically and perceptually guided diffusion transformer (DiT) for SDR-to-HDR reconstruction by adapting a large pretrained DiT. Our LumaFlux introduces (1) a Physically-Guided Adaptation (PGA) module that injects luminance, spatial descriptors, and frequency cues into attention through low-rank residuals; (2) a Perceptual Cross-Modulation (PCM) layer that stabilizes chroma and texture via FiLM conditioning from vision encoder features; and (3) an HDR Residual Coupler that fuses physical and perceptual signals under a timestep- and layer-adaptive modulation schedule. Finally, a lightweight Rational-Quadratic Spline decoder reconstructs smooth, interpretable tone fields for highlight and exposure expansion, enhancing the output of the VAE decoder to generate HDR. To enable robust HDR learning, we curate the first large-scale SDR-HDR training corpus. For fair and reproducible comparison, we further establish a new evaluation benchmark, comprising HDR references and corresponding expert-graded SDR versions. Across benchmarks, LumaFlux outperforms state-of-the-art baselines, achieving superior luminance reconstruction and perceptual color fidelity with minimal additional parameters.

0 Citations
0 Influential
11.5 Altmetric
57.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!