퓨샷 한자 폰트 생성을 위한 구조 수준의 얽힘 해제 디퓨전
Structure-Level Disentangled Diffusion for Few-Shot Chinese Font Generation
퓨샷 한자 폰트 생성은 단 몇 장의 참조 이미지만을 사용하여 타겟 스타일의 새로운 문자를 합성하는 것을 목표로 한다. 정확한 내용 렌더링과 충실한 스타일 전이를 달성하려면 내용과 스타일 간의 효과적인 얽힘 해제(disentanglement)가 필요하다. 그러나 기존의 접근 방식들은 특징(feature) 수준의 얽힘 해제만을 달성하여 생성기 내에서 이러한 특징들이 다시 얽히게 만들 수 있으며, 이는 내용의 왜곡과 스타일 충실도 저하로 이어진다. 본 논문에서는 두 개의 개별 채널을 통해 내용과 스타일 정보를 입력받는 구조 수준의 얽힘 해제 디퓨전 모델(SLD-Font)을 제안한다. SimSun 스타일의 이미지를 내용 템플릿으로 사용하고, 이를 노이즈가 포함된 잠재 특징(noisy latent features)과 연결하여 모델의 입력으로 구성한다. 타겟 스타일 이미지로부터 CLIP 모델을 통해 추출된 스타일 특징은 교차 어텐션(cross-attention)을 통해 통합된다. 또한 복잡한 획 영역에 존재하는 배경 노이즈를 제거하기 위해 픽셀 공간에서 배경 노이즈 제거 모듈을 학습시킨다. 얽힘 해제의 효과에 대한 이론적 검증을 바탕으로, 스타일 관련 모듈만 업데이트하는 파라미터 효율적 미세 조정(parameter-efficient fine-tuning) 전략을 도입한다. 이를 통해 모델은 참조 이미지의 내용에 과적합되는 것을 방지하면서 새로운 스타일에 더 잘 적응할 수 있다. 더 나아가, 생성된 문자의 내용 품질을 평가하기 위해 Grey 및 OCR 지표를 새롭게 도입한다. 실험 결과, SLD-Font는 기존의 최고 성능(state-of-the-art) 방법론들과 동등한 수준의 내용 정확도를 유지하면서도 유의미하게 더 높은 스타일 충실도를 달성함을 보여준다.
Few-shot Chinese font generation aims to synthesize new characters in a target style using only a handful of reference images. Achieving accurate content rendering and faithful style transfer requires effective disentanglement between content and style. However, existing approaches achieve only feature-level disentanglement, allowing the generator to re-entangle these features, leading to content distortion and degraded style fidelity. We propose the Structure-Level Disentangled Diffusion Model (SLD-Font), which receives content and style information from two separate channels. SimSun-style images are used as content templates and concatenated with noisy latent features as the input. Style features extracted by a CLIP model from target-style images are integrated via cross-attention. Additionally, we train a Background Noise Removal module in the pixel space to remove background noise in complex stroke regions. Based on theoretical validation of disentanglement effectiveness, we introduce a parameter-efficient fine-tuning strategy that updates only the style-related modules. This allows the model to better adapt to new styles while avoiding overfitting to the reference images' content. We further introduce the Grey and OCR metrics to evaluate the content quality of generated characters. Experimental results show that SLD-Font achieves significantly higher style fidelity while maintaining comparable content accuracy to existing state-of-the-art methods.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.