토큰에서 숫자로: SVG 생성에 대한 연속적인 숫자 모델링
From Tokens to Numbers: Continuous Number Modeling for SVG Generation
일부 이미지 생성 작업에서 Scalable Vector Graphics (SVG)와 같은 벡터 그래픽은 유연성, 크기 효율성 및 편집 용이성 등 명확한 장점을 제공하지만, 래스터 기반 접근 방식보다 덜 연구되어 왔습니다. 핵심적인 과제는 SVG를 구성하는 수치적, 기하학적 매개변수가 긴 토큰 시퀀스로 비효율적으로 인코딩된다는 점입니다. 이는 학습 속도를 늦추고, 정확도를 저하시키며, 일반화 성능을 저해합니다. 이러한 문제를 해결하기 위해, 우리는 숫자를 이산적인 토큰이 아닌, 일급(first-class)의 연속적인 값으로 직접 모델링하는 방법인 연속적인 숫자 모델링 (Continuous Number Modeling, CNM)을 제안합니다. 이러한 방식은 모델의 입력과 데이터의 연속적인 특성을 일치시켜, 토큰 기반 인코딩으로 인해 발생하는 이산화 아티팩트를 제거함으로써 표현의 수학적 우아함을 회복합니다. 우리는 2백만 개의 래스터-SVG 샘플에 대해 다중 모드 트랜스포머를 학습시킨 후, 시각적 품질을 더욱 향상시키기 위해 감각적 피드백을 사용한 강화 학습을 통해 미세 조정했습니다. 우리의 접근 방식은 다른 접근 방식과 비교하여 30% 이상의 학습 속도 향상을 제공하면서도 더 높은 시각적 충실도를 유지합니다. 이 연구는 CNM을 고품질 벡터 생성에 대한 실용적이고 효율적인 접근 방식으로 확립하며, 더 광범위한 응용 가능성을 제시합니다. 저희 코드는 http://github.com/mikeogezi/CNM 에서 제공됩니다.
For certain image generation tasks, vector graphics such as Scalable Vector Graphics (SVGs) offer clear benefits such as increased flexibility, size efficiency, and editing ease, but remain less explored than raster-based approaches. A core challenge is that the numerical, geometric parameters, which make up a large proportion of SVGs, are inefficiently encoded as long sequences of tokens. This slows training, reduces accuracy, and hurts generalization. To address these problems, we propose Continuous Number Modeling (CNM), an approach that directly models numbers as first-class, continuous values rather than discrete tokens. This formulation restores the mathematical elegance of the representation by aligning the model's inputs with the data's continuous nature, removing discretization artifacts introduced by token-based encoding. We then train a multimodal transformer on 2 million raster-to-SVG samples, followed by fine-tuning via reinforcement learning using perceptual feedback to further improve visual quality. Our approach improves training speed by over 30% while maintaining higher perceptual fidelity compared to alternative approaches. This work establishes CNM as a practical and efficient approach for high-quality vector generation, with potential for broader applications. We make our code available http://github.com/mikeogezi/CNM.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.