GlyphBanana: 에이전트 기반 워크플로우를 통한 정밀 텍스트 렌더링 기술 향상
GlyphBanana: Advancing Precise Text Rendering Through Agentic Workflows
최근 생성 모델의 발전으로 텍스트 렌더링 분야에서 상당한 진전이 있었지만, 복잡한 텍스트와 수식 표현을 정확하게 생성하는 것은 여전히 어려운 과제입니다. 이러한 어려움은 주로 현재 모델이 분포 외부 프롬프트를 마주했을 때 제한적인 지시 사항 준수 능력에서 비롯됩니다. 이를 해결하기 위해, 우리는 복잡한 문자 및 수식 렌더링을 위해 특별히 설계된 벤치마크와 함께 GlyphBanana를 소개합니다. GlyphBanana는 보조 도구를 활용하여 글리프 템플릿을 잠재 공간과 어텐션 맵에 주입하는 에이전트 기반 워크플로우를 사용하며, 이를 통해 생성된 이미지의 반복적인 개선을 용이하게 합니다. 특히, 우리의 훈련 불필요 접근 방식은 다양한 텍스트-이미지(T2I) 모델에 원활하게 적용될 수 있으며, 기존의 기준 모델보다 뛰어난 정확도를 달성합니다. 광범위한 실험을 통해 제안된 워크플로우의 효과가 입증되었습니다. 관련 코드는 다음 주소에서 공개적으로 이용할 수 있습니다: https://github.com/yuriYanZeXuan/GlyphBanana.
Despite recent advances in generative models driving significant progress in text rendering, accurately generating complex text and mathematical formulas remains a formidable challenge. This difficulty primarily stems from the limited instruction-following capabilities of current models when encountering out-of-distribution prompts. To address this, we introduce GlyphBanana, alongside a corresponding benchmark specifically designed for rendering complex characters and formulas. GlyphBanana employs an agentic workflow that integrates auxiliary tools to inject glyph templates into both the latent space and attention maps, facilitating the iterative refinement of generated images. Notably, our training-free approach can be seamlessly applied to various Text-to-Image (T2I) models, achieving superior precision compared to existing baselines. Extensive experiments demonstrate the effectiveness of our proposed workflow. Associated code is publicly available at https://github.com/yuriYanZeXuan/GlyphBanana.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.