엔트로피 기반 구조 정렬을 이용한 제로샷 손글씨 중국 문자 인식
Entropy-Aware Structural Alignment for Zero-Shot Handwritten Chinese Character Recognition
제로샷 손글씨 중국 문자 인식(HCCR)은 부수 기반 의미 결합을 활용하여 이전에 학습되지 않은 문자를 인식하는 것을 목표로 합니다. 그러나 기존 접근 방식은 종종 문자를 단순한 부수 시퀀스로 취급하여 계층적 토폴로지와 구성 요소의 불균등한 정보 밀도를 간과합니다. 이러한 한계를 해결하기 위해, 우리는 정보 이론적 모델링을 통해 시각-의미 격차를 해소하는 엔트로피 기반 구조 정렬 네트워크를 제안합니다. 첫째, 우리는 정보 엔트로피 사전(Information Entropy Prior)을 도입하여 곱셈 상호 작용을 통해 위치 임베딩을 동적으로 조절하며, 이는 차별적인 핵심 부수를 우선시하고 널리 분포하는 구성 요소를 강조하는 역할을 하는 주목도 감지기(saliency detector)로 작용합니다. 둘째, 우리는 다중-그레인도우 구조적 특징을 추출하기 위한 이중 뷰 부수 트리(Dual-View Radical Tree)를 구성하고, 이러한 특징들을 적응형 시그모이드 기반 게이팅 네트워크를 통해 통합하여 전체 레이아웃과 지역적 공간적 역할을 모두 인코딩합니다. 마지막으로, 상위-K 의미 특징 융합(Top-K Semantic Feature Fusion) 메커니즘을 설계하여, 의미적으로 유사한 문자의 중심을 활용하여 디코딩 과정을 개선하고, 특징 수준의 합의를 통해 시각적 모호성을 효과적으로 해결합니다. 광범위한 실험 결과, 제안하는 방법은 새로운 최고 성능을 달성하며, ICDAR 2013 데이터셋($m=1500$)에서 55.04%의 정확도를 기록하여 어려운 제로샷 환경에서 기존의 CLIP 기반 모델보다 훨씬 우수한 성능을 보였습니다. 또한, 제안하는 프레임워크는 뛰어난 데이터 효율성을 보여주며, 최소한의 지원 샘플만으로도 빠른 적응력을 보여주어, 클래스당 단 하나의 지원 샘플만으로 92.41%의 정확도를 달성했습니다.
Zero-shot Handwritten Chinese Character Recognition (HCCR) aims to recognize unseen characters by leveraging radical-based semantic compositions. However, existing approaches often treat characters as flat radical sequences, neglecting the hierarchical topology and the uneven information density of different components. To address these limitations, we propose an Entropy-Aware Structural Alignment Network that bridges the visual-semantic gap through information-theoretic modeling. First, we introduce an Information Entropy Prior to dynamically modulate positional embeddings via multiplicative interaction, acting as a saliency detector that prioritizes discriminative roots over ubiquitous components. Second, we construct a Dual-View Radical Tree to extract multi-granularity structural features, which are integrated via an adaptive Sigmoid-based gating network to encode both global layout and local spatial roles. Finally, a Top-K Semantic Feature Fusion mechanism is devised to augment the decoding process by utilizing the centroid of semantic neighbors, effectively rectifying visual ambiguities through feature-level consensus. Extensive experiments demonstrate that our method establishes new state-of-the-art performance, achieving an accuracy of 55.04\% on the ICDAR 2013 dataset ($m=1500$), significantly outperforming existing CLIP-based baselines in the challenging zero-shot setting. Furthermore, the framework exhibits exceptional data efficiency, demonstrating rapid adaptability with minimal support samples, achieving 92.41\% accuracy with only one support sample per class.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.