인도 맞춤형 대규모 광학 문자 인식(OCR) 시스템 설계: 다국어 및 도메인 특화 시스템
Designing Production-Scale OCR for India: Multilingual and Domain-Specific Systems
인도용 광학 문자 인식(OCR) 시스템을 설계하려면 언어 다양성, 문서의 이질성, 배포 제약 조건 간의 균형을 맞춰야 합니다. 본 논문에서는 Chitrapathak 시리즈를 통해 비전-언어 모델을 활용하여 다국어 OCR 시스템을 구축하기 위한 두 가지 학습 전략을 연구합니다. 첫 번째 전략은 널리 사용되는 다중 모드 접근 방식을 따르며, 일반적인 비전 인코더와 강력한 다국어 언어 모델을 결합하고 시스템 전체를 OCR에 맞게 훈련합니다. 두 번째 전략은 대상 언어로 훈련되지 않은 기존 OCR 모델을 미세 조정하는 방식을 탐색합니다. 다국어 인도 OCR 벤치마크 및 배포 관련 지표에 대한 광범위한 평가를 통해 두 번째 전략이 일관되게 더 나은 정확도-지연 시간 균형을 제공한다는 것을 확인했습니다. Chitrapathak-2는 이전 버전에 비해 3~6배 빠른 속도를 제공하며, Telugu 언어에서 최고 성능(6.69 char ANLS)을 달성하고 다른 언어에서는 두 번째로 높은 성능을 보입니다. 또한, 9가지 인도 정부 문서에서 구조화된 핵심 필드를 추출하도록 특별히 설계된 독립적인 OCR 모델 시리즈인 Parichay를 소개하며, 89.8%의 정확 일치 점수를 달성하고 더 빠른 추론 속도를 제공합니다. 이러한 시스템들은 최고 수준의 성능을 달성하며, 인도 환경에서 대규모 OCR 파이프라인을 구축하기 위한 실질적인 지침을 제공합니다.
Designing Optical Character Recognition (OCR) systems for India requires balancing linguistic diversity, document heterogeneity, and deployment constraints. In this paper, we study two training strategies for building multilingual OCR systems with Vision-Language Models through the Chitrapathak series. We first follow a popular multimodal approach, pairing a generic vision encoder with a strong multilingual language model and training the system end-to-end for OCR. Alternatively, we explore fine-tuning an existing OCR model, despite not being trained for the target languages. Through extensive evaluation on multilingual Indic OCR benchmarks and deployment-oriented metrics, we find that the second strategy consistently achieves better accuracy-latency trade-offs. Chitrapathak-2 achieves 3-6x speedup over its predecessor with being state-of-the-art (SOTA) in Telugu (6.69 char ANLS) and second best in the rest. In addition, we present Parichay, an independent OCR model series designed specifically for 9 Indian government documents to extract structured key fields, achieving 89.8% Exact Match score with a faster inference. Together, these systems achieve SOTA performance and provide practical guidance for building production-scale OCR pipelines in the Indian context.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.