중국어 텍스트 인식에 대한 다중 모드 문자 위치 추정 및 추출
Multi-Modal Character Localization and Extraction for Chinese Text Recognition
장면 텍스트 인식(STR) 방법은 영어 텍스트 이미지에서 뛰어난 성능을 보여주었습니다. 그러나 중국어의 복잡한 내부 구조와 방대한 문자 범주 때문에 이미지 내 중국어 텍스트 인식이 어려운 과제를 제시합니다. 최근 연구에 따르면, 영어 텍스트 인식에 설계된 방법들은 중국어 텍스트 이미지 인식 시 정확도 병목 현상을 겪는 것으로 나타났습니다. 이는 다음과 같은 질문을 제기합니다: 영어 텍스트를 위해 개발된 모델을 중국어 STR 작업에 적용하는 것이 적절한가? 이 문제를 탐구하기 위해, 우리는 각 문자를 명시적으로 분리하고, 중국어의 복잡한 내부 구조를 고려하면서 각 문자를 독립적으로 인식하는 새로운 방법인 LER을 제안합니다. LER은 위치 추정, 추출, 인식의 세 가지 모듈로 구성됩니다. 먼저, 위치 추정 모듈은 다중 정보를 활용하여 문자의 위치를 정확하게 결정합니다. 그런 다음, 추출 모듈은 모든 문자를 병렬로 분리합니다. 마지막으로, 인식 모듈은 중국어의 고유한 내부 구조를 고려하여 텍스트 예측 결과를 제공합니다. 대규모 중국어 벤치마크에서 수행된 광범위한 실험 결과, 제안된 방법이 기존 방법보다 훨씬 우수한 성능을 보이는 것으로 나타났습니다. 또한, 6개의 영어 벤치마크와 Union14M 벤치마크에서 수행된 광범위한 실험에서도 LER이 영어 텍스트 인식에서 뛰어난 결과를 보여주었습니다. 코드: https://github.com/Pandarenlql/LER
Scene text recognition (STR) methods have demonstrated their excellent capability in English text images. However, due to the complex inner structures of Chinese and the extensive character categories, it poses challenges for recognizing Chinese text in images. Recently, studies have shown that the methods designed for English text recognition encounter an accuracy bottleneck when recognizing Chinese text images. This raises the question: Is it appropriate to apply the model developed for English to the Chinese STR task? To explore this issue, we propose a novel method named LER, which explicitly decouples each character and independently recognizes characters while taking into account the complex inner structures of Chinese. LER consists of three modules: Localization, Extraction, and Recognition. Firstly, the localization module utilizes multimodal information to determine the character's position precisely. Then, the extraction module dissociates all characters in parallel. Finally, the recognition module considers the unique inner structures of Chinese to provide the text prediction results. Extensive experiments conducted on large-scale Chinese benchmarks indicate that our method significantly outperforms existing methods. Furthermore, extensive experiments conducted on six English benchmarks and the Union14M benchmark show impressive results in English text recognition by LER. Code is available at https://github.com/Pandarenlql/LER.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.