로직스-파싱-옴니 기술 보고서
Logics-Parsing-Omni Technical Report
다중 모드 파싱에서 단편적인 작업 정의 및 비정형 데이터의 이질성 문제를 해결하기 위해, 본 논문에서는 옴니 파싱 프레임워크를 제안합니다. 이 프레임워크는 문서, 이미지 및 오디오-비디오 스트림을 포괄하는 통합 분류 체계를 구축하며, 인지 과정과 연관성을 연결하는 점진적인 파싱 패러다임을 도입합니다. 구체적으로, 이 프레임워크는 세 가지 계층 구조를 통합합니다. 1) 전체 감지(Holistic Detection): 객체 또는 이벤트의 정확한 공간-시간 기반 위치를 파악하여 인식을 위한 기하학적 기반을 설정합니다. 2) 세밀한 인식(Fine-grained Recognition): 국소화된 객체에 대해 기호화(예: OCR/ASR) 및 속성 추출을 수행하여 구조화된 엔티티 파싱을 완료합니다. 3) 다중 레벨 해석(Multi-level Interpreting): 로컬 의미에서 글로벌 논리에 이르는 추론 체인을 구축합니다. 이 프레임워크의 중요한 장점은 증거 기반 연결 메커니즘으로, 이는 고수준의 의미적 설명과 저수준 사실 간의 엄격한 정렬을 강제합니다. 이를 통해 "증거 기반" 논리적 추론이 가능하며, 비정형 신호를 표준화된 지식으로 변환하여 위치 추적, 열거 및 추적이 가능하게 합니다. 이러한 기반을 바탕으로, 표준화된 데이터셋을 구축하고 Logics-Parsing-Omni 모델을 공개했습니다. 이 모델은 복잡한 오디오-비디오 신호를 기계가 읽을 수 있는 구조화된 지식으로 성공적으로 변환합니다. 실험 결과는 세밀한 인식과 고수준 인지가 상승 효과를 보여 모델의 신뢰성을 향상시키는 데 효과적임을 입증합니다. 또한, 이러한 기능들을 정량적으로 평가하기 위해 OmniParsingBench를 소개합니다. 코드, 모델 및 벤치마크는 https://github.com/alibaba/Logics-Parsing/tree/master/Logics-Parsing-Omni 에서 확인할 수 있습니다.
Addressing the challenges of fragmented task definitions and the heterogeneity of unstructured data in multimodal parsing, this paper proposes the Omni Parsing framework. This framework establishes a Unified Taxonomy covering documents, images, and audio-visual streams, introducing a progressive parsing paradigm that bridges perception and cognition. Specifically, the framework integrates three hierarchical levels: 1) Holistic Detection, which achieves precise spatial-temporal grounding of objects or events to establish a geometric baseline for perception; 2) Fine-grained Recognition, which performs symbolization (e.g., OCR/ASR) and attribute extraction on localized objects to complete structured entity parsing; and 3) Multi-level Interpreting, which constructs a reasoning chain from local semantics to global logic. A pivotal advantage of this framework is its evidence anchoring mechanism, which enforces a strict alignment between high-level semantic descriptions and low-level facts. This enables ``evidence-based'' logical induction, transforming unstructured signals into standardized knowledge that is locatable, enumerable, and traceable. Building on this foundation, we constructed a standardized dataset and released the Logics-Parsing-Omni model, which successfully converts complex audio-visual signals into machine-readable structured knowledge. Experiments demonstrate that fine-grained perception and high-level cognition are synergistic, effectively enhancing model reliability. Furthermore, to quantitatively evaluate these capabilities, we introduce OmniParsingBench. Code, models and the benchmark are released at https://github.com/alibaba/Logics-Parsing/tree/master/Logics-Parsing-Omni.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.