2603.09677v1 Mar 10, 2026 cs.AI

로직스-파싱-옴니 기술 보고서

Logics-Parsing-Omni Technical Report

Lin Qu
Lin Qu
Citations: 360
h-index: 2
Xiuwen Zhu
Xiuwen Zhu
Citations: 19
h-index: 3
Boyu Yang
Boyu Yang
Citations: 12
h-index: 1
Yan Gao
Yan Gao
Citations: 7
h-index: 2
Yanan Wang
Yanan Wang
Citations: 7
h-index: 2
Xinyu An
Xinyu An
Citations: 6
h-index: 1
Jingyi Cai
Jingyi Cai
Citations: 3
h-index: 1
Xiangyan Chen
Xiangyan Chen
Citations: 7
h-index: 2
Huayao Liu
Huayao Liu
Citations: 646
h-index: 4
Pei Liu
Pei Liu
Citations: 21
h-index: 3
Peng Wang
Peng Wang
Citations: 92
h-index: 2
Yongfan Chen
Yongfan Chen
Citations: 21
h-index: 3
Baoyu Hou
Baoyu Hou
Citations: 0
h-index: 0
Shuzhao Li
Shuzhao Li
Citations: 16
h-index: 3
Weidong Ren
Weidong Ren
Citations: 40
h-index: 2
Fan Yang
Fan Yang
Citations: 2
h-index: 1
Jiangtao Zhang
Jiangtao Zhang
Citations: 65
h-index: 5
Xiaoxiao Xu
Xiaoxiao Xu
Citations: 2
h-index: 1
Bei Yang
Bei Yang
Citations: 81
h-index: 3
Yuan Gao
Yuan Gao
Citations: 8
h-index: 2
Guangzheng Hu
Guangzheng Hu
Citations: 0
h-index: 0
Wei Qiao
Wei Qiao
Citations: 26
h-index: 2
Lixin Zhang
Lixin Zhang
Citations: 0
h-index: 0
Hung-Jen Wei
Hung-Jen Wei
Citations: 7
h-index: 1
Bing Zhao
Bing Zhao
Citations: 136
h-index: 3

다중 모드 파싱에서 단편적인 작업 정의 및 비정형 데이터의 이질성 문제를 해결하기 위해, 본 논문에서는 옴니 파싱 프레임워크를 제안합니다. 이 프레임워크는 문서, 이미지 및 오디오-비디오 스트림을 포괄하는 통합 분류 체계를 구축하며, 인지 과정과 연관성을 연결하는 점진적인 파싱 패러다임을 도입합니다. 구체적으로, 이 프레임워크는 세 가지 계층 구조를 통합합니다. 1) 전체 감지(Holistic Detection): 객체 또는 이벤트의 정확한 공간-시간 기반 위치를 파악하여 인식을 위한 기하학적 기반을 설정합니다. 2) 세밀한 인식(Fine-grained Recognition): 국소화된 객체에 대해 기호화(예: OCR/ASR) 및 속성 추출을 수행하여 구조화된 엔티티 파싱을 완료합니다. 3) 다중 레벨 해석(Multi-level Interpreting): 로컬 의미에서 글로벌 논리에 이르는 추론 체인을 구축합니다. 이 프레임워크의 중요한 장점은 증거 기반 연결 메커니즘으로, 이는 고수준의 의미적 설명과 저수준 사실 간의 엄격한 정렬을 강제합니다. 이를 통해 "증거 기반" 논리적 추론이 가능하며, 비정형 신호를 표준화된 지식으로 변환하여 위치 추적, 열거 및 추적이 가능하게 합니다. 이러한 기반을 바탕으로, 표준화된 데이터셋을 구축하고 Logics-Parsing-Omni 모델을 공개했습니다. 이 모델은 복잡한 오디오-비디오 신호를 기계가 읽을 수 있는 구조화된 지식으로 성공적으로 변환합니다. 실험 결과는 세밀한 인식과 고수준 인지가 상승 효과를 보여 모델의 신뢰성을 향상시키는 데 효과적임을 입증합니다. 또한, 이러한 기능들을 정량적으로 평가하기 위해 OmniParsingBench를 소개합니다. 코드, 모델 및 벤치마크는 https://github.com/alibaba/Logics-Parsing/tree/master/Logics-Parsing-Omni 에서 확인할 수 있습니다.

Original Abstract

Addressing the challenges of fragmented task definitions and the heterogeneity of unstructured data in multimodal parsing, this paper proposes the Omni Parsing framework. This framework establishes a Unified Taxonomy covering documents, images, and audio-visual streams, introducing a progressive parsing paradigm that bridges perception and cognition. Specifically, the framework integrates three hierarchical levels: 1) Holistic Detection, which achieves precise spatial-temporal grounding of objects or events to establish a geometric baseline for perception; 2) Fine-grained Recognition, which performs symbolization (e.g., OCR/ASR) and attribute extraction on localized objects to complete structured entity parsing; and 3) Multi-level Interpreting, which constructs a reasoning chain from local semantics to global logic. A pivotal advantage of this framework is its evidence anchoring mechanism, which enforces a strict alignment between high-level semantic descriptions and low-level facts. This enables ``evidence-based'' logical induction, transforming unstructured signals into standardized knowledge that is locatable, enumerable, and traceable. Building on this foundation, we constructed a standardized dataset and released the Logics-Parsing-Omni model, which successfully converts complex audio-visual signals into machine-readable structured knowledge. Experiments demonstrate that fine-grained perception and high-level cognition are synergistic, effectively enhancing model reliability. Furthermore, to quantitatively evaluate these capabilities, we introduce OmniParsingBench. Code, models and the benchmark are released at https://github.com/alibaba/Logics-Parsing/tree/master/Logics-Parsing-Omni.

0 Citations
0 Influential
56.4673306629 Altmetric
282.3 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!