2602.23730v1 Feb 27, 2026 cs.AI

인지 능력 향상 및 인식-논리 균형 분석

Unlocking Cognitive Capabilities and Analyzing the Perception-Logic Trade-off

Won Cheng Yi Lewis
Won Cheng Yi Lewis
Citations: 0
h-index: 0
Muhammad Huzaifah bin Md Shahrin
Muhammad Huzaifah bin Md Shahrin
Citations: 0
h-index: 0
Hardik B. Sailor
Hardik B. Sailor
Citations: 738
h-index: 14
T. K. Vangani
T. K. Vangani
Citations: 14
h-index: 3
Minh Duc Pham
Minh Duc Pham
Citations: 3
h-index: 1
AiTi Aw
AiTi Aw
Citations: 135
h-index: 4
Jingyi Liao
Jingyi Liao
Citations: 82
h-index: 4
Longyin Zhang
Longyin Zhang
Citations: 15
h-index: 2
Shuo Sun
Shuo Sun
Citations: 162
h-index: 4
Yingxu He
Yingxu He
Citations: 30
h-index: 3
Heng Meng Jeremy Wong
Heng Meng Jeremy Wong
Citations: 0
h-index: 0
Yi Ma
Yi Ma
Citations: 14
h-index: 2
Qiongqiong Wang
Qiongqiong Wang
Citations: 69
h-index: 4
Ridong Jiang
Ridong Jiang
Citations: 6
h-index: 1
Jingtao Li
Jingtao Li
Citations: 58
h-index: 4
Zhuohan Liu
Zhuohan Liu
Citations: 120
h-index: 4
Yanfeng Lu
Yanfeng Lu
Citations: 4
h-index: 1
Manas Gupta
Manas Gupta
Citations: 5
h-index: 1

최근 멀티모달 대규모 언어 모델(MLLM)의 발전은 다방면의 인식 능력을 추구하지만, 견고한 감각 정보와 복잡한 추론을 통합하는 것은 여전히 어려운 과제이며, 특히 소외된 지역에서는 더욱 그렇습니다. 본 보고서에서는 동남아시아(SEA) 지역에 특화된 100억 개의 파라미터를 가진 다국어 통합 인식 모델인 MERaLiON2-Omni (Alpha)의 연구 미리보기 결과를 소개합니다. 우리는 '시스템 1'(인식)과 '시스템 2'(추론) 능력을 명시적으로 분리하고 통합하는 점진적인 학습 파이프라인을 제시합니다. 먼저, 지역별 오디오-비주얼 신호(예: 싱글리쉬 코드 스위칭, 지역 문화 랜드마크)를 다국어 LLM과 연동하여 직교 모달 적응을 통해 견고한 인식 기반을 구축합니다. 둘째, 대규모 지도 학습 없이 인지 능력을 향상시키기 위해 비용 효율적인 Generate-Judge-Refine 파이프라인을 제안합니다. Super-LLM을 사용하여 환각을 필터링하고 합의 메커니즘을 통해 충돌을 해결함으로써, 고품질의 은색 데이터를 생성하여 텍스트 기반의 체인 오브 씽크(Chain-of-Thought) 추론을 멀티모달 시나리오로 이전합니다. 새롭게 도입한 SEA-Omni 벤치마크 스위트를 사용한 종합적인 평가 결과, 효율성-안정성 역설이 드러났습니다. 추론은 추상적인 작업에서 비선형적인 증폭기 역할을 하여 수학적 문제 해결 능력과 지시 따르기 성능을 크게 향상시키지만, 저수준의 감각 처리에서는 불안정성을 야기합니다. 구체적으로, 긴 문맥의 오디오에서 시간적 드리프트(모델이 음향 타임스탬프와 동기화되지 않는 현상)와, 논리가 픽셀 수준의 현실을 압도하는 시각적 과해석 현상이 발생하는 것을 확인했습니다. 본 보고서는 모델 아키텍처, 데이터 효율적인 학습 방법, 그리고 견고한 인식과 체계적인 추론 간의 균형에 대한 진단 분석 내용을 상세히 설명합니다.

Original Abstract

Recent advancements in Multimodal Large Language Models (MLLMs) pursue omni-perception capabilities, yet integrating robust sensory grounding with complex reasoning remains a challenge, particularly for underrepresented regions. In this report, we introduce the research preview of MERaLiON2-Omni (Alpha), a 10B-parameter multilingual omni-perception tailored for Southeast Asia (SEA). We present a progressive training pipeline that explicitly decouples and then integrates "System 1" (Perception) and "System 2" (Reasoning) capabilities. First, we establish a robust Perception Backbone by aligning region-specific audio-visual cues (e.g., Singlish code-switching, local cultural landmarks) with a multilingual LLM through orthogonal modality adaptation. Second, to inject cognitive capabilities without large-scale supervision, we propose a cost-effective Generate-Judge-Refine pipeline. By utilizing a Super-LLM to filter hallucinations and resolve conflicts via a consensus mechanism, we synthesize high-quality silver data that transfers textual Chain-of-Thought reasoning to multimodal scenarios. Comprehensive evaluation on our newly introduced SEA-Omni Benchmark Suite reveals an Efficiency-Stability Paradox: while reasoning acts as a non-linear amplifier for abstract tasks (boosting mathematical and instruction-following performance significantly), it introduces instability in low-level sensory processing. Specifically, we identify Temporal Drift in long-context audio, where extended reasoning desynchronizes the model from acoustic timestamps, and Visual Over-interpretation, where logic overrides pixel-level reality. This report details the architecture, the data-efficient training recipe, and a diagnostic analysis of the trade-offs between robust perception and structured reasoning.

0 Citations
0 Influential
7 Altmetric
35.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!