인지 능력 향상 및 인식-논리 균형 분석
Unlocking Cognitive Capabilities and Analyzing the Perception-Logic Trade-off
최근 멀티모달 대규모 언어 모델(MLLM)의 발전은 다방면의 인식 능력을 추구하지만, 견고한 감각 정보와 복잡한 추론을 통합하는 것은 여전히 어려운 과제이며, 특히 소외된 지역에서는 더욱 그렇습니다. 본 보고서에서는 동남아시아(SEA) 지역에 특화된 100억 개의 파라미터를 가진 다국어 통합 인식 모델인 MERaLiON2-Omni (Alpha)의 연구 미리보기 결과를 소개합니다. 우리는 '시스템 1'(인식)과 '시스템 2'(추론) 능력을 명시적으로 분리하고 통합하는 점진적인 학습 파이프라인을 제시합니다. 먼저, 지역별 오디오-비주얼 신호(예: 싱글리쉬 코드 스위칭, 지역 문화 랜드마크)를 다국어 LLM과 연동하여 직교 모달 적응을 통해 견고한 인식 기반을 구축합니다. 둘째, 대규모 지도 학습 없이 인지 능력을 향상시키기 위해 비용 효율적인 Generate-Judge-Refine 파이프라인을 제안합니다. Super-LLM을 사용하여 환각을 필터링하고 합의 메커니즘을 통해 충돌을 해결함으로써, 고품질의 은색 데이터를 생성하여 텍스트 기반의 체인 오브 씽크(Chain-of-Thought) 추론을 멀티모달 시나리오로 이전합니다. 새롭게 도입한 SEA-Omni 벤치마크 스위트를 사용한 종합적인 평가 결과, 효율성-안정성 역설이 드러났습니다. 추론은 추상적인 작업에서 비선형적인 증폭기 역할을 하여 수학적 문제 해결 능력과 지시 따르기 성능을 크게 향상시키지만, 저수준의 감각 처리에서는 불안정성을 야기합니다. 구체적으로, 긴 문맥의 오디오에서 시간적 드리프트(모델이 음향 타임스탬프와 동기화되지 않는 현상)와, 논리가 픽셀 수준의 현실을 압도하는 시각적 과해석 현상이 발생하는 것을 확인했습니다. 본 보고서는 모델 아키텍처, 데이터 효율적인 학습 방법, 그리고 견고한 인식과 체계적인 추론 간의 균형에 대한 진단 분석 내용을 상세히 설명합니다.
Recent advancements in Multimodal Large Language Models (MLLMs) pursue omni-perception capabilities, yet integrating robust sensory grounding with complex reasoning remains a challenge, particularly for underrepresented regions. In this report, we introduce the research preview of MERaLiON2-Omni (Alpha), a 10B-parameter multilingual omni-perception tailored for Southeast Asia (SEA). We present a progressive training pipeline that explicitly decouples and then integrates "System 1" (Perception) and "System 2" (Reasoning) capabilities. First, we establish a robust Perception Backbone by aligning region-specific audio-visual cues (e.g., Singlish code-switching, local cultural landmarks) with a multilingual LLM through orthogonal modality adaptation. Second, to inject cognitive capabilities without large-scale supervision, we propose a cost-effective Generate-Judge-Refine pipeline. By utilizing a Super-LLM to filter hallucinations and resolve conflicts via a consensus mechanism, we synthesize high-quality silver data that transfers textual Chain-of-Thought reasoning to multimodal scenarios. Comprehensive evaluation on our newly introduced SEA-Omni Benchmark Suite reveals an Efficiency-Stability Paradox: while reasoning acts as a non-linear amplifier for abstract tasks (boosting mathematical and instruction-following performance significantly), it introduces instability in low-level sensory processing. Specifically, we identify Temporal Drift in long-context audio, where extended reasoning desynchronizes the model from acoustic timestamps, and Visual Over-interpretation, where logic overrides pixel-level reality. This report details the architecture, the data-efficient training recipe, and a diagnostic analysis of the trade-offs between robust perception and structured reasoning.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.