2602.04144v1 Feb 04, 2026 cs.AI

OMG-Agent: 분리된 Coarse-to-Fine 에이전트 워크플로우를 통한 견고한 결측 모달리티 생성

OMG-Agent: Toward Robust Missing Modality Generation with Decoupled Coarse-to-Fine Agentic Workflows

Ruiting Dai
Ruiting Dai
Citations: 14
h-index: 2
Zheyu Wang
Zheyu Wang
Citations: 19
h-index: 2
Jiaman Cen
Jiaman Cen
Citations: 0
h-index: 0
Lisi Mo
Lisi Mo
Citations: 21
h-index: 3
Haoyu Yang
Haoyu Yang
Citations: 39
h-index: 2
Yihan Liu
Yihan Liu
Citations: 173
h-index: 5
Chengzhi Wang
Chengzhi Wang
Citations: 95
h-index: 4
Zekun Zhang
Zekun Zhang
Citations: 5
h-index: 1
Zishan Huang
Zishan Huang
Citations: 165
h-index: 6

데이터의 불완전성은 멀티모달 시스템의 신뢰성을 심각하게 저해합니다. 기존의 복원 방법들은 뚜렷한 병목 현상에 직면해 있습니다. 기존의 파라메트릭/생성 모델은 내부 메모리에 대한 과도한 의존으로 인해 환각(hallucination) 현상이 발생하기 쉬운 반면, 검색 증강(retrieval-augmented) 프레임워크는 검색의 경직성 문제로 어려움을 겪습니다. 결정적으로, 이러한 엔드투엔드 아키텍처는 논리적 추론과 신호 합성 간의 구조적 충돌인 '의미-세부 사항 얽힘(Semantic-Detail Entanglement)'에 의해 근본적으로 제한되며, 이는 충실도를 훼손합니다. 본 논문에서는 정적 매핑에서 동적인 Coarse-to-Fine 에이전트 워크플로우로 패러다임을 전환하는 새로운 프레임워크인 Omni-Modality Generation Agent (OMG-Agent)를 제안합니다. '숙고 후 행동(deliberate-then-act)'하는 인지 과정을 모방함으로써, OMG-Agent는 작업을 시너지를 내는 세 단계로 명시적으로 분리합니다: (1) 점진적 문맥 추론을 통해 입력의 모호성을 해결하고 결정론적이며 구조화된 의미 계획을 생성하는 MLLM 기반 시맨틱 플래너(Semantic Planner), (2) 추상적인 의미를 외부 지식에 기반하게 하는 비파라메트릭 증거 검색기(Evidence Retriever), (3) 검색된 증거를 유연한 특징 프롬프트로 활용하여 경직성을 극복하고 고충실도의 세부 사항을 합성하는 검색 주입 실행기(Retrieval-Injected Executor)입니다. 여러 벤치마크에 대한 광범위한 실험 결과, OMG-Agent는 최신 방법들을 일관되게 능가하였으며, 예를 들어 CMU-MOSI에서 70%의 결측률 상황에서도 2.6점의 성능 향상을 기록하는 등 극심한 결측 상황에서도 견고성을 유지함을 입증했습니다.

Original Abstract

Data incompleteness severely impedes the reliability of multimodal systems. Existing reconstruction methods face distinct bottlenecks: conventional parametric/generative models are prone to hallucinations due to over-reliance on internal memory, while retrieval-augmented frameworks struggle with retrieval rigidity. Critically, these end-to-end architectures are fundamentally constrained by Semantic-Detail Entanglement -- a structural conflict between logical reasoning and signal synthesis that compromises fidelity. In this paper, we present \textbf{\underline{O}}mni-\textbf{\underline{M}}odality \textbf{\underline{G}}eneration Agent (\textbf{OMG-Agent}), a novel framework that shifts the paradigm from static mapping to a dynamic coarse-to-fine Agentic Workflow. By mimicking a \textit{deliberate-then-act} cognitive process, OMG-Agent explicitly decouples the task into three synergistic stages: (1) an MLLM-driven Semantic Planner that resolves input ambiguity via Progressive Contextual Reasoning, creating a deterministic structured semantic plan; (2) a non-parametric Evidence Retriever that grounds abstract semantics in external knowledge; and (3) a Retrieval-Injected Executor that utilizes retrieved evidence as flexible feature prompts to overcome rigidity and synthesize high-fidelity details. Extensive experiments on multiple benchmarks demonstrate that OMG-Agent consistently surpasses state-of-the-art methods, maintaining robustness under extreme missingness, e.g., a $2.6$-point gain on CMU-MOSI at $70$\% missing rates.

0 Citations
0 Influential
3 Altmetric
15.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!