DenseMLLM: 표준 멀티모달 LLM은 본질적으로 밀집 예측기이다
DenseMLLM: Standard Multimodal LLMs are Intrinsic Dense Predictors
멀티모달 대규모 언어 모델(MLLM)은 고수준의 시각적 이해 능력에서 뛰어난 성능을 보여주었습니다. 그러나 이러한 모델을 의미론적 분할 및 깊이 추정 등 세밀한 밀집 예측 작업에 적용하려면 일반적으로 복잡한 작업별 디코더 및 기타 사용자 정의가 필요합니다. 이러한 아키텍처의 복잡성은 모델의 복잡성을 증가시키고 MLLM의 일반적인 설계에서 벗어나 궁극적으로 실용성을 제한합니다. 본 연구에서는 표준 MLLM이 추가적인 작업별 디코더 없이 밀집 예측을 수행할 수 있도록 하여 이러한 패러다임을 극복합니다. 제안하는 모델인 DenseMLLM은 표준 아키텍처를 기반으로 하며, 여러 레이블과 작업에 대한 새로운 비전 토큰 감독 전략을 활용합니다. 최소한의 설계에도 불구하고, 우리의 모델은 다양한 밀집 예측 및 시각-언어 벤치마크에서 매우 경쟁력 있는 성능을 달성하며, 표준적인, 범용적인 MLLM이 아키텍처 전문화 없이도 밀집적인 인지 기능을 효과적으로 지원할 수 있음을 보여줍니다.
Multimodal Large Language Models (MLLMs) have demonstrated exceptional capabilities in high-level visual understanding. However, extending these models to fine-grained dense prediction tasks, such as semantic segmentation and depth estimation, typically necessitates the incorporation of complex, task-specific decoders and other customizations. This architectural fragmentation increases model complexity and deviates from the generalist design of MLLMs, ultimately limiting their practicality. In this work, we challenge this paradigm by accommodating standard MLLMs to perform dense predictions without requiring additional task-specific decoders. The proposed model is called DenseMLLM, grounded in the standard architecture with a novel vision token supervision strategy for multiple labels and tasks. Despite its minimalist design, our model achieves highly competitive performance across a wide range of dense prediction and vision-language benchmarks, demonstrating that a standard, general-purpose MLLM can effectively support dense perception without architectural specialization.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.