2603.04128v1 Mar 04, 2026 cs.CV

Crab$^{+}$: 명시적인 협력을 통한 확장 가능하고 통합적인 오디오-비주얼 장면 이해 모델

Crab$^{+}$: A Scalable and Unified Audio-Visual Scene Understanding Model with Explicit Cooperation

Dong Cai
Dong Cai
Citations: 53
h-index: 2
Henghui Du
Henghui Du
Citations: 80
h-index: 3
Changda Zhou
Changda Zhou
Citations: 160
h-index: 4
Dan Guo
Dan Guo
Citations: 2
h-index: 1
Hongyuan Zhang
Hongyuan Zhang
Citations: 22
h-index: 2
Xuelong Li
Xuelong Li
Citations: 57
h-index: 3
Di Hu
Di Hu
Citations: 153
h-index: 6
Xi Chen
Xi Chen
Citations: 163
h-index: 5

통합적인 장면 이해를 위한 오디오-비주얼 대규모 언어 모델(AV-LLM) 개발은 다중 모드 지능에서 매우 중요합니다. 인스트럭션 튜닝은 사전 학습된 모델에 다중 작업 능력을 부여하지만, 기존의 다중 작업 통합 방법은 종종 심각한 부정적 전이 현상을 겪으며, 거의 55%의 작업에서 단일 작업 훈련에 비해 성능이 저하되는 것을 관찰했습니다. 이러한 현상은 오디오-비주얼 작업의 이질성, 즉 서로 다른 작업의 세분화 수준과 상이한 능력 요구 사항으로 인해 공동 훈련 시 부정적인 간섭이 발생하기 때문이라고 판단됩니다. 이러한 문제를 해결하기 위해, 데이터 및 모델의 관점에서 명시적인 협력을 통해 작업의 이질성을 해결하는 확장 가능하고 통합적인 오디오-비주얼 장면 이해 모델인 Crab$^{+}$를 제안합니다. 데이터 측면에서, 명시적인 추론 과정을 포함하는 포괄적인 오디오-비주얼 통합 인스트럭션 튜닝 데이터셋인 AV-UIE v2를 소개합니다. 이 데이터셋은 17개의 데이터셋과 7개의 작업을 포괄하며, 약 222,000개의 샘플을 포함하여 모델이 다양한 수준의 세분화에서 작업 간의 관계를 학습할 수 있도록 합니다. 모델 측면에서, 우리는 이질적인 작업 형식을 정렬하기 위한 통합 인터페이스를 설계하고, 상호 작용을 고려한 LoRA(I-LoRA)를 제안합니다. I-LoRA는 동적 라우팅을 통해 작업 간의 관계를 명시적으로 모델링하여, 다양한 오디오-비주얼 상호 작용 패턴을 조정하고 파라미터 간의 간섭을 완화합니다. 광범위한 실험 결과, Crab$^{+}$는 기존의 통합 모델보다 더 많은 작업을 처리할 수 있으며, 다양한 벤치마크에서 특수 모델보다 뛰어난 성능을 보입니다. 우리는 부정적 전이 추세를 성공적으로 반전시켜, 다중 작업 학습이 거의 88%의 작업에서 단일 작업 기준 성능을 능가하는 긍정적 전이를 달성했습니다. 이러한 결과는 다양한 AV-LLM 패러다임에서 유효성을 검증받았으며, 심층적인 시각화를 통해 확인되었습니다. 이러한 결과는 Crab$^{+}$가 종합적인 오디오-비주얼 장면 이해를 향한 견고한 발걸음임을 보여줍니다.

Original Abstract

Developing Audio-Visual Large Language Models (AV-LLMs) for unified scene understanding is pivotal in multimodal intelligence. While instruction tuning enables pre-trained models with multi-task abilities, we observe that conventional multi-task unification methods often suffer from severe negative transfer, where nearly 55% of tasks degrade compared to single-task training. We attribute this phenomenon to audio-visual task heterogeneity, characterized by disparate task granularity and divergent capability demands, which lead to negative interference under joint training. To tackle this, we present Crab$^{+}$, a scalable and unified audio-visual scene understanding model that addresses task heterogeneity through explicit cooperation from both data and model perspectives. On the data side, we introduce AV-UIE v2, a comprehensive Audio-Visual Unified Instruction-tuning dataset with Explicit reasoning processes. It contains approximately 222K samples spanning 17 datasets and 7 tasks, enabling the model to capture cross-task relationships at different levels of granularity. On the model side, we design a unified interface to align heterogeneous task formulations, and propose Interaction-aware LoRA (I-LoRA), which explicitly models inter-task relationships via dynamic routing to coordinate distinct audio-visual interaction patterns, mitigating parameter interference. Extensive experiments show Crab$^{+}$ covers broader tasks than existing unified models while outperforming specialized models on various benchmarks. We successfully reverse the negative transfer trend, achieving positive transfer where multi-task learning surpasses single-task baselines in nearly 88% of tasks. These results hold across diverse AV-LLM paradigms and are validated through in-depth visualization, positioning Crab$^{+}$ as a robust step towards holistic audio-visual scene understanding.

0 Citations
0 Influential
3 Altmetric
15.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!