Crab$^{+}$: 명시적인 협력을 통한 확장 가능하고 통합적인 오디오-비주얼 장면 이해 모델
Crab$^{+}$: A Scalable and Unified Audio-Visual Scene Understanding Model with Explicit Cooperation
통합적인 장면 이해를 위한 오디오-비주얼 대규모 언어 모델(AV-LLM) 개발은 다중 모드 지능에서 매우 중요합니다. 인스트럭션 튜닝은 사전 학습된 모델에 다중 작업 능력을 부여하지만, 기존의 다중 작업 통합 방법은 종종 심각한 부정적 전이 현상을 겪으며, 거의 55%의 작업에서 단일 작업 훈련에 비해 성능이 저하되는 것을 관찰했습니다. 이러한 현상은 오디오-비주얼 작업의 이질성, 즉 서로 다른 작업의 세분화 수준과 상이한 능력 요구 사항으로 인해 공동 훈련 시 부정적인 간섭이 발생하기 때문이라고 판단됩니다. 이러한 문제를 해결하기 위해, 데이터 및 모델의 관점에서 명시적인 협력을 통해 작업의 이질성을 해결하는 확장 가능하고 통합적인 오디오-비주얼 장면 이해 모델인 Crab$^{+}$를 제안합니다. 데이터 측면에서, 명시적인 추론 과정을 포함하는 포괄적인 오디오-비주얼 통합 인스트럭션 튜닝 데이터셋인 AV-UIE v2를 소개합니다. 이 데이터셋은 17개의 데이터셋과 7개의 작업을 포괄하며, 약 222,000개의 샘플을 포함하여 모델이 다양한 수준의 세분화에서 작업 간의 관계를 학습할 수 있도록 합니다. 모델 측면에서, 우리는 이질적인 작업 형식을 정렬하기 위한 통합 인터페이스를 설계하고, 상호 작용을 고려한 LoRA(I-LoRA)를 제안합니다. I-LoRA는 동적 라우팅을 통해 작업 간의 관계를 명시적으로 모델링하여, 다양한 오디오-비주얼 상호 작용 패턴을 조정하고 파라미터 간의 간섭을 완화합니다. 광범위한 실험 결과, Crab$^{+}$는 기존의 통합 모델보다 더 많은 작업을 처리할 수 있으며, 다양한 벤치마크에서 특수 모델보다 뛰어난 성능을 보입니다. 우리는 부정적 전이 추세를 성공적으로 반전시켜, 다중 작업 학습이 거의 88%의 작업에서 단일 작업 기준 성능을 능가하는 긍정적 전이를 달성했습니다. 이러한 결과는 다양한 AV-LLM 패러다임에서 유효성을 검증받았으며, 심층적인 시각화를 통해 확인되었습니다. 이러한 결과는 Crab$^{+}$가 종합적인 오디오-비주얼 장면 이해를 향한 견고한 발걸음임을 보여줍니다.
Developing Audio-Visual Large Language Models (AV-LLMs) for unified scene understanding is pivotal in multimodal intelligence. While instruction tuning enables pre-trained models with multi-task abilities, we observe that conventional multi-task unification methods often suffer from severe negative transfer, where nearly 55% of tasks degrade compared to single-task training. We attribute this phenomenon to audio-visual task heterogeneity, characterized by disparate task granularity and divergent capability demands, which lead to negative interference under joint training. To tackle this, we present Crab$^{+}$, a scalable and unified audio-visual scene understanding model that addresses task heterogeneity through explicit cooperation from both data and model perspectives. On the data side, we introduce AV-UIE v2, a comprehensive Audio-Visual Unified Instruction-tuning dataset with Explicit reasoning processes. It contains approximately 222K samples spanning 17 datasets and 7 tasks, enabling the model to capture cross-task relationships at different levels of granularity. On the model side, we design a unified interface to align heterogeneous task formulations, and propose Interaction-aware LoRA (I-LoRA), which explicitly models inter-task relationships via dynamic routing to coordinate distinct audio-visual interaction patterns, mitigating parameter interference. Extensive experiments show Crab$^{+}$ covers broader tasks than existing unified models while outperforming specialized models on various benchmarks. We successfully reverse the negative transfer trend, achieving positive transfer where multi-task learning surpasses single-task baselines in nearly 88% of tasks. These results hold across diverse AV-LLM paradigms and are validated through in-depth visualization, positioning Crab$^{+}$ as a robust step towards holistic audio-visual scene understanding.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.