강건한 다중 모드 대규모 언어 모델을 위한 동적 적대적 강화 학습
Dynamic Adversarial Reinforcement Learning for Robust Multimodal Large Language Models
뛰어난 성능을 보이는 다중 모드 대규모 언어 모델(MLLM)은 시각적으로 복잡한 장면에서 인지적 취약성을 드러냅니다. 이러한 약점은 유한한 학습 데이터에 대한 의존성에서 비롯되며, 이는 확장하는 데 매우 비용이 많이 들고 모델의 강건성에 제한을 가합니다. 본 연구에서는 MLLM의 강건성을 향상시키기 위한 대규모 적대적 데이터셋인 AOT-SFT를 제안합니다. 이를 바탕으로, 자체적으로 학습 데이터를 생성하여 MLLM의 강건성을 강화하는 자기 학습 프레임워크인 AOT(Adversarial Opponent Training)를 제안합니다. 제안하는 방법은 이미지 편집 공격자(Attacker)와 방어형 MLLM(Defender) 간의 공동 진화를 통해, 공격자가 다양한 이미지 변형을 생성하여 방어자가 적응하고 개선되도록 유도합니다. 광범위한 실험 결과, AOT는 방어자의 인지적 강건성을 향상시키고 환각 현상을 줄이며, 더욱 신뢰할 수 있는 MLLM을 훈련하기 위한 확장 가능한 패러다임을 제시합니다.
Despite their impressive capabilities, Multimodal Large Language Models (MLLMs) exhibit perceptual fragility when confronted with visually complex scenes. This weakness stems from a reliance on finite training datasets, which are prohibitively expensive to scale and impose a ceiling on model robustness. We introduce \textbf{AOT-SFT}, a large-scale adversarial dataset for bootstrapping MLLM robustness. Building on this, we propose \textbf{AOT (Adversarial Opponent Training)}, a self-play framework that forges MLLM robustness by creating its own training data. Our method orchestrates a co-evolution between an image-editing Attacker and a Defender MLLM, where the Attacker generates a diverse and dynamic curriculum of image manipulations, forcing the Defender to adapt and improve. Extensive experiments demonstrate that AOT enhances the Defender's perceptual robustness and reduces hallucinations, establishing a scalable paradigm for training more reliable MLLMs.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.