추론 기반 다중 모드 대규모 언어 모델을 활용한 도메인 일반화
Reasoning-Driven Multimodal LLM for Domain Generalization
본 논문은 딥러닝에서의 도메인 일반화(DG) 문제를 다룬다. 대부분의 DG 방법은 시각적 특징의 불변성을 강화하는 데 초점을 맞추는 반면, 우리는 다중 모드 대규모 언어 모델(MLLM)의 추론 능력을 활용하여 이미지 카테고리를 추론하는 추론 체인을 구축함으로써 도메인 변화 하에서 더욱 강력한 예측을 달성할 수 있는 가능성을 탐구한다. 이를 위해, 우리는 새로 구성된 DomainBed 데이터셋의 확장 버전인 DomainBed-Reasoning을 사용하여 추론이 DG에서 수행하는 역할을 체계적으로 연구한다. DomainBed-Reasoning은 각 샘플이 클래스와 관련된 추론 체인과 함께 제공된다. 우리의 분석 결과, 두 가지 주요 과제가 드러났다. (i) 분류를 위한 추론 체인과 함께 MLLM을 미세 조정하는 것은 직접적인 레이블 지도보다 더 어렵다. 모델은 레이블 예측 전에 복잡한 추론 시퀀스를 최적화해야 하기 때문이다. (ii) 지도 신호와 미세 조정된 MLLM 간의 추론 패턴 불일치는 의미론적 풍부성(정보력이 높지만 최적화하기 어려움)과 최적화 효율성(최적화하기 쉽지만 정보력이 낮음) 간의 균형을 맞추는 문제를 야기한다. 이러한 문제를 해결하기 위해, 우리는 RD-MLDG(Reasoning-Driven Multimodal LLM for Domain Generalization)라는 프레임워크를 제안한다. RD-MLDG는 두 가지 구성 요소로 이루어져 있다. (i) MTCT(Multi-Task Cross-Training): 이는 추론 지도를 안내하기 위한 추가적인 직접 분류 경로를 도입한다. (ii) SARR(Self-Aligned Reasoning Regularization): 이는 반복적인 자기 레이블링을 통해 추론 패턴 불일치를 완화하면서 추론 체인의 의미론적 풍부성을 유지한다. 표준 DomainBed 데이터셋(PACS, VLCS, OfficeHome, TerraInc)에 대한 실험 결과, RD-MLDG는 최첨단 성능을 달성하며, 추론이 강력한 도메인 외부 일반화를 위한 유망한 보조 신호임을 보여준다.
This paper addresses the domain generalization (DG) problem in deep learning. While most DG methods focus on enforcing visual feature invariance, we leverage the reasoning capability of multimodal large language models (MLLMs) and explore the potential of constructing reasoning chains that derives image categories to achieve more robust predictions under domain shift. To this end, we systematically study the role of reasoning in DG using DomainBed-Reasoning, a newly constructed extension of DomainBed dataset, in which each sample is paired with class-relevant reasoning chains. Our analysis reveals two key challenges: (i) fine-tuning MLLMs with reasoning chains for classification is more challenging than direct label supervision, since the model must optimize complex reasoning sequences before label prediction; and (ii) mismatches in reasoning patterns between supervision signals and fine-tuned MLLMs lead to a trade-off between semantic richness (informative but harder to optimize) and optimization efficiency (easier to optimize but less informative). To address these issues, we propose RD-MLDG (Reasoning-Driven Multimodal LLM for Domain Generalization), a framework with two components: (i) MTCT (Multi-Task Cross-Training), which introduces an additional direct classification pathway to guide reasoning supervision; and (ii) SARR (Self-Aligned Reasoning Regularization), which preserves the semantic richness of reasoning chains while mitigating reasoning-pattern mismatches via iterative self-labeling. Experiments on standard DomainBed datasets (PACS, VLCS, OfficeHome, TerraInc) demonstrate that RD-MLDG achieves state-of-the-art performances, highlighting reasoning as a promising complementary signal for robust out-of-domain generalization.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.