적응 체인(Chain-of-Adaptation): 강화 학습을 활용한 수술 관련 시각-언어 모델의 적응
Chain-of-Adaptation: Surgical Vision-Language Adaptation with Reinforcement Learning
기존의 도메인 특화 데이터셋에 대한 미세 조정은 모델의 사전 학습된 다중 모드 정보(multimodal priors)를 의도치 않게 변경하여 일반화 성능 저하를 초래할 수 있습니다. 이러한 문제를 해결하기 위해, 우리는 모델의 고유한 추론 및 인지 능력을 유지하면서 도메인 지식을 통합하도록 설계된 적응 프레임워크인 Chain-of-Adaptation (CoA)을 제안합니다. CoA는 강화 학습을 통해 구조화된 추론 형식을 도입하여 일반적인 다중 모드 역량을 희생하지 않고 도메인 정렬을 향상시킵니다. 표준 수술 벤치마크에 대한 실험에서, CoA는 인-디스트리뷰션(in-distribution) 및 아웃-오브-디스트리뷰션(out-of-distribution) 환경 모두에서 기존의 지도 학습 기반 미세 조정보다 높은 정확도, 더 강력한 일반화 능력, 그리고 더 안정적인 성능을 보여줍니다. 또한, 분석 연구 결과, CoA는 모델의 핵심 시각-언어 능력을 효과적으로 보존하며, VLM(Visual-Language Model)의 도메인 특화에 대한 신뢰할 수 있는 방법을 제공한다는 것을 확인했습니다.
Conventional fine-tuning on domain-specific datasets can inadvertently alter a model's pretrained multimodal priors, leading to reduced generalization. To address this, we propose Chain-of-Adaptation (CoA), an adaptation framework designed to integrate domain knowledge while maintaining the model's inherent reasoning and perceptual capabilities. CoA introduces a structured reasoning format that enhances domain alignment without sacrificing general multimodal competence by reinforcement learning. Experiments on standard surgical benchmarks, under both in-distribution and out-of-distribution settings, demonstrate that CoA achieves higher accuracy, stronger generalization, and more stable behavior than supervised fine-tuning. Furthermore, ablation studies confirm that CoA effectively preserves the model's core visual-language abilities, providing a reliable pathway for domain specialization in VLMs.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.