2601.03054v3 Jan 06, 2026 cs.CV

IBISAgent: MLLM의 픽셀 단위 시각적 추론 강화 - 범용 생의학 객체 지칭 및 분할을 위한 연구

IBISAgent: Reinforcing Pixel-Level Visual Reasoning in MLLMs for Universal Biomedical Object Referring and Segmentation

Haoran Sun
Haoran Sun
Citations: 47
h-index: 3
Yankai Jiang
Yankai Jiang
Citations: 59
h-index: 5
Qiaoru Li
Qiaoru Li
Citations: 7
h-index: 2
Bin Xu
Bin Xu
Citations: 86
h-index: 3
Chao Ding
Chao Ding
Citations: 8
h-index: 2
Junting Dong
Junting Dong
Citations: 23
h-index: 3
Yuxiang Cai
Yuxiang Cai
Citations: 4
h-index: 2
Xuhong Zhang
Xuhong Zhang
Citations: 246
h-index: 9
Jianwei Yin
Jianwei Yin
Citations: 255
h-index: 9

최근 의료 분야의 MLLM(Multimodal Large Language Model) 연구는 이미지 전체 수준의 이해에서 벗어나 세밀한 픽셀 단위의 이해로 점차 방향이 전환되고 있습니다. 분할(Segmentation)은 픽셀 단위 이해의 기반이 되지만, 기존 접근 방식은 두 가지 주요 과제를 안고 있습니다. 첫째, 암묵적인 분할 토큰을 도입하고 MLLM과 외부 픽셀 디코더를 동시에 미세 조정해야 하므로, 파국적인 망각의 위험이 증가하고 도메인 외부 시나리오로의 일반화 능력이 제한됩니다. 둘째, 대부분의 방법은 단일 단계 추론에 의존하며, 분할 결과를 반복적으로 개선하는 능력이 부족하여 최적의 성능을 달성하지 못합니다. 이러한 한계를 극복하기 위해, 우리는 새로운 에이전트 기반 MLLM인 IBISAgent를 제안합니다. IBISAgent는 분할을 시각 중심의 다단계 의사 결정 과정으로 재구성합니다. IBISAgent는 MLLM이 상호 연결된 추론과 텍스트 기반 클릭 액션을 생성하고, 분할 도구를 호출하며, 아키텍처 변경 없이 고품질 마스크를 생성할 수 있도록 합니다. IBISAgent는 마스크된 이미지 특징에 대한 다단계 시각적 추론을 반복적으로 수행함으로써, 자연스럽게 마스크 개선을 지원하고 픽셀 단위 시각적 추론 능력을 향상시킵니다. 또한, 콜드 스타트 지도 학습과 맞춤형 세밀한 보상을 사용하는 에이전트 기반 강화 학습으로 구성된 이중 단계 학습 프레임워크를 설계하여, 복잡한 의료 분야의 객체 지칭 및 추론 기반 분할 작업에서 모델의 견고성을 향상시켰습니다. 광범위한 실험 결과는 IBISAgent가 폐쇄형 및 공개형 최첨단(SOTA) 방법 모두에서 일관되게 우수한 성능을 보임을 보여줍니다. 모든 데이터셋, 코드 및 학습된 모델은 공개적으로 배포될 예정입니다.

Original Abstract

Recent research on medical MLLMs has gradually shifted its focus from image-level understanding to fine-grained, pixel-level comprehension. Although segmentation serves as the foundation for pixel-level understanding, existing approaches face two major challenges. First, they introduce implicit segmentation tokens and require simultaneous fine-tuning of both the MLLM and external pixel decoders, which increases the risk of catastrophic forgetting and limits generalization to out-of-domain scenarios. Second, most methods rely on single-pass reasoning and lack the capability to iteratively refine segmentation results, leading to suboptimal performance. To overcome these limitations, we propose a novel agentic MLLM, named IBISAgent, that reformulates segmentation as a vision-centric, multi-step decision-making process. IBISAgent enables MLLMs to generate interleaved reasoning and text-based click actions, invoke segmentation tools, and produce high-quality masks without architectural modifications. By iteratively performing multi-step visual reasoning on masked image features, IBISAgent naturally supports mask refinement and promotes the development of pixel-level visual reasoning capabilities. We further design a two-stage training framework consisting of cold-start supervised fine-tuning and agentic reinforcement learning with tailored, fine-grained rewards, enhancing the model's robustness in complex medical referring and reasoning segmentation tasks. Extensive experiments demonstrate that IBISAgent consistently outperforms both closed-source and open-source SOTA methods. All datasets, code, and trained models will be released publicly.

2 Citations
1 Influential
4.5 Altmetric
26.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!