TikArt: 강화 학습을 통한 미세 수준 시각 추론을 위한 조리개 기반 관찰
TikArt: Aperture-Guided Observation for Fine-Grained Visual Reasoning via Reinforcement Learning
본 연구에서는 멀티모달 대규모 언어 모델(MLLM)에서 발생하는 미세 수준 시각 추론 문제를 다룹니다. 이 문제에서 중요한 증거는 작은 객체, 복잡한 영역 또는 미세한 표시 등에 숨겨져 있을 수 있으며, 단일의 전체 이미지 인코딩으로는 이러한 정보를 놓치기 쉽습니다. 우리는 TikArt (Thinking Aperture)라는 조리개 기반 에이전트를 제안합니다. TikArt는 다단계 시각-언어 추론을 관심 영역에 대한 의사 결정 과정으로 간주합니다. TikArt는 '생각-조리개-관찰' 루프를 따르며, 언어 생성과 두 가지 조리개 액션을 번갈아 수행합니다. '확대(Zoom)'는 사각형 영역을 추출하고, '분할(Segment)'은 SAM2를 호출하여 불규칙한 객체에 대한 마스크 기반 영역을 추출합니다. 각 액션 이후, 모델은 명시적인 관찰 결과를 생성하여, 지역 시각적 단서를 지속적인 언어적 기억으로 전환합니다. Qwen3-VL-8B를 기반으로 구축된 TikArt는 AGRPO라는 GRPO 스타일의 강화 학습 알고리즘을 사용하여 추론 정책을 최적화합니다. 이 알고리즘은 두 단계의 교육 과정을 거치는데, 먼저 분할 액션을 준비한 다음, 시각적 수학 문제, 미세 수준의 VQA (Visual Question Answering), 그리고 분할을 동시에 최적화합니다. 이때, 작업 성공과 의도적인 조리개 사용을 결합한 보상을 사용합니다. V*, HR-Bench-4K/8K, MME-RealWorld-Lite, MMStar, RefCOCO, 그리고 ReasonSeg 데이터셋에 대한 실험 결과, TikArt는 기본 모델보다 일관된 성능 향상을 보이며, 고해상도 추론을 위한 해석 가능한 조리개 경로를 제공합니다.
We address fine-grained visual reasoning in multimodal large language models (MLLMs), where key evidence may reside in tiny objects, cluttered regions, or subtle markings that are lost under a single global image encoding. We introduce TikArt (Thinking Aperture), an aperture-guided agent that casts multi-step vision-language reasoning as a decision process over regions of interest. TikArt follows a Think-Aperture-Observe loop, alternating between language generation and two aperture actions: Zoom extracts rectangular crops, while Segment invokes SAM2 to obtain mask-based crops for irregular targets. After every action, the model must produce an explicit observation, turning local visual cues into persistent linguistic memory. Built on Qwen3-VL-8B, TikArt optimizes its reasoning policy with AGRPO, a GRPO-style reinforcement learning algorithm with a two-stage curriculum: it warms up segmentation actions and then jointly optimizes visual math, fine-grained VQA, and segmentation, using rewards that couple task success with purposeful aperture use. Experiments on V*, HR-Bench-4K/8K, MME-RealWorld-Lite, MMStar, RefCOCO, and ReasonSeg show consistent gains over the backbone and yield interpretable aperture trajectories for high-resolution reasoning.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.