SPARC: 시각적 인식 및 추론 회로 분리 - VLM의 테스트 시간 확장
SPARC: Separating Perception And Reasoning Circuits for Test-time Scaling of VLMs
최근의 성공에도 불구하고, 테스트 시간 확장(필요에 따라 추론 과정에서 토큰 사용량을 동적으로 늘리는 방식)은 여전히 시각-언어 모델(VLM)에서 불안정성을 야기합니다. 이미지에 대한 체계화되지 않은 사고 과정은 인식과 추론을 혼합시켜, 작은 인식 오류가 전체적으로 잘못된 답변으로 이어지는 긴 맥락을 만들어냅니다. 또한, 좋은 성능을 달성하기 위해서는 수동으로 설계된 보상을 사용하는 강화 학습이 필요합니다. 본 논문에서는 시각적 인식과 추론을 명시적으로 분리하는 모듈형 프레임워크인 SPARC(Separating Perception And Reasoning Circuits)를 소개합니다. SPARC는 뇌의 순차적인 감각-인지 처리 방식을 모방하여, 모델이 먼저 질문과 관련된 영역을 찾기 위해 명시적인 시각 검색을 수행하고, 그 영역을 기반으로 추론을 수행하여 최종 답변을 생성하는 2단계 파이프라인을 구현합니다. 이러한 분리는 비동기적인 컴퓨팅 할당(예: 데이터 분포 변화 시 인식 처리에 우선순위를 부여)을 통한 독립적인 테스트 시간 확장을 가능하게 합니다. 또한, 선택적 최적화(예: 전체 성능의 병목 현상인 인식 단계를 개별적으로 개선)를 지원하며, 전체 이미지 해상도를 낮춰 글로벌 검색을 수행하고, 선택된 영역에만 고해상도 처리를 적용하여 압축된 맥락을 수용함으로써 전체 시각 토큰 수와 컴퓨팅량을 줄입니다. 어려운 시각적 추론 벤치마크에서 SPARC는 기존 모델 및 강력한 시각-텍스트 연관 모델보다 우수한 성능을 보입니다. 예를 들어, SPARC는 Qwen3VL-4B 모델의 $V^*$ VQA 벤치마크 정확도를 6.7%p 향상시켰으며, 어려운 OOD 작업에서
Despite recent successes, test-time scaling - i.e., dynamically expanding the token budget during inference as needed - remains brittle for vision-language models (VLMs): unstructured chains-of-thought about images entangle perception and reasoning, leading to long, disorganized contexts where small perceptual mistakes may cascade into completely wrong answers. Moreover, expensive reinforcement learning with hand-crafted rewards is required to achieve good performance. Here, we introduce SPARC (Separating Perception And Reasoning Circuits), a modular framework that explicitly decouples visual perception from reasoning. Inspired by sequential sensory-to-cognitive processing in the brain, SPARC implements a two-stage pipeline where the model first performs explicit visual search to localize question-relevant regions, then conditions its reasoning on those regions to produce the final answer. This separation enables independent test-time scaling with asymmetric compute allocation (e.g., prioritizing perceptual processing under distribution shift), supports selective optimization (e.g., improving the perceptual stage alone when it is the bottleneck for end-to-end performance), and accommodates compressed contexts by running global search at lower image resolutions and allocating high-resolution processing only to selected regions, thereby reducing total visual tokens count and compute. Across challenging visual reasoning benchmarks, SPARC outperforms monolithic baselines and strong visual-grounding approaches. For instance, SPARC improves the accuracy of Qwen3VL-4B on the $V^*$ VQA benchmark by 6.7 percentage points, and it surpasses "thinking with images" by 4.6 points on a challenging OOD task despite requiring a 200$\times$ lower token budget.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.