시각적 병렬 사고(Visual Para-Thinker): 시각적 이해를 위한 분할 정복 추론
Visual Para-Thinker: Divide-and-Conquer Reasoning for Visual Comprehension
기존의 LLM 테스트 성능 확장 법칙은 연장된 추론 길이를 통해 자가 성찰적 행동이 나타나는 것을 강조합니다. 그러나 이러한 수직적 확장 전략은 모델이 특정 사고 패턴에 갇히면서 탐색의 한계에 도달하는 경우가 많습니다. 병렬적 사고는 깊이 대신 병렬성을 활용하여 탐색의 범위를 좁히는 문제를 완화합니다. 그러나 이러한 패러다임을 시각 영역으로 확장하는 것은 여전히 연구 과제로 남아 있습니다. 본 논문에서는 먼저 병렬화된 추론에서 시각적 분할의 역할을 살펴보고, 그 후 두 가지 상이한 전략을 제안합니다. 위 내용을 바탕으로, 우리는 다중 모달 LLM(MLLM)을 위한 최초의 병렬 추론 프레임워크인 Visual Para-Thinker를 소개합니다. 경로의 독립성을 유지하고 추론의 다양성을 촉진하기 위해, 우리는 Pa-Attention과 LPRoPE를 통합했습니다. vLLM 프레임워크를 활용하여 개발된 우리의 고유한 다중 모달 구현은 고효율의 병렬 처리를 가능하게 합니다. V*, CountBench, RefCOCO, HallusionBench와 같은 벤치마크 데이터 세트에 대한 실험 결과는 Visual Para-Thinker가 병렬 추론의 이점을 시각 영역으로 성공적으로 확장한다는 것을 확인합니다.
Existing LLM test-time scaling laws emphasize the emergence of self-reflective behaviors through extended reasoning length. Nevertheless, this vertical scaling strategy often encounters plateaus in exploration as the model becomes locked into specific thinking pattern. By shifting from depth to parallelism, parallel thinking mitigates the narrowing of exploration. However, the extension of this paradigm to visual domain remains an open research question. In this paper, we first examine the role of visual partitioning in parallelized reasoning and subsequently propose two distinct strategies. Based on the above, we introduce Visual Para-Thinker, representing the inaugural parallel reasoning framework for MLLMs. To maintain path independence and promote diversity in reasoning, our approach integrates Pa-Attention alongside LPRoPE. Leveraging the vLLM framework, we have developed a native multimodal implementation that facilitates high-efficiency parallel processing. Empirical results on benchmark datasets such as V*, CountBench, RefCOCO, and HallusionBench confirm that Visual Para-Thinker successfully extends the benefits of parallel reasoning to the visual domain.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.