Lang2Act: 자체적으로 생성되는 언어 기반 도구 체인을 통한 정밀한 시각적 추론
Lang2Act: Fine-Grained Visual Reasoning through Self-Emergent Linguistic Toolchains
본 논문에서는 시각 검색을 활용한 생성 모델(VRAG)을 제안하며, 이는 외부 시각 자료를 활용하여 주어진 질문에 대한 답변을 생성하는 비전-언어 모델(VLM)의 성능을 향상시키는 방법입니다. 기존의 VRAG 프레임워크는 VLM의 인지 능력을 확장하기 위해 일반적으로 미리 정의된 외부 도구를 사용하며, 시각적 인지와 추론 과정을 명시적으로 분리하는 경향이 있습니다. 하지만 이러한 분리된 설계는 시각 정보의 불필요한 손실을 초래할 수 있으며, 특히 이미지 자르기와 같은 시각 기반 연산이 수행될 때 더욱 두드러집니다. 본 연구에서는 자체적으로 생성되는 언어 기반 도구 체인을 통해 정밀한 시각적 인지와 추론을 가능하게 하는 Lang2Act를 제안합니다. Lang2Act는 고정된 외부 엔진을 사용하는 대신, 자체적으로 생성된 액션을 언어 기반 도구로 활용하여 VLM의 시각적 인지 능력을 향상시킵니다. 이러한 메커니즘을 지원하기 위해, 두 단계의 강화 학습(RL) 기반 학습 프레임워크를 설계했습니다. 첫 번째 단계에서는 VLM이 고품질의 액션을 스스로 탐색하여 재사용 가능한 언어 기반 도구 상자를 구축하도록 최적화합니다. 두 번째 단계에서는 VLM이 이러한 언어 기반 도구를 활용하여 다운스트림 추론을 효과적으로 수행하도록 추가적으로 최적화합니다. 실험 결과는 Lang2Act가 VLM의 시각적 인지 능력을 크게 향상시키며, 4% 이상의 성능 향상을 달성한다는 것을 보여줍니다. 모든 코드와 데이터는 https://github.com/NEUIR/Lang2Act 에서 확인할 수 있습니다.
Visual Retrieval-Augmented Generation (VRAG) enhances Vision-Language Models (VLMs) by incorporating external visual documents to address a given query. Existing VRAG frameworks usually depend on rigid, pre-defined external tools to extend the perceptual capabilities of VLMs, typically by explicitly separating visual perception from subsequent reasoning processes. However, this decoupled design can lead to unnecessary loss of visual information, particularly when image-based operations such as cropping are applied. In this paper, we propose Lang2Act, which enables fine-grained visual perception and reasoning through self-emergent linguistic toolchains. Rather than invoking fixed external engines, Lang2Act collects self-emergent actions as linguistic tools and leverages them to enhance the visual perception capabilities of VLMs. To support this mechanism, we design a two-stage Reinforcement Learning (RL)-based training framework. Specifically, the first stage optimizes VLMs to self-explore high-quality actions for constructing a reusable linguistic toolbox, and the second stage further optimizes VLMs to exploit these linguistic tools for downstream reasoning effectively. Experimental results demonstrate the effectiveness of Lang2Act in substantially enhancing the visual perception capabilities of VLMs, achieving performance improvements of over 4%. All code and data are available at https://github.com/NEUIR/Lang2Act.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.