2602.20739v1 Feb 24, 2026 cs.AI

PyVision-RL: 강화 학습을 통한 개방형 에이전트 기반 시각 모델 구축

PyVision-RL: Forging Open Agentic Vision Models via RL

Shitian Zhao
Shitian Zhao
Citations: 220
h-index: 5
Shaoheng Lin
Shaoheng Lin
Citations: 95
h-index: 4
Ming Li
Ming Li
Citations: 121
h-index: 6
Haoquan Zhang
Haoquan Zhang
Citations: 88
h-index: 5
Wenshuo Peng
Wenshuo Peng
Citations: 43
h-index: 3
Kaipeng Zhang
Kaipeng Zhang
Citations: 591
h-index: 8
Chen Wei
Chen Wei
Citations: 62
h-index: 4

에이전트 기반의 다중 모드 모델에서 강화 학습은 종종 상호 작용 감소 현상을 겪으며, 모델이 도구 사용을 줄이고 다단계 추론을 제한하여 에이전트의 장점을 제대로 활용하지 못하는 경우가 발생합니다. 본 논문에서는 PyVision-RL이라는 강화 학습 프레임워크를 제안합니다. 이는 개방형 가중치를 가진 다중 모드 모델의 학습을 안정화하고 지속적인 상호 작용을 유지하도록 설계되었습니다. 저희의 접근 방식은 오버샘플링-필터링-랭킹 롤아웃 전략과 누적 도구 보상을 결합하여 상호 작용 감소 현상을 방지하고 다단계 도구 사용을 장려합니다. 통합된 학습 파이프라인을 사용하여 이미지 및 비디오 이해를 위한 PyVision-Image와 PyVision-Video를 개발했습니다. 비디오 추론을 위해 PyVision-Video는 필요에 따라 컨텍스트를 생성하며, 추론 과정에서 작업과 관련된 프레임을 선택적으로 샘플링하여 시각 토큰 사용량을 크게 줄입니다. 실험 결과, PyVision-RL은 우수한 성능과 효율성을 보여주었으며, 지속적인 상호 작용과 필요에 따른 시각 처리 기술이 확장 가능한 다중 모드 에이전트에 매우 중요하다는 것을 입증했습니다.

Original Abstract

Reinforcement learning for agentic multimodal models often suffers from interaction collapse, where models learn to reduce tool usage and multi-turn reasoning, limiting the benefits of agentic behavior. We introduce PyVision-RL, a reinforcement learning framework for open-weight multimodal models that stabilizes training and sustains interaction. Our approach combines an oversampling-filtering-ranking rollout strategy with an accumulative tool reward to prevent collapse and encourage multi-turn tool use. Using a unified training pipeline, we develop PyVision-Image and PyVision-Video for image and video understanding. For video reasoning, PyVision-Video employs on-demand context construction, selectively sampling task-relevant frames during reasoning to significantly reduce visual token usage. Experiments show strong performance and improved efficiency, demonstrating that sustained interaction and on-demand visual processing are critical for scalable multimodal agents.

2 Citations
0 Influential
4 Altmetric
22.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!