PyVision-RL: 강화 학습을 통한 개방형 에이전트 기반 시각 모델 구축
PyVision-RL: Forging Open Agentic Vision Models via RL
에이전트 기반의 다중 모드 모델에서 강화 학습은 종종 상호 작용 감소 현상을 겪으며, 모델이 도구 사용을 줄이고 다단계 추론을 제한하여 에이전트의 장점을 제대로 활용하지 못하는 경우가 발생합니다. 본 논문에서는 PyVision-RL이라는 강화 학습 프레임워크를 제안합니다. 이는 개방형 가중치를 가진 다중 모드 모델의 학습을 안정화하고 지속적인 상호 작용을 유지하도록 설계되었습니다. 저희의 접근 방식은 오버샘플링-필터링-랭킹 롤아웃 전략과 누적 도구 보상을 결합하여 상호 작용 감소 현상을 방지하고 다단계 도구 사용을 장려합니다. 통합된 학습 파이프라인을 사용하여 이미지 및 비디오 이해를 위한 PyVision-Image와 PyVision-Video를 개발했습니다. 비디오 추론을 위해 PyVision-Video는 필요에 따라 컨텍스트를 생성하며, 추론 과정에서 작업과 관련된 프레임을 선택적으로 샘플링하여 시각 토큰 사용량을 크게 줄입니다. 실험 결과, PyVision-RL은 우수한 성능과 효율성을 보여주었으며, 지속적인 상호 작용과 필요에 따른 시각 처리 기술이 확장 가능한 다중 모드 에이전트에 매우 중요하다는 것을 입증했습니다.
Reinforcement learning for agentic multimodal models often suffers from interaction collapse, where models learn to reduce tool usage and multi-turn reasoning, limiting the benefits of agentic behavior. We introduce PyVision-RL, a reinforcement learning framework for open-weight multimodal models that stabilizes training and sustains interaction. Our approach combines an oversampling-filtering-ranking rollout strategy with an accumulative tool reward to prevent collapse and encourage multi-turn tool use. Using a unified training pipeline, we develop PyVision-Image and PyVision-Video for image and video understanding. For video reasoning, PyVision-Video employs on-demand context construction, selectively sampling task-relevant frames during reasoning to significantly reduce visual token usage. Experiments show strong performance and improved efficiency, demonstrating that sustained interaction and on-demand visual processing are critical for scalable multimodal agents.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.