Molmo2: 비디오 이해 및 정위 기능을 갖춘 시각-언어 모델의 공개 가중치 및 데이터
Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding
현재 가장 강력한 비디오-언어 모델(VLM)은 여전히 독점적입니다. 가장 강력한 공개 가중치 모델들은 독점 VLM에서 생성된 합성 데이터를 사용하거나, 훈련 데이터 또는 방법을 공개하지 않습니다. 그 결과, 오픈 소스 커뮤니티는 최첨단 비디오(및 이미지) 언어 모델을 개선하는 데 필요한 기반 지식을 부족합니다. 중요한 점은 많은 응용 프로그램이 단순히 고수준의 비디오 이해뿐만 아니라, 픽셀 단위의 지시 또는 추적을 통한 정위 기능을 필요로 한다는 것입니다. 심지어 독점 모델조차 이러한 기능을 갖추고 있지 않습니다. 본 논문에서는 오픈 소스 모델 중에서 최첨단 성능을 보이며, 단일 이미지, 다중 이미지, 비디오 작업에서 뛰어난 새로운 정위 기능을 제공하는 새로운 VLM 패밀리인 Molmo2를 소개합니다. 우리의 핵심 기여는 사전 훈련을 위한 상세한 비디오 캡션 데이터, 미세 조정을 위한 자유 형식의 비디오 질의응답 데이터, 복잡한 질의를 포함하는 새로운 객체 추적 데이터, 그리고 독점 VLM을 사용하지 않고 수집된 혁신적인 비디오 지시 데이터로 구성된 7개의 새로운 비디오 데이터셋과 2개의 다중 이미지 데이터셋입니다. 또한, 효율적인 패킹 및 메시지 트리 인코딩 방식을 사용하여 이 데이터를 훈련하는 방법을 제시하고, 시각 토큰에 대한 양방향 어텐션과 새로운 토큰 가중치 전략이 성능을 향상시키는 것을 보여줍니다. 당사의 최고 성능 모델인 8B 모델은 공개 가중치 및 데이터 모델 클래스에서 짧은 비디오, 개수 세기, 캡셔닝 작업에서 다른 모델보다 뛰어난 성능을 보이며, 긴 비디오 작업에서도 경쟁력 있는 성능을 보입니다. 비디오 정위 작업에서 Molmo2는 기존의 공개 가중치 모델인 Qwen3-VL(비디오 개수 세기에서 정확도 35.5 vs 29.6)을 크게 능가하며, 일부 작업에서는 Gemini 3 Pro와 같은 독점 모델조차 능가합니다(비디오 지시에서 F1 점수 38.4 vs 20.0, 비디오 추적에서 J&F 점수 56.2 vs 41.1).
Today's strongest video-language models (VLMs) remain proprietary. The strongest open-weight models either rely on synthetic data from proprietary VLMs, effectively distilling from them, or do not disclose their training data or recipe. As a result, the open-source community lacks the foundations needed to improve on the state-of-the-art video (and image) language models. Crucially, many downstream applications require more than just high-level video understanding; they require grounding -- either by pointing or by tracking in pixels. Even proprietary models lack this capability. We present Molmo2, a new family of VLMs that are state-of-the-art among open-source models and demonstrate exceptional new capabilities in point-driven grounding in single image, multi-image, and video tasks. Our key contribution is a collection of 7 new video datasets and 2 multi-image datasets, including a dataset of highly detailed video captions for pre-training, a free-form video Q&A dataset for fine-tuning, a new object tracking dataset with complex queries, and an innovative new video pointing dataset, all collected without the use of closed VLMs. We also present a training recipe for this data utilizing an efficient packing and message-tree encoding scheme, and show bi-directional attention on vision tokens and a novel token-weight strategy improves performance. Our best-in-class 8B model outperforms others in the class of open weight and data models on short videos, counting, and captioning, and is competitive on long-videos. On video-grounding Molmo2 significantly outperforms existing open-weight models like Qwen3-VL (35.5 vs 29.6 accuracy on video counting) and surpasses proprietary models like Gemini 3 Pro on some tasks (38.4 vs 20.0 F1 on video pointing and 56.2 vs 41.1 J&F on video tracking).
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.