TPRU: 대형 멀티모달 모델의 시간적 및 절차적 이해 향상
TPRU: Advancing Temporal and Procedural Understanding in Large Multimodal Models
멀티모달 대형 언어 모델(MLLM), 특히 크기가 작아 배포 가능한 변형 모델들은 시간적 및 절차적 시각 데이터를 이해하는 데 심각한 결함을 보이며, 이는 실제 체화된 AI(embodied AI)에의 적용을 방해하는 병목 현상으로 작용합니다. 이러한 격차는 대규모의 절차적으로 일관된 데이터가 부족한 학습 패러다임의 체계적 결함에 주로 기인합니다. 이 문제를 해결하기 위해, 우리는 로봇 조작 및 GUI 탐색과 같은 다양한 체화된 시나리오에서 수집된 대규모 데이터셋인 TPRU를 소개합니다. TPRU는 시간적 재배열(Temporal Reordering), 다음 프레임 예측(Next-Frame Prediction), 이전 프레임 검토(Previous-Frame Review)라는 세 가지 상호 보완적인 작업을 통해 시간적 추론 능력을 기르도록 체계적으로 설계되었습니다. 주요 특징은 까다로운 네거티브 샘플을 포함시켜, 모델이 수동적인 관찰에서 벗어나 능동적인 교차 모달 검증으로 전환하도록 강제한다는 점입니다. 우리는 특히 자원 효율적인 모델의 성능 향상을 목표로, 강화 학습(RL) 미세 조정 방법론과 함께 TPRU를 활용합니다. 실험 결과 우리의 접근 방식은 극적인 성능 향상을 보였습니다. 수작업으로 구축한 TPRU-Test에서 TPRU-7B의 정확도는 50.33%에서 75.70%로 급상승했으며, 이는 GPT-4o를 포함한 훨씬 더 큰 베이스라인 모델들을 크게 능가하는 최고 수준(state-of-the-art)의 결과입니다. 결정적으로, 이러한 능력은 효과적으로 일반화되어 기존 벤치마크에서도 상당한 개선을 입증합니다. 코드베이스는 https://github.com/Stephen-gzk/TPRU/ 에서 이용할 수 있습니다.
Multimodal Large Language Models (MLLMs), particularly smaller, deployable variants, exhibit a critical deficiency in understanding temporal and procedural visual data, a bottleneck hindering their application in real-world embodied AI. This gap is largely caused by a systemic failure in training paradigms, which lack large-scale, procedurally coherent data. To address this problem, we introduce TPRU, a large-scale dataset sourced from diverse embodied scenarios such as robotic manipulation and GUI navigation. TPRU is systematically designed to cultivate temporal reasoning through three complementary tasks: Temporal Reordering, Next-Frame Prediction, and Previous-Frame Review. A key feature is the inclusion of challenging negative samples, compelling models to transition from passive observation to active, cross-modal validation. We leverage TPRU with a reinforcement learning (RL) fine-tuning methodology, specifically targeting the enhancement of resource-efficient models. Experiments show our approach yields dramatic gains: on our manually curated TPRU-Test, the accuracy of TPRU-7B soars from 50.33\% to 75.70\%, a state-of-the-art result that significantly outperforms vastly larger baselines, including GPT-4o. Crucially, these capabilities generalize effectively, demonstrating substantial improvements on established benchmarks. The codebase is available at https://github.com/Stephen-gzk/TPRU/ .
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.