증분 최적화 유틸리티를 활용한 다중 모드 모델의 효율적인 데이터 선택
Efficient Data Selection for Multimodal Models via Incremental Optimization Utility
대규모 다중 모드 모델(LMM)의 성능 향상은 합성 데이터의 품질과 양 사이의 균형 문제에 의해 제한됩니다. 기존의 LLM-as-a-Judge와 같은 방법들은 효과적임이 입증되었지만, 막대한 계산 비용과 해석 가능성 부족이라는 단점을 가지고 있습니다. 이러한 문제점을 해결하기 위해, 본 논문에서는 데이터 선택을 증분적인 최적화 유틸리티 순위 결정 문제로 재구성하는 프레임워크인 One-Step-Train (OST)을 제안합니다. OST는 의미론적 휴리스틱에 의존하는 대신, 경량화된 프록시 모델을 사용한 시뮬레이션 기반의 단일 단계 업데이트를 통해 각 샘플의 한계 효용을 추정합니다. Qwen 시리즈를 기반으로 한 다중 모드 수학적 추론 벤치마크 실험 결과, OST는 Pareto-최적의 효율성을 달성하는 것으로 나타났습니다. 상위 50개 샘플을 선택함으로써, OST는 학습 비용을 43% (총 실행 시간을 17%로) 줄이는 동시에, 강력한 LLM-as-a-Judge 기준 성능보다 1.8점 더 높은 성능을 보였습니다. 또한, 동일한 계산 예산을 사용할 경우, 상위 20개 샘플만을 사용한 OST 방법은 LLM-as-a-Judge보다 5.6점 더 높은 성능을 보였으며, DEITA와 같은 휴리스틱 기반 방법보다 우수하고, Full-SFT 기준 성능보다 8.8점 더 높은 성능을 달성했습니다. 특히, Full-SFT는 노이즈로 인해 성능 저하가 발생하는 반면, 본 논문에서 제안하는 최적화 기반 방법은 유해 샘플을 효과적으로 식별하여 복잡한 추론 작업에서 흔히 관찰되는 부정적인 전이 현상을 완화합니다.
The scaling of Large Multimodal Models (LMMs) is constrained by the quality-quantity trade-off inherent in synthetic data. Previous approaches, such as LLM-as-a-Judge, have proven their effectiveness in addressing this but suffer from prohibitive computational costs and lack of interpretability. To bridge this gap, we propose One-Step-Train (OST), a framework that reformulates data selection as an incremental optimization utility ranking problem. Instead of relying on semantic heuristics, OST estimates the marginal utility of each sample via a simulated single-step update on a lightweight proxy. Experiments on the Qwen series across multimodal mathematical reasoning benchmarks demonstrate that OST achieves Pareto-optimal efficiency. By selecting the top-50 subset, OST reduces training costs by 43% (and total time consumption by 17) while surpassing the strong LLM-as-a-Judge baseline by 1.8 points. Furthermore, under a fixed compute budget, our method using only the top-20 subset achieves a 5.6 point gain over LLM-as-a-Judge, improves upon heuristic scoring baselines like DEITA, and outperforms the Full-SFT baseline by 8.8 points. Notably, while Full-SFT suffers from performance degradation due to noise, our optimization-grounded approach effectively identifies toxic samples, successfully reversing the negative transfer frequently observed in complex reasoning tasks.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.