EVE: 실행 가능한 시각적 변환을 통한 검증 가능한 다중 모드 대규모 언어 모델의 자기 진화
EVE: Verifiable Self-Evolution of MLLMs via Executable Visual Transformations
다중 모드 대규모 언어 모델(MLLM)의 자기 진화는 여전히 중요한 과제입니다. 가짜 레이블 기반 방법은 모델 예측이 벗어날수록 품질 저하가 심화되고, 템플릿 기반 방법은 어려움이나 다양성을 조정할 수 없는 정적인 변환 집합에 제한됩니다. 우리는 견고하고 지속적인 자기 개선을 위해서는 모델의 내부 확신에 독립적인 결정론적인 외부 피드백뿐만 아니라, 훈련 데이터 분포를 지속적으로 다양화하는 메커니즘이 필요하다고 주장합니다. 이를 위해, 우리는 EVE(Executable Visual transformation-based self-Evolution)라는 새로운 프레임워크를 소개합니다. EVE는 가짜 레이블을 완전히 생략하고, 다양성과 복잡성이 지속적으로 풍부해지는 실행 가능한 시각적 변환을 활용합니다. EVE는 챌린저-솔버(Challenger-Solver)라는 이중 정책 아키텍처를 채택합니다. 챌린저는 시각적 변환 코드 예제의 큐를 유지하고 확장하며, 이를 통해 동적 시각적 변환을 수행하는 새로운 Python 스크립트를 합성합니다. 이러한 스크립트를 실행하면 절대적이고 실행 검증된 정답을 가진 VQA(Visual Question Answering) 문제가 생성되어, 모델이 생성한 감독 없이도 정확한 결과를 얻을 수 있습니다. 의미적 다양성과 동적 난이도 조정을 통합한 다차원 보상 시스템은 챌린저가 코드 예제 큐를 풍부하게 유지하고 점진적으로 더 어려운 작업을 제시하도록 유도하여, 모델의 한계점을 극복하고 두 정책 간의 상호 진화를 촉진합니다. 광범위한 실험 결과, EVE는 기존의 자기 진화 방법보다 일관되게 우수한 성능을 보이며, 검증 가능한 MLLM 자기 진화를 위한 견고하고 확장 가능한 패러다임을 구축합니다. 코드 및 관련 자료는 https://github.com/0001Henry/EVE 에서 확인할 수 있습니다.
Self-evolution of multimodal large language models (MLLMs) remains a critical challenge: pseudo-label-based methods suffer from progressive quality degradation as model predictions drift, while template-based methods are confined to a static set of transformations that cannot adapt in difficulty or diversity. We contend that robust, continuous self-improvement requires not only deterministic external feedback independent of the model's internal certainty, but also a mechanism to perpetually diversify the training distribution. To this end, we introduce EVE (Executable Visual transformation-based self-Evolution), a novel framework that entirely bypasses pseudo-labels by harnessing executable visual transformations continuously enriched in both variety and complexity. EVE adopts a Challenger-Solver dual-policy architecture. The Challenger maintains and progressively expands a queue of visual transformation code examples, from which it synthesizes novel Python scripts to perform dynamic visual transformations. Executing these scripts yields VQA problems with absolute, execution-verified ground-truth answers, eliminating any reliance on model-generated supervision. A multi-dimensional reward system integrating semantic diversity and dynamic difficulty calibration steers the Challenger to enrich its code example queue while posing progressively more challenging tasks, preventing mode collapse and fostering reciprocal co-evolution between the two policies. Extensive experiments demonstrate that EVE consistently surpasses existing self-evolution methods, establishing a robust and scalable paradigm for verifiable MLLM self-evolution. The code is available at https://github.com/0001Henry/EVE .
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.