VeRA: 대규모 검증된 추론 데이터 증강
VeRA: Verified Reasoning Data Augmentation at Scale
오늘날 대부분의 평가 시스템의 주요 문제는 그 "정적"적인 특성입니다. 동일한 문제가 반복적으로 사용되어 암기, 형식 악용, 그리고 궁극적인 포화 현상을 초래합니다. 진정한 AI 발전 수준을 측정하기 위해서는, 사후적으로 감지하는 것이 아니라 설계 단계부터 견고한 평가가 필요합니다. 이에 대한 해결책으로, 저희는 VeRA (Verified Reasoning Data Augmentation)라는 프레임워크를 제안합니다. VeRA는 벤치마크 문제를 실행 가능한 사양으로 변환하며, (i) 자연어 템플릿과 플레이스홀더, (ii) 유효한 구성을 생성하는 일관성 있는 생성기, (iii) 매개변수를 검증하고 각 구성에 대한 정확한 답을 계산하는 결정론적 검증기로 구성됩니다. VeRA는 단일의 초기 문제로부터, 인간의 개입 없이 거의 제로 수준의 추가 비용으로 무제한의 검증된 변형을 생성하며, 신뢰할 수 있는 레이블을 제공합니다. VeRA는 두 가지 상호 보완적인 모드로 작동합니다. VeRA-E (equivalent)는 문제의 핵심 논리를 유지하면서 문제를 재작성하며, 암기와 진정한 추론을 구별하는 데 유용합니다. VeRA-H (hardened)는 검증 가능성을 유지하면서 체계적으로 복잡성을 증가시켜, 지능의 경계선에 있는 새로운 어려운 작업을 신뢰성 있게 생성하고 레이블을 부여합니다. VeRA를 사용하여 16개의 최첨단 모델을 평가한 결과, 다음과 같은 사실을 발견했습니다. (i) VeRA-E는 평가 품질을 향상시키고 오염 패턴을 드러냅니다. (ii) VeRA-H는 인간의 개입 없이 신뢰할 수 있는 레이블을 가진 어려운 작업을 생성할 수 있습니다. (iii) VeRA는 검증된 벤치마크를 일반적인 패러다임으로 확립합니다. VeRA는 벤치마크를 정적으로 고갈될 때까지 사용되는 객체에서, 필요에 따라 새로운 검증된 인스턴스를 생성하는 실행 가능한 사양으로 재구성하여 평가의 견고성과 비용 효율성을 향상시킵니다. VeRA를 통해, 검증 가능한 모든 분야에서 평가가 레이블의 무결성을 희생하지 않고 무한정으로 확장될 수 있다고 예상합니다. 향후 연구를 촉진하기 위해, 모든 코드와 데이터셋을 공개적으로 제공합니다.
The main issue with most evaluation schemes today is their "static" nature: the same problems are reused repeatedly, allowing for memorization, format exploitation, and eventual saturation. To measure genuine AI progress, we need evaluation that is robust by construction, not by post-hoc detection. In response, we propose VeRA (Verified Reasoning Data Augmentation), a framework that converts benchmark problems into executable specifications, comprising (i) a natural language template with placeholder slots, (ii) a coherent generator that samples valid configurations, and (iii) a deterministic verifier that validates parameters and calculates the corresponding correct answers for each configuration. From a single seed problem, VeRA automatically creates unlimited verified variants with reliable labels at near-zero marginal cost without human involvement. VeRA operates in two complementary modes. VeRA-E (equivalent) rewrites problems while keeping the underlying logic intact, useful for detecting memorization versus genuine reasoning. VeRA-H (hardened) systematically increases complexity while remaining verifiable, enabling reliable creation and labelling of fresh difficult tasks at the boundary of intelligence. Evaluating 16 frontier models with VeRA, we find: (i) VeRA-E improves evaluation quality and reveals contamination patterns. (ii) VeRA-H enables human-free generation of hard tasks with reliable labels. (iii) VeRA establishes verified benchmarks as a general paradigm. VeRA reconceptualizes benchmarks from static objects used until exhausted, to executable specifications generating fresh, verified instances on demand, enhancing robustness and cost-effectiveness for evaluation. With VeRA, we envision that evaluation in any verifiable domain can scale indefinitely without sacrificing label integrity. To stimulate future research, we have open-sourced all code and datasets.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.