GSM-SEM: 의미적으로 다양한 증강 데이터를 생성하기 위한 벤치마크 및 프레임워크
GSM-SEM: Benchmark and Framework for Generating Semantically Variant Augmentations
GSM8K과 같은 벤치마크는 수학적 추론 능력을 측정하는 데 널리 사용되지만, 리더보드 순위 상승은 고정된 테스트 세트에 대한 암기 때문에 실제 능력보다 과장될 수 있습니다. 대부분의 견고성 변형은 표면 수준의 변경(재구성, 이름 변경, 숫자 교환, 방해 요소)을 적용하는데, 이는 대부분 근본적인 사실을 유지합니다. 정적인 릴리스 자체가 시간이 지남에 따라 암기의 대상이 될 수 있습니다. 우리는 재사용 가능하고 확률적인 프레임워크인 GSM-SEM을 소개합니다. GSM-SEM은 이전 접근 방식보다 훨씬 더 높은 의미적 다양성을 가진 벤치마크 변형을 생성합니다. GSM-SEM은 개체, 속성 및/또는 관계를 수정하여 문제 설명을 변경함으로써 생성됩니다. 이는 종종 근본적인 사실을 변경하고 모델이 새로운 조건에서 솔루션을 재계산하도록 요구하며, 원래 계산/답을 유지하고 문제의 난이도를 근사화하도록 생성 과정을 제한합니다. GSM-SEM은 재-주석 없이 실행할 때마다 새로운 변형을 생성하여 평가를 위한 정적인 공개 벤치마크에 대한 의존성을 줄이고, 따라서 암기로 인한 편향을 줄입니다. 우리는 GSM-SEM을 GSM8K 및 기존 변형 세트(GSM-Symbolic 및 GSM-Plus)에 적용하여 GSM8K-SEM, GSM-Symbolic-SEM 및 GSM-Plus-SEM을 생성했습니다. 14개의 최첨단 LLM을 평가한 결과, 의미적 변경이 기호/플러스 변형과 결합될 때 성능이 일관적으로 감소하며, 특히 GSM-SEM의 가장 엄격한 구성에서 평균 28%의 감소가 관찰되었습니다. 우리는 세 가지 SEM 변형을 완전히 검증된 데이터 세트로 공개합니다. 마지막으로, GSM 스타일의 수학 문제 외에 적용 가능성을 보여주기 위해 GSM-SEM을 BigBenchHard, LogicBench 및 NLR-BIRD와 같은 추가 벤치마크에 적용했습니다.
Benchmarks like GSM8K are popular measures of mathematical reasoning, but leaderboard gains can overstate true capability due to memorization of fixed test sets. Most robustness variants apply surface-level perturbations (paraphrases, renamings, number swaps, distractors) that largely preserve the underlying facts, and static releases can themselves become memorization targets over time. We introduce GSM-SEM, a reusable and stochastic framework for generating semantically diverse benchmark variants with substantially higher semantic variance than prior approaches. GSM-SEM perturbs problem statements by modifying entities, attributes, and/or relationships, frequently altering underlying facts and requiring models to recompute solutions under new conditions, while constraining generation to preserve the original calculations/answer and approximate problem difficulty. GSM-SEM generates fresh variants on each run without requiring re-annotation, reducing reliance on static public benchmarks for evaluation and thereby lowering the bias of memorization. We apply GSM-SEM on GSM8K and two existing variation suites (GSM-Symbolic and GSM-Plus), producing GSM8K-SEM, GSM-Symbolic-SEM, and GSM-Plus-SEM. Evaluating 14 SOTA LLMs, we observe consistent performance drops with larger decline when semantic perturbations are coupled with symbolic/plus variations (average drop rate 28% in maximum strictness configuration of GSM-SEM). We publicly release the three SEM variants as fully human-validated datasets. Finally, to demonstrate applicability beyond GSM-style math problems, we apply GSM-SEM to additional benchmarks including BigBenchHard, LogicBench, and NLR-BIRD.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.