LongBench Pro: 더욱 현실적이고 포괄적인 양방향 장문 맥락 평가 벤치마크
LongBench Pro: A More Realistic and Comprehensive Bilingual Long-Context Evaluation Benchmark
대규모 언어 모델(LLM)의 맥락 길이 급증은 기존 평가 벤치마크의 발전을 앞지르고 있습니다. 현재의 장문 맥락 벤치마크는 종종 확장성과 현실성 간의 균형을 맞추기 어려운데, 인공적인 작업은 실제 세계의 복잡성을 제대로 반영하지 못하고, 완전 수동 어노테이션은 극단적인 길이와 다양한 시나리오에 맞게 확장하는 데 비용이 많이 듭니다. 본 논문에서는 11개의 주요 작업과 25개의 부가 작업에 걸쳐 8k에서 256k 토큰 길이의 1,500개 자연 발생적인 장문 맥락 샘플을 포함하는, 더욱 현실적이고 포괄적인 양방향 벤치마크인 LongBench Pro를 소개합니다. LongBench Pro는 작업별 지표와 맥락 요구 사항(전체 vs. 부분 의존), 길이(6단계), 난이도(모델 성능에 의해 조정된 4단계)의 다차원 분류를 통해 세밀한 분석을 지원합니다. 품질과 확장성을 균형 있게 유지하기 위해, 우리는 Human-Model Collaborative Construction 파이프라인을 제안합니다. 선도적인 LLM이 어려운 질문과 참고 답변, 설계 이유 및 해결 과정을 초안으로 작성하여 전문가 검증 비용을 절감합니다. 전문가들은 정확성을 엄격하게 검증하고 문제 있는 사례를 개선합니다. LongBench Pro를 사용하여 널리 사용되는 46개의 장문 맥락 LLM을 평가한 결과, 세 가지 주요 결과를 얻었습니다. (1) 장문 맥락 최적화는 매개변수 확장보다 장문 맥락 이해에 더 큰 기여를 합니다. (2) 효과적인 맥락 길이는 일반적으로 주장된 맥락 길이보다 짧으며, 언어 간 불일치가 두드러집니다. (3) "사고(thinking)" 패러다임은 주로 네이티브 추론으로 훈련된 모델에 도움이 되며, 혼합 사고 설계는 유망한 파레토 절충점을 제공합니다. 요약하자면, LongBench Pro는 장문 맥락 이해를 발전시키는 데 유용한 테스트 환경을 제공합니다.
The rapid expansion of context length in large language models (LLMs) has outpaced existing evaluation benchmarks. Current long-context benchmarks often trade off scalability and realism: synthetic tasks underrepresent real-world complexity, while fully manual annotation is costly to scale to extreme lengths and diverse scenarios. We present LongBench Pro, a more realistic and comprehensive bilingual benchmark of 1,500 naturally occurring long-context samples in English and Chinese spanning 11 primary tasks and 25 secondary tasks, with input lengths from 8k to 256k tokens. LongBench Pro supports fine-grained analysis with task-specific metrics and a multi-dimensional taxonomy of context requirement (full vs. partial dependency), length (six levels), and difficulty (four levels calibrated by model performance). To balance quality with scalability, we propose a Human-Model Collaborative Construction pipeline: frontier LLMs draft challenging questions and reference answers, along with design rationales and solution processes, to reduce the cost of expert verification. Experts then rigorously validate correctness and refine problematic cases. Evaluating 46 widely used long-context LLMs on LongBench Pro yields three findings: (1) long-context optimization contributes more to long-context comprehension than parameter scaling; (2) effective context length is typically shorter than the claimed context length, with pronounced cross-lingual misalignment; and (3) the "thinking" paradigm helps primarily models trained with native reasoning, while mixed-thinking designs offer a promising Pareto trade-off. In summary, LongBench Pro provides a robust testbed for advancing long-context understanding.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.