지시 따르기 해체: 거대언어모델의 지시 준수 능력에 대한 세부 평가를 위한 새로운 벤치마크
Deconstructing Instruction-Following: A New Benchmark for Granular Evaluation of Large Language Model Instruction Compliance Abilities
거대언어모델(LLM)이 복잡한 지시를 확실히 따르도록 보장하는 것은 중요한 과제이나, 기존 벤치마크들은 실제 사용 사례를 반영하지 못하거나 지시 준수 여부를 과업의 성공과 분리해내지 못하는 경우가 많다. 본 연구에서는 이 능력을 세밀하고 독립적으로 분석하기 위해, 최대 20개의 응용 중심 생성 제약 조건을 포함하는 동적 생성 데이터셋을 활용한 모듈형 프레임워크인 MOSAIC(MOdular Synthetic Assessment of Instruction Compliance)를 소개한다. 이 새로운 벤치마크를 바탕으로 서로 다른 계열의 5개 LLM을 평가한 결과, 지시 준수 능력은 단일한 역량이 아니며 제약 조건의 유형, 개수, 위치에 따라 크게 달라짐을 입증했다. 분석 결과 모델별 고유한 약점, 지시 간의 시너지 및 상충 작용, 그리고 초두 효과와 최신 효과 같은 뚜렷한 위치 편향이 드러났다. 이러한 세부적인 통찰은 모델의 실패를 진단하고, 복잡한 지시에 대한 엄격한 준수가 요구되는 시스템을 위해 더욱 신뢰할 수 있는 LLM을 개발하는 데 필수적이다.
Reliably ensuring Large Language Models (LLMs) follow complex instructions is a critical challenge, as existing benchmarks often fail to reflect real-world use or isolate compliance from task success. We introduce MOSAIC (MOdular Synthetic Assessment of Instruction Compliance), a modular framework that uses a dynamically generated dataset with up to 20 application-oriented generation constraints to enable a granular and independent analysis of this capability. Our evaluation of five LLMs from different families based on this new benchmark demonstrates that compliance is not a monolithic capability but varies significantly with constraint type, quantity, and position. The analysis reveals model-specific weaknesses, uncovers synergistic and conflicting interactions between instructions, and identifies distinct positional biases such as primacy and recency effects. These granular insights are critical for diagnosing model failures and developing more reliable LLMs for systems that demand strict adherence to complex instructions.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.