2601.18554v1 Jan 26, 2026 cs.AI

지시 따르기 해체: 거대언어모델의 지시 준수 능력에 대한 세부 평가를 위한 새로운 벤치마크

Deconstructing Instruction-Following: A New Benchmark for Granular Evaluation of Large Language Model Instruction Compliance Abilities

Alberto Purpura
Alberto Purpura
Citations: 1
h-index: 1
Li Wang
Li Wang
Citations: 8
h-index: 2
Sahil Badyal
Sahil Badyal
Citations: 89
h-index: 4
Eugenio Beaufrand
Eugenio Beaufrand
Citations: 1
h-index: 1
Adam Faulkner
Adam Faulkner
Citations: 1
h-index: 1

거대언어모델(LLM)이 복잡한 지시를 확실히 따르도록 보장하는 것은 중요한 과제이나, 기존 벤치마크들은 실제 사용 사례를 반영하지 못하거나 지시 준수 여부를 과업의 성공과 분리해내지 못하는 경우가 많다. 본 연구에서는 이 능력을 세밀하고 독립적으로 분석하기 위해, 최대 20개의 응용 중심 생성 제약 조건을 포함하는 동적 생성 데이터셋을 활용한 모듈형 프레임워크인 MOSAIC(MOdular Synthetic Assessment of Instruction Compliance)를 소개한다. 이 새로운 벤치마크를 바탕으로 서로 다른 계열의 5개 LLM을 평가한 결과, 지시 준수 능력은 단일한 역량이 아니며 제약 조건의 유형, 개수, 위치에 따라 크게 달라짐을 입증했다. 분석 결과 모델별 고유한 약점, 지시 간의 시너지 및 상충 작용, 그리고 초두 효과와 최신 효과 같은 뚜렷한 위치 편향이 드러났다. 이러한 세부적인 통찰은 모델의 실패를 진단하고, 복잡한 지시에 대한 엄격한 준수가 요구되는 시스템을 위해 더욱 신뢰할 수 있는 LLM을 개발하는 데 필수적이다.

Original Abstract

Reliably ensuring Large Language Models (LLMs) follow complex instructions is a critical challenge, as existing benchmarks often fail to reflect real-world use or isolate compliance from task success. We introduce MOSAIC (MOdular Synthetic Assessment of Instruction Compliance), a modular framework that uses a dynamically generated dataset with up to 20 application-oriented generation constraints to enable a granular and independent analysis of this capability. Our evaluation of five LLMs from different families based on this new benchmark demonstrates that compliance is not a monolithic capability but varies significantly with constraint type, quantity, and position. The analysis reveals model-specific weaknesses, uncovers synergistic and conflicting interactions between instructions, and identifies distinct positional biases such as primacy and recency effects. These granular insights are critical for diagnosing model failures and developing more reliable LLMs for systems that demand strict adherence to complex instructions.

1 Citations
0 Influential
2 Altmetric
11.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!