OPT-IML: 일반화의 관점을 통한 언어 모델 지시 메타 학습의 확장
OPT-IML: Scaling Language Model Instruction Meta Learning through the Lens of Generalization
최근 연구에 따르면 대규모 사전 학습 언어 모델을 지시문(instruction)으로 설명된 작업 모음에 대해 미세 조정(일명 지시 튜닝)하면 보지 못한 작업에 대한 제로샷 및 퓨샷 일반화 성능이 향상되는 것으로 나타났습니다. 그러나 지시 튜닝 과정에서 이루어지는 다양한 결정에 따른 성능 트레이드오프에 대한 이해는 제한적입니다. 이러한 결정에는 지시 튜닝 벤치마크의 규모와 다양성, 다양한 작업 샘플링 전략, 예시(demonstration) 유무에 따른 미세 조정, 추론 및 대화를 위한 특화 데이터셋을 사용한 훈련, 그리고 미세 조정 목표 자체가 포함됩니다. 본 논문에서는 모델과 벤치마크 크기를 모두 확장할 때 지시 튜닝 결정이 다운스트림 작업 성능에 미치는 영향을 규명합니다. 이를 위해 8개의 기존 벤치마크에서 작업 범주로 통합된 2,000개의 NLP 작업을 포함하는 대규모 지시 메타 학습(IML) 벤치마크인 OPT-IML Bench를 구축하고, 세 가지 유형의 모델 일반화를 측정하기 위한 평가 프레임워크를 마련했습니다. 세 가지 유형은 완전히 제외된(held-out) 범주의 작업에 대한 일반화, 본 범주 내의 제외된 작업에 대한 일반화, 그리고 본 작업 내의 제외된 인스턴스에 대한 일반화입니다. 이 프레임워크의 관점에서 먼저 OPT-30B에 적용된 지시 튜닝 결정에 대한 통찰력을 제시하고, 이 통찰력을 활용하여 OPT의 지시 튜닝 버전인 OPT-IML 30B와 175B를 훈련합니다. OPT-IML은 다양한 작업과 입력 형식을 가진 4가지 평가 벤치마크(PromptSource, FLAN, Super-NaturalInstructions, UnifiedSKG)에서 두 가지 규모 모두에 대해 세 가지 일반화 능력을 모두 입증했습니다. 이는 모든 벤치마크에서 OPT의 성능을 크게 능가할 뿐만 아니라 각 특정 벤치마크에 대해 미세 조정된 기존 모델과 비교해서도 높은 경쟁력을 보입니다. 우리는 두 가지 규모의 OPT-IML과 OPT-IML Bench 평가 프레임워크를 함께 공개합니다.
Recent work has shown that fine-tuning large pre-trained language models on a collection of tasks described via instructions, a.k.a. instruction-tuning, improves their zero and few-shot generalization to unseen tasks. However, there is a limited understanding of the performance trade-offs of different decisions made during the instruction-tuning process. These decisions include the scale and diversity of the instruction-tuning benchmark, different task sampling strategies, fine-tuning with and without demonstrations, training using specialized datasets for reasoning and dialogue, and finally, the fine-tuning objectives themselves. In this paper, we characterize the effect of instruction-tuning decisions on downstream task performance when scaling both model and benchmark sizes. To this end, we create OPT-IML Bench: a large benchmark for Instruction Meta-Learning (IML) of 2000 NLP tasks consolidated into task categories from 8 existing benchmarks, and prepare an evaluation framework to measure three types of model generalizations: to tasks from fully held-out categories, to held-out tasks from seen categories, and to held-out instances from seen tasks. Through the lens of this framework, we first present insights about instruction-tuning decisions as applied to OPT-30B and further exploit these insights to train OPT-IML 30B and 175B, which are instruction-tuned versions of OPT. OPT-IML demonstrates all three generalization abilities at both scales on four different evaluation benchmarks with diverse tasks and input formats -- PromptSource, FLAN, Super-NaturalInstructions, and UnifiedSKG. Not only does it significantly outperform OPT on all benchmarks but is also highly competitive with existing models fine-tuned on each specific benchmark. We release OPT-IML at both scales, together with the OPT-IML Bench evaluation framework.
AI Analysis
Korean Summary
Key Innovations
- 8개의 벤치마크를 통합하여 2,000개 태스크로 구성된 대규모 인스트럭션 튜닝 데이터셋 'OPT-IML Bench' 구축
- 모델의 성능을 '완전 미지 카테고리(Fully Held-out)', '학습된 카테고리 내 미지 태스크(Partially Supervised)', '학습된 태스크(Fully Supervised)'의 세 가지 일반화 레벨로 나누어 평가하는 프레임워크 도입
- 태스크 믹싱 비율 제한(EPS), 사슬형 추론(CoT) 데이터 추가, 사전 학습 데이터 혼합 등 다양한 튜닝 전략에 대한 광범위한 절제 연구(Ablation Study) 수행
- 실험적 통찰을 바탕으로 튜닝된 고성능 OPT-IML 30B 및 175B 모델 공개
Learning & Inference Impact
학습 단계에서는 태스크 간 데이터 불균형을 해소하기 위해 예제 비례 샘플링에 상한선(EPS)을 두는 것이 중요하며, 전체 데이터의 약 5% 정도를 원본 사전 학습(Pre-training) 코퍼스로 채우는 것이 학습 안정성과 성능 유지에 도움이 된다는 것을 발견했습니다. 또한 명시적인 추론(Reasoning) 데이터셋을 추가하면 관련 태스크 성능이 향상되지만, 데모 예제를 포함해 학습하는 Meta-ICL 방식은 생성 태스크의 출력 형식을 저해할 수 있어 최종 모델에서는 제외되었습니다. 추론 단계에서 OPT-IML 모델은 이러한 학습 과정을 통해 훈련 데이터에 포함되지 않은 새로운 유형의 태스크나 지시사항에 대해서도 문맥을 파악하고 적절한 응답을 생성하는 능력이 대폭 향상되었습니다.
Technical Difficulty
Estimated implementation complexity based on methodology.