Noteworthy Papers 2013 - 2025
A curated timeline of the most influential and popular papers in our collection, highlighting the evolution of research over the years.
2025
DeepSeek-R1: 강화 학습을 통한 대규모 언어 모델(LLM)의 추론 능력 유도 DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
일반적인 추론 능력은 인공지능 분야에서 오랫동안 해결하기 어려운 난제였다. 대규모 언어 모델(LLM)과 생각의 사슬(Chain-of-Thought) 프롬프팅으로 대표되는 최근의 기술적 혁신은 기초적인 추론 작업에서 상당한 성공을 거두었다. 그러나 이러한 성공은 사람이 직접 주석을 단 방대한 시연 데이터에 크게 의존하고 있으며, 더 복잡한 문제에 대한 모델의 능력은 여전히 부족하다. 본 연구에서는 사람이 라벨링한 추론 궤적 없이도 순수 강화 학습(RL)을 통해 LLM의 추론 능력을 유도할 수 있음을 보여준다. 제안된 RL 프레임워크는 자기 성찰, 검증, 동적 전략 적응과 같은 고도화된 추론 패턴의 창발적 발전을 촉진한다. 결과적으로 훈련된 모델은 수학, 코딩 대회, STEM 분야 등 검증 가능한 작업에서 우수한 성능을 달성하였으며, 사람의 시연을 기반으로 한 기존의 지도 학습 방식으로 훈련된 모델들의 성능을 능가했다. 또한, 이러한 대규모 모델에서 나타난 창발적 추론 패턴은 더 작은 모델들의 추론 능력을 지도하고 향상시키는 데 체계적으로 활용될 수 있다.
Qwen3 기술 보고서 Qwen3 Technical Report
본 연구에서는 Qwen 모델 제품군의 최신 버전인 Qwen3를 소개합니다. Qwen3는 성능, 효율성 및 다국어 기능을 향상시키기 위해 설계된 일련의 대형 언어 모델(LLM)로 구성됩니다. Qwen3 시리즈에는 0.6에서 2,350억 사이의 매개변수 규모를 가진 밀집(dense) 아키텍처와 전문가 혼합(MoE) 아키텍처 모델이 모두 포함됩니다. Qwen3의 핵심 혁신은 사고 모드(복잡한 다단계 추론용)와 비사고 모드(빠른 문맥 기반 응답용)를 통합된 프레임워크에 결합한 것입니다. 이는 채팅 최적화 모델(예: GPT-4o)과 전용 추론 모델(예: QwQ-32B)과 같이 서로 다른 모델 간에 전환할 필요를 없애고, 사용자 쿼리나 채팅 템플릿에 따라 동적 모드 전환을 가능하게 합니다. 한편, Qwen3는 사고 예산(thinking budget) 메커니즘을 도입하여 사용자가 추론 중에 계산 리소스를 적응적으로 할당할 수 있게 함으로써, 작업 복잡성에 따라 지연 시간과 성능의 균형을 맞춥니다. 또한, 플래그십 모델의 지식을 활용하여 소규모 모델 구축에 필요한 계산 리소스를 크게 줄이면서도 매우 경쟁력 있는 성능을 보장합니다. 실증적 평가 결과, Qwen3는 코드 생성, 수학적 추론, 에이전트 작업 등 다양한 벤치마크에서 최첨단(SOTA) 결과를 달성했으며, 더 큰 MoE 모델 및 독점 모델과 견줄 만한 성능을 보여줍니다. 이전 버전인 Qwen2.5와 비교하여 Qwen3는 다국어 지원을 29개에서 119개 언어 및 방언으로 확장하였으며, 향상된 교차 언어 이해 및 생성 능력을 통해 글로벌 접근성을 강화했습니다. 재현성과 커뮤니티 주도의 연구 개발을 촉진하기 위해, 모든 Qwen3 모델은 Apache 2.0 라이선스 하에 공개적으로 액세스할 수 있습니다.
Kimi k1.5: LLM을 활용한 강화학습 확장 Kimi k1.5: Scaling Reinforcement Learning with LLMs
다음 토큰 예측을 통한 언어 모델 사전 학습은 연산 규모를 확장하는 데 효과적임이 입증되었으나, 사용 가능한 훈련 데이터의 양에 의해 제한을 받습니다. 강화학습(RL)의 확장은 인공지능의 지속적인 발전을 위한 새로운 축을 열어주며, 대규모 언어 모델(LLM)이 보상을 통한 탐색을 학습함으로써 스스로 훈련 데이터를 확장할 수 있다는 가능성을 제시합니다. 그러나 기존에 발표된 연구들은 경쟁력 있는 결과를 보여주지 못했습니다. 이러한 배경에서, 우리는 RL로 훈련된 최신 멀티모달 LLM인 Kimi k1.5의 훈련 사례를 보고하며, 여기에는 RL 훈련 기법, 멀티모달 데이터 구성법, 인프라 최적화가 포함됩니다. 긴 문맥(long context) 확장과 개선된 정책 최적화 방법은 우리 접근 방식의 핵심 요소로, 몬테카를로 트리 탐색, 가치 함수, 과정 보상 모델(process reward models)과 같은 복잡한 기술에 의존하지 않고도 단순하고 효과적인 RL 프레임워크를 구축합니다. 특히 우리 시스템은 다양한 벤치마크와 모달리티(예: AIME 77.5점, MATH 500 96.2점, Codeforces 상위 6%, MathVista 74.9점)에서 최첨단(SOTA) 추론 성능을 달성하여 OpenAI의 o1과 대등한 수준을 보입니다. 또한, 우리는 긴 사고 사슬(long-CoT) 기술을 활용하여 짧은 사고 사슬(short-CoT) 모델을 개선하는 효과적인 'long2short' 방법론을 제시합니다. 이는 최고 수준의 short-CoT 추론 결과(예: AIME 60.8점, MATH500 94.6점, LiveCodeBench 47.3점)를 기록하며, GPT-4o나 Claude Sonnet 3.5와 같은 기존 short-CoT 모델들을 큰 격차(최대 +550%)로 능가합니다.
AI 효율성의 전환: 모델 중심에서 데이터 중심 압축으로 Shifting AI Efficiency From Model-Centric to Data-Centric Compression
대규모 언어 모델(LLM)과 멀티모달 LLM(MLLM)의 발전은 역사적으로 모델 파라미터를 확장하는 것에 의존해 왔습니다. 그러나 하드웨어의 한계가 추가적인 모델 성장을 제약함에 따라, 주요 연산 병목 현상은 초장문 텍스트 문맥, 고해상도 이미지, 그리고 긴 비디오로 인해 점점 길어지는 시퀀스에 대한 셀프 어텐션의 이차적(quadratic) 비용으로 이동했습니다. 본 포지션 페이퍼에서, 우리는 효율적인 인공지능(AI)을 위한 연구의 초점이 모델 중심 압축에서 데이터 중심 압축으로 이동하고 있다고 주장합니다. 우리는 데이터 중심 압축을 모델 훈련이나 추론 중에 처리되는 데이터의 양을 직접 압축하여 AI 효율성을 향상시키는 부상하는 패러다임으로 정의합니다. 이러한 변화를 체계화하기 위해, 우리는 기존의 효율성 전략들을 위한 통합 프레임워크를 수립하고, 이것이 왜 긴 문맥 AI를 위한 중요한 패러다임 변화인지를 입증합니다. 그런 다음 데이터 중심 압축 방법론의 현황을 체계적으로 검토하고, 다양한 시나리오에 걸친 이점을 분석합니다. 마지막으로, 우리는 주요 과제와 유망한 향후 연구 방향을 개략적으로 설명합니다. 우리의 연구는 AI 효율성에 대한 새로운 관점을 제공하고, 기존의 노력들을 종합하며, 계속해서 증가하는 문맥 길이로 인해 발생하는 문제들을 해결하기 위한 혁신을 촉진하는 것을 목표로 합니다.
2024
Gemma: Gemini 연구 및 기술을 기반으로 한 오픈 모델 Gemma: Open Models Based on Gemini Research and Technology
본 연구에서는 Gemini 모델을 만드는 데 사용된 연구 및 기술을 바탕으로 구축된 경량의 최첨단 오픈 모델 제품군인 Gemma를 소개합니다. Gemma 모델은 언어 이해, 추론 및 안전성에 대한 학술 벤치마크 전반에서 강력한 성능을 보여줍니다. 우리는 두 가지 크기(20억 및 70억 매개변수)의 모델을 공개하며, 사전 학습된 체크포인트와 미세 조정된 체크포인트를 모두 제공합니다. Gemma는 18개의 텍스트 기반 작업 중 11개에서 유사한 크기의 오픈 모델보다 뛰어난 성능을 보이며, 모델 개발에 대한 상세한 설명과 함께 모델의 안전성 및 책임성 측면에 대한 포괄적인 평가를 제시합니다. 우리는 책임감 있는 LLM 공개가 프런티어 모델의 안전성을 개선하고 차세대 LLM 혁신을 가능하게 하는 데 중요하다고 믿습니다.
중요한 사회적 영역을 위한 대규모 언어 모델 조사: 금융, 의료, 법률 A Survey on Large Language Models for Critical Societal Domains: Finance, Healthcare, and Law
빠르게 진화하는 인공지능 분야에서 GPT-3 및 GPT-4와 같은 대규모 언어 모델(LLM)은 전문 지식에 대한 의존도, 까다로운 데이터 확보, 높은 리스크(high-stakes), 그리고 엄격한 규제 준수가 특징인 금융, 의료, 법률 분야의 지형을 혁신하고 있다. 본 조사는 이러한 핵심 분야 내에서 LLM의 방법론, 응용, 과제 및 미래의 기회에 대해 상세히 고찰한다. 우리는 의료 분야의 진단 및 치료 방법론 향상, 금융 분석의 혁신, 법적 해석 및 규제 준수 전략의 정교화에 있어 LLM이 수행하는 도구적 역할을 강조한다. 나아가 이들 분야에서의 LLM 적용 윤리를 비판적으로 검토하여, 현존하는 윤리적 우려 사항들과 규범을 준수하는 투명하고 공정하며 견고한 AI 시스템의 필요성을 지적한다. 최신 문헌과 실제 응용 사례를 포괄적으로 검토함으로써 LLM의 변혁적 영향을 조명하고, 학제 간 협력, 방법론적 진보, 그리고 윤리적 경계의 필수성을 역설한다. 이를 통해 정밀성이 요구되는 해당 분야에서 LLM의 위험을 완화하고 이점을 극대화하는 연구를 촉진하고 논의를 점화하고자 한다. 마지막으로, 이러한 중요한 사회적 영역에서의 LLM 연구를 돕기 위해 관련 최신 연구 동향을 추적하는 리딩 리스트를 제공하며, 이는 지속적으로 업데이트될 예정이다: https://github.com/czyssrs/LLM_X_papers
인공지능 기반 헬스케어: 공정성 확보 및 편향 완화에 관한 고찰 AI-Driven Healthcare: A Review on Ensuring Fairness and Mitigating Bias
인공지능(AI)은 헬스케어 분야에서 급속도로 발전하고 있으며, 심장내과, 안과, 피부과, 응급의학 등 다양한 전문 분야에 걸쳐 의료 서비스의 효율성과 효과를 향상시키고 있다. AI 애플리케이션은 머신러닝, 신경망, 자연어 처리 기술을 활용하여 진단 정확도, 치료 개인화, 환자 예후 예측을 획기적으로 개선했다. 그러나 이러한 발전은 데이터와 알고리즘의 편향과 관련된 심각한 윤리적 및 공정성 문제를 야기하기도 한다. 이러한 편향은 의료 서비스 제공의 불평등을 초래하여, 다양한 인구 통계학적 집단 간의 진단 정확도와 치료 결과에 악영향을 미칠 수 있다. 본 고찰 논문은 헬스케어 분야의 AI 도입 현황을 검토하고, 편향과 관련된 주요 과제를 강조하며 이를 완화하기 위한 전략을 탐색한다. 저자들은 공평한 의료 서비스 제공을 보장하기 위해 다양한 데이터셋 구축, 공정성을 고려한 알고리즘 개발, 그리고 적절한 규제 프레임워크의 필요성을 강조한다. 마지막으로 학제간 접근 방식, AI 의사결정 과정의 투명성 확보, 혁신적이고 포용적인 AI 애플리케이션 개발을 촉구하며 향후 연구 방향을 제언한다.
2023
GPT-4 기술 보고서 GPT-4 Technical Report
우리는 이미지와 텍스트 입력을 받아 텍스트를 출력할 수 있는 대규모 멀티모달 모델인 GPT-4의 개발에 대해 보고한다. GPT-4는 많은 현실 시나리오에서 인간보다 능력이 부족하지만, 모의 변호사 시험에서 응시자 상위 10% 내외의 점수로 합격하는 등 다양한 전문 및 학술 벤치마크에서 인간 수준의 성능을 보여준다. GPT-4는 문서 내의 다음 토큰을 예측하도록 사전 학습된 트랜스포머 기반 모델이다. 학습 후 정렬(alignment) 과정을 통해 사실성 및 원하는 행동 준수 척도에서의 성능이 향상되었다. 이 프로젝트의 핵심 요소는 광범위한 규모에 걸쳐 예측 가능하게 동작하는 인프라와 최적화 방법을 개발하는 것이었다. 이를 통해 우리는 GPT-4에 사용된 연산량의 1,000분의 1도 안 되는 모델들을 기반으로 GPT-4 성능의 일부 측면을 정확히 예측할 수 있었다.
대규모 언어 모델 조사 A Survey of Large Language Models
언어는 본질적으로 문법 규칙에 의해 지배되는 복잡하고 정교한 인간 표현 체계이다. 언어를 이해하고 파악할 수 있는 유능한 AI 알고리즘을 개발하는 것은 중요한 도전 과제이다. 주요 접근 방식으로서, 언어 모델링은 지난 20년 동안 통계적 언어 모델에서 신경망 언어 모델로 진화하며 언어 이해 및 생성을 위해 널리 연구되어 왔다. 최근에는 대규모 말뭉치에 대해 트랜스포머(Transformer) 모델을 사전 학습시켜 다양한 NLP 작업을 해결하는 데 강력한 성능을 보여주는 사전 학습된 언어 모델(PLM)이 제안되었다. 연구자들은 모델 확장이 성능 향상으로 이어질 수 있음을 발견한 이후, 모델 크기를 더욱 크게 늘려 확장 효과를 추가로 연구하고 있다. 흥미롭게도 매개변수 규모가 특정 수준을 초과하면, 이렇게 확장된 언어 모델은 상당한 성능 향상을 달성할 뿐만 아니라 소규모 언어 모델에는 존재하지 않았던 특별한 능력들을 보여준다. 매개변수 규모의 차이를 구별하기 위해 연구 커뮤니티에서는 상당한 크기의 PLM에 대해 대규모 언어 모델(LLM)이라는 용어를 만들었다. 최근 학계와 산업계 모두에서 LLM에 대한 연구가 크게 진전되었으며, 사회적으로 큰 관심을 끈 ChatGPT의 출시가 놀라운 성과의 하나이다. LLM의 기술적 진화는 전체 AI 커뮤니티에 중요한 영향을 미치고 있으며, 이는 우리가 AI 알고리즘을 개발하고 사용하는 방식을 혁신할 것이다. 이 조사에서는 배경, 주요 발견 및 주류 기술을 소개함으로써 LLM의 최근 발전 사항을 검토한다. 특히 우리는 LLM의 네 가지 주요 측면, 즉 사전 학습, 적응 튜닝, 활용, 능력 평가에 중점을 둔다. 또한, LLM 개발을 위해 사용 가능한 자원을 요약하고 향후 방향에 대해 남아있는 문제들을 논의한다.
BloombergGPT: 금융 분야를 위한 대형 언어 모델 BloombergGPT: A Large Language Model for Finance
금융 기술 분야에서 자연어 처리(NLP)의 활용은 감성 분석과 개체명 인식부터 질의응답에 이르기까지 광범위하고 복잡합니다. 대형 언어 모델(LLM)은 다양한 작업에서 효과적임이 입증되었으나, 금융 도메인에 특화된 LLM은 문헌에 보고된 바 없습니다. 본 연구에서는 광범위한 금융 데이터로 학습된 500억 파라미터 규모의 언어 모델인 BloombergGPT를 제시합니다. 우리는 블룸버그의 방대한 데이터 소스를 기반으로 3,630억 토큰 규모의 데이터셋을 구축했는데, 이는 아마도 현재까지 가장 큰 도메인 특화 데이터셋일 것입니다. 여기에 범용 데이터셋의 3,450억 토큰을 추가하여 데이터셋을 증강했습니다. 우리는 표준 LLM 벤치마크, 공개된 금융 벤치마크, 그리고 우리의 의도된 사용 용도를 가장 정확하게 반영하는 일련의 내부 벤치마크를 통해 BloombergGPT를 검증합니다. 혼합 데이터셋 훈련을 통해 일반 LLM 벤치마크 성능을 저하시키지 않으면서도 금융 작업에서 기존 모델을 큰 폭으로 능가하는 모델을 도출했습니다. 또한, 모델링 선택, 훈련 과정 및 평가 방법론을 설명합니다. 마지막으로 BloombergGPT 훈련 경험을 상세히 담은 '학습 기록(Training Chronicles, 부록 C)'을 공개합니다.
CodeGeeX: HumanEval-X 다국어 벤치마킹을 통한 코드 생성 사전 학습 모델 CodeGeeX: A Pre-Trained Model for Code Generation with Multilingual Benchmarking on HumanEval-X
OpenAI Codex와 같은 대규모 사전 학습 코드 생성 모델은 문법 및 기능적으로 정확한 코드를 생성할 수 있어 프로그래머의 생산성을 높이고 범용 인공지능(AGI)의 실현을 앞당기고 있다. 본 논문에서는 130억 개의 파라미터를 가진 다국어 코드 생성 모델인 CodeGeeX를 소개한다. CodeGeeX는 2022년 6월 기준으로 23개 프로그래밍 언어의 8,500억 개 토큰에 대해 사전 학습되었다. 광범위한 실험 결과, CodeGeeX는 HumanEval-X 벤치마크의 코드 생성 및 번역 작업 모두에서 유사한 규모의 다국어 코드 모델보다 뛰어난 성능을 보였다. 우리는 파이썬 전용인 HumanEval을 기반으로, 다국어 모델 평가를 위해 C++, Java, JavaScript, Go로 솔루션을 직접 작성하여 HumanEval-X 벤치마크를 개발했다. 또한 Visual Studio Code, JetBrains, Cloud Studio용 CodeGeeX 기반 확장 프로그램을 구축하여 매주 수만 명의 활성 사용자를 위해 47억 개의 토큰을 생성하고 있다. 사용자 연구에 따르면 CodeGeeX는 83.4%의 사용자에게 코딩 효율성 향상에 도움을 주는 것으로 나타났다. 마지막으로, CodeGeeX는 공개적으로 사용 가능하며, 2022년 9월에 코드, 모델 가중치(8,500억 토큰 학습 버전), API, 확장 프로그램 및 HumanEval-X를 https://github.com/THUDM/CodeGeeX에 오픈 소스로 공개했다.
Code Llama: 코드를 위한 개방형 파운데이션 모델 Code Llama: Open Foundation Models for Code
우리는 Llama 2를 기반으로 하는 코드용 대규모 언어 모델 제품군인 Code Llama를 공개합니다. 이 모델은 개방형 모델 중 최고 수준의 성능, 인필링(infilling) 기능, 대규모 입력 컨텍스트 지원, 그리고 프로그래밍 작업에 대한 제로샷 지시 따르기(zero-shot instruction following) 능력을 제공합니다. 우리는 광범위한 응용 분야를 지원하기 위해 파운데이션 모델(Code Llama), 파이썬 특화 모델(Code Llama - Python), 지시 따르기 모델(Code Llama - Instruct) 등 다양한 버전을 제공하며, 각각 7B, 13B, 34B, 70B 파라미터 모델로 구성됩니다. 모든 모델은 16k 토큰 시퀀스로 학습되었으며, 최대 100k 토큰의 입력에서도 향상된 성능을 보여줍니다. 7B, 13B, 70B의 Code Llama 및 Code Llama - Instruct 모델은 주변 내용을 기반으로 한 인필링 기능을 지원합니다. Code Llama는 여러 코드 벤치마크에서 개방형 모델 중 최고 수준의 성능을 달성했으며, HumanEval과 MBPP에서 각각 최대 67%와 65%의 점수를 기록했습니다. 특히 Code Llama - Python 7B는 HumanEval과 MBPP에서 Llama 2 70B를 능가하며, 우리의 모든 모델은 MultiPL-E에서 공개된 다른 모든 모델보다 우수한 성능을 보입니다. 우리는 연구 및 상업적 사용이 모두 가능한 허용적인 라이선스로 Code Llama를 공개합니다.
2022
LaMDA: 대화 애플리케이션을 위한 언어 모델 LaMDA: Language Models for Dialog Applications
본 논문에서는 대화 애플리케이션을 위한 언어 모델인 LaMDA를 소개합니다. LaMDA는 대화에 특화된 Transformer 기반 신경 언어 모델 제품군으로, 최대 1,370억 개의 매개변수를 보유하고 있으며 1.56조 단어의 공개 대화 데이터와 웹 텍스트로 사전 학습되었습니다. 모델의 규모를 키우는 것만으로도 품질을 개선할 수 있지만, 안전성과 사실적 근거(factual grounding) 측면에서는 개선 효과가 제한적입니다. 우리는 주석이 달린 데이터로 미세 조정(fine-tuning)하고 모델이 외부 지식 정보를 참조할 수 있도록 함으로써, 안전성과 사실적 근거라는 두 가지 주요 과제에서 상당한 개선을 이룰 수 있음을 입증합니다. 첫 번째 과제인 안전성은 해로운 제안이나 불공정한 편향을 방지하는 등 일련의 인간 가치와 모델의 응답이 일치하도록 보장하는 것입니다. 우리는 예시적인 인간 가치 집합에 기반한 지표를 사용하여 안전성을 정량화했으며, 크라우드 워커가 라벨링한 소량의 데이터로 미세 조정된 LaMDA 분류기를 사용하여 후보 응답을 필터링하는 것이 모델의 안전성을 향상시키는 유망한 접근 방식임을 확인했습니다. 두 번째 과제인 사실적 근거는 모델이 정보 검색 시스템, 언어 번역기, 계산기와 같은 외부 지식 정보를 참조할 수 있도록 하는 것입니다. 우리는 근거성(groundedness) 지표를 사용하여 사실성을 정량화했으며, 이러한 접근 방식이 단순히 그럴듯하게 들리는 응답이 아닌 알려진 출처에 근거한 응답을 생성할 수 있게 함을 확인했습니다. 마지막으로, 교육 및 콘텐츠 추천 분야에서 LaMDA의 활용 가능성을 탐색하고, 그 유용성과 역할 일관성을 분석합니다.
구체적인 인간 평가를 통한 대화형 에이전트의 정렬 개선 Improving alignment of dialogue agents via targeted human judgements
우리는 프롬프트 기반 언어 모델 베이스라인보다 더 유용하고, 정확하며, 무해하도록 훈련된 정보 탐색 대화형 에이전트인 Sparrow를 제안합니다. 우리는 인간 평가자가 에이전트의 행동을 판단하는 것을 돕기 위해 두 가지 새로운 요소를 추가하여, 인간 피드백 기반 강화 학습(RLHF)으로 모델을 훈련했습니다. 첫째, 에이전트를 더 유용하고 무해하게 만들기 위해 좋은 대화의 요구 사항을 에이전트가 따라야 할 자연어 규칙으로 세분화하고, 평가자에게 각 규칙에 대해 개별적으로 질문했습니다. 우리는 이러한 세분화를 통해 에이전트 행동에 대한 보다 구체적인 인간 평가를 수집할 수 있고, 더 효율적인 규칙 조건부 보상 모델이 가능해짐을 입증했습니다. 둘째, 모델의 발언에 대한 선호도 판단을 수집할 때, 우리 에이전트는 사실적 주장을 뒷받침하는 출처의 증거를 함께 제공합니다. 사실적 질문의 경우, Sparrow가 제공한 증거는 78%의 비율로 응답 내용을 뒷받침했습니다. Sparrow는 베이스라인보다 더 자주 선호되는 동시에 인간의 적대적 프로빙(adversarial probing)에 더 강한 저항력을 보였으며, 프로빙 시 규칙 위반 비율은 8%에 불과했습니다. 마지막으로, 우리는 모델이 규칙을 따르는 법을 학습했음에도 불구하고 분포적 편향을 보일 수 있음을 보여주는 광범위한 분석을 수행했습니다.
GPT, 변호사 시험을 치르다 GPT Takes the Bar Exam
미국의 거의 모든 관할권에서는 법률 업무를 수행하기 위한 전제 조건으로 흔히 '변호사 시험(Bar Exam)'이라 불리는 전문 자격 시험을 요구합니다. 이 시험에 응시하기 위해서라도 대부분의 관할권은 지원자가 인가된 로스쿨에서의 3년을 포함하여 최소 7년의 고등 교육을 이수할 것을 요구합니다. 또한, 대부분의 응시자는 수주에서 수개월에 걸친 시험 별도 대비 과정을 거칩니다. 이러한 상당한 시간과 자본의 투자에도 불구하고, 응시자 5명 중 약 1명은 첫 시도에서 합격 기준 점수에 미치지 못합니다. 이렇게 깊이 있는 지식을 요하는 복잡한 과제 앞에서, 우리는 최첨단 'AI'에게 무엇을 기대해야 할까요? 본 연구에서는 흔히 GPT-3.5로 불리는 OpenAI의 text-davinci-003 모델이 변호사 시험의 다주(multistate) 객관식 시험(MBE) 섹션에서 보여준 성능에 대한 실험적 평가를 기록합니다. 연구 결과, 우리가 가진 훈련 데이터 규모에서는 파인 튜닝(fine-tuning)이 GPT-3.5의 제로샷(zero-shot) 성능보다 낫다는 이점을 발견하지 못했으나, 하이퍼파라미터 최적화와 프롬프트 엔지니어링은 GPT-3.5의 제로샷 성능에 긍정적인 영향을 미친다는 것을 확인했습니다. 최적의 프롬프트와 파라미터를 적용했을 때, GPT-3.5는 전체 NCBE MBE 모의고사에서 50.3%의 정답률을 기록했는데, 이는 기본 추측 확률인 25%를 훨씬 상회하는 수치이며 증거법(Evidence)과 불법행위법(Torts) 과목에서는 합격권에 해당하는 성적을 보였습니다. GPT-3.5의 응답 순위 또한 정답 여부와 높은 상관관계를 보였습니다. 상위 2개 및 상위 3개 선택지가 정답일 확률은 각각 71%와 88%로 나타나, 매우 강력한 비함의(non-entailment) 성능을 보여주었습니다. LLM(대규모 언어 모델)에 대한 과학적 이해의 초기 단계와 GPT의 독점적 특성으로 인해 결과를 해석하는 데 한계가 있지만, 우리는 이러한 결과가 가까운 미래에 LLM이 변호사 시험의 MBE 구성 요소를 통과할 것임을 강력히 시사한다고 믿습니다.
2021
코드로 학습된 대규모 언어 모델 평가 Evaluating Large Language Models Trained on Code
우리는 GitHub에서 공개적으로 사용 가능한 코드로 미세 조정된 GPT 언어 모델인 Codex를 소개하고, 이 모델의 파이썬 코드 작성 능력을 연구한다. Codex의 별도 상용 버전은 GitHub Copilot을 구동한다. 독스트링(docstring)으로부터 프로그램을 합성하는 기능적 정확성을 측정하기 위해 우리가 공개한 새로운 평가 세트인 HumanEval에서, 우리 모델은 28.8%의 문제를 해결한 반면 GPT-3는 0%, GPT-J는 11.4%를 해결했다. 더 나아가, 우리는 모델에서 반복적으로 샘플링을 수행하는 것이 어려운 프롬프트에 대해 작동하는 솔루션을 생성하는 데 놀랍도록 효과적인 전략임을 발견했다. 이 방법을 사용하여 우리는 문제당 100개의 샘플로 70.2%의 문제를 해결했다. 모델을 면밀히 조사한 결과, 긴 연산 사슬을 설명하는 독스트링 처리와 변수에 연산을 바인딩하는 데 있어서의 어려움을 포함한 한계점이 드러났다. 마지막으로 우리는 안전, 보안 및 경제적 측면을 다루며 강력한 코드 생성 기술 배포가 가져올 잠재적이고 광범위한 영향에 대해 논의한다.
2020
신경망 언어 모델의 스케일링 법칙 Scaling Laws for Neural Language Models
우리는 크로스 엔트로피 손실을 기준으로 언어 모델 성능에 대한 경험적 스케일링 법칙을 연구한다. 손실은 모델 크기, 데이터셋 크기, 훈련에 사용된 연산량에 따라 멱법칙(power-law)으로 스케일링되며, 일부 경향은 7자리수(orders of magnitude) 이상의 범위에 걸쳐 나타난다. 네트워크의 너비나 깊이와 같은 다른 아키텍처 세부 사항들은 넓은 범위 내에서 미미한 영향만 미친다. 모델 및 데이터셋 크기에 따른 과적합의 의존성과 모델 크기에 따른 훈련 속도의 의존성은 간단한 방정식으로 설명된다. 이러한 관계들을 통해 고정된 연산 예산의 최적 할당을 결정할 수 있다. 더 큰 모델일수록 샘플 효율성이 훨씬 뛰어나기 때문에, 연산 효율이 최적화된 훈련을 위해서는 상대적으로 적은 양의 데이터로 매우 큰 모델을 훈련시키고 완전히 수렴하기 훨씬 전에 중단하는 것이 포함된다.
The Pile: 언어 모델링을 위한 800GB 규모의 다양한 텍스트 데이터셋 The Pile: An 800GB Dataset of Diverse Text for Language Modeling
최근 연구들은 훈련 데이터셋의 다양성을 높이는 것이 대규모 언어 모델의 일반적인 교차 도메인 지식과 다운스트림 일반화 능력을 향상시킨다는 것을 보여주었습니다. 이를 염두에 두고, 우리는 대규모 언어 모델 훈련을 목표로 하는 825 GiB 규모의 영어 텍스트 말뭉치인 'The Pile'을 제시합니다. The Pile은 22개의 다양하고 품질 높은 서브셋(기존 자료와 새롭게 구축된 자료 포함)으로 구성되어 있으며, 그 중 다수는 학술적 또는 전문적 출처에서 유래했습니다. The Pile에 대해 별도의 튜닝을 거치지 않은 GPT-2와 GPT-3의 성능을 평가한 결과, 이 모델들이 학술적 작문과 같은 데이터셋의 여러 구성 요소에서 어려움을 겪는 것으로 나타났습니다. 반대로, The Pile로 훈련한 모델들은 The Pile의 모든 구성 요소에서 Raw CC 및 CC-100에 비해 성능이 크게 향상되었으며, 다운스트림 평가에서도 성능 개선을 보였습니다. 또한 심층적인 탐색적 분석을 통해 잠재적 사용자들이 유의해야 할 데이터의 우려스러운 측면들을 문서화했습니다. 우리는 이 데이터셋 구축에 사용된 코드를 공개합니다.
2019
ALBERT: 언어 표현의 자기 지도 학습을 위한 경량화된 BERT ALBERT: A Lite BERT for Self-supervised Learning of Language Representations
자연어 표현을 사전 학습할 때 모델의 크기를 키우면 종종 다운스트림 태스크의 성능이 향상됩니다. 그러나 어느 시점에 이르면 GPU/TPU 메모리 한계와 긴 학습 시간으로 인해 모델을 더 확장하기가 어려워집니다. 이러한 문제를 해결하기 위해, 본 논문에서는 메모리 사용량을 줄이고 BERT의 학습 속도를 높이는 두 가지 파라미터 감소 기법을 제안합니다. 광범위한 실험 결과를 통해 제안된 방법이 기존 BERT에 비해 훨씬 더 효율적으로 확장되는 모델을 생성함을 보여줍니다. 또한 문장 간의 일관성을 모델링하는 데 초점을 맞춘 자기 지도 손실(self-supervised loss) 함수를 사용하여, 이것이 다중 문장 입력을 다루는 다운스트림 태스크에 일관되게 도움이 됨을 입증합니다. 결과적으로 우리의 최고 성능 모델은 BERT-large보다 적은 수의 파라미터를 가지면서도 GLUE, RACE 및 SQuAD 벤치마크에서 새로운 최고 성능(state-of-the-art)을 달성했습니다. 코드와 사전 학습된 모델은 https://github.com/google-research/ALBERT 에서 확인할 수 있습니다.
2018
BERT: 언어 이해를 위한 심층 양방향 트랜스포머 사전 학습 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
우리는 BERT(Bidirectional Encoder Representations from Transformers)라는 새로운 언어 표현 모델을 소개한다. 최근의 언어 표현 모델들과 달리, BERT는 모든 층에서 왼쪽과 오른쪽 문맥을 동시에 고려하여 레이블이 없는 텍스트로부터 심층 양방향 표현을 사전 학습하도록 설계되었다. 그 결과, 사전 학습된 BERT 모델은 질의응답이나 언어 추론과 같은 광범위한 태스크에 대해, 특정 태스크를 위한 아키텍처를 대폭 수정하지 않고도 출력층 하나만 추가하여 파인 튜닝함으로써 최첨단 모델을 만들 수 있다. BERT는 개념적으로 단순하면서도 경험적으로 강력하다. 이 모델은 11개의 자연어 처리 태스크에서 새로운 최고 성능을 달성했는데, 여기에는 GLUE 점수 80.5%(7.7% 포인트 절대 향상), MultiNLI 정확도 86.7%(4.6% 포인트 절대 향상), SQuAD v1.1 질의응답 테스트 F1 93.2(1.5 포인트 절대 향상), SQuAD v2.0 테스트 F1 83.1(5.1 포인트 절대 향상)이 포함된다.
2016
레이어 정규화 (Layer Normalization) Layer Normalization
최신 심층 신경망을 학습시키는 것은 계산 비용이 매우 많이 듭니다. 학습 시간을 단축하는 한 가지 방법은 뉴런의 활성도를 정규화하는 것입니다. 최근 도입된 배치 정규화(Batch Normalization) 기법은 훈련 데이터의 미니 배치 전체에서 뉴런에 들어오는 입력 합의 분포를 이용하여 평균과 분산을 계산하고, 이를 통해 각 훈련 데이터에 대한 해당 뉴런의 입력 합을 정규화합니다. 이는 피드포워드 신경망의 학습 시간을 획기적으로 단축시킵니다. 그러나 배치 정규화의 효과는 미니 배치 크기에 의존적이며, 순환 신경망(RNN)에 이를 적용하는 방법은 명확하지 않습니다. 본 논문에서는 단일 훈련 데이터에 대해 한 층(layer)에 있는 모든 뉴런의 입력 합으로부터 정규화에 필요한 평균과 분산을 계산함으로써, 배치 정규화를 '레이어 정규화(Layer Normalization)'로 변환합니다. 배치 정규화와 마찬가지로 각 뉴런에 고유한 적응형 편향(bias)과 이득(gain)을 부여하며, 이는 정규화 이후 비선형 함수 적용 이전에 적용됩니다. 배치 정규화와 달리 레이어 정규화는 학습 시와 테스트 시에 정확히 동일한 연산을 수행합니다. 또한 각 타임 스텝마다 별도로 정규화 통계량을 계산하므로 순환 신경망에 적용하기도 간단합니다. 레이어 정규화는 순환 신경망의 은닉 상태(hidden state) 역학을 안정화하는 데 매우 효과적입니다. 실험 결과를 통해, 우리는 레이어 정규화가 기존에 발표된 기법들에 비해 학습 시간을 상당히 단축시킬 수 있음을 보입니다.
언어 모델링의 한계 탐색 Exploring the Limits of Language Modeling
본 연구에서는 언어 이해의 핵심 과제인 대규모 언어 모델링을 위한 순환 신경망(RNN)의 최근 발전 사항을 탐구합니다. 우리는 말뭉치 및 어휘 크기, 그리고 언어의 복잡하고 장기적인 구조라는 이 과제의 두 가지 주요 난제를 해결하기 위해 기존 모델을 확장합니다. One Billion Word 벤치마크를 대상으로 문자 단위 합성곱 신경망(Character CNN)이나 장단기 메모리(LSTM)와 같은 기법들에 대해 포괄적인 연구를 수행했습니다. 우리의 최고 단일 모델은 매개변수 수를 20배 줄이면서도 최신 기술(SOTA)의 퍼플렉서티(perplexity)를 51.3에서 30.0으로 대폭 개선했습니다. 또한, 모델 앙상블은 퍼플렉서티를 41.0에서 23.7로 낮추며 새로운 기록을 수립했습니다. 마지막으로 NLP 및 ML 커뮤니티가 연구하고 발전시킬 수 있도록 이 모델들을 공개합니다.
2014
정렬과 번역을 공동으로 학습하는 신경망 기계 번역 Neural Machine Translation by Jointly Learning to Align and Translate
신경망 기계 번역은 최근 제안된 기계 번역 접근 방식입니다. 기존의 통계적 기계 번역과 달리, 신경망 기계 번역은 번역 성능을 극대화하기 위해 공동으로 조정될 수 있는 단일 신경망을 구축하는 것을 목표로 합니다. 최근 신경망 기계 번역을 위해 제안된 모델들은 주로 인코더-디코더 계열에 속하며, 소스 문장을 고정 길이 벡터로 인코딩하는 인코더와 이로부터 번역을 생성하는 디코더로 구성됩니다. 본 논문에서는 고정 길이 벡터의 사용이 이러한 기본 인코더-디코더 아키텍처의 성능을 향상시키는 데 있어 병목이 된다고 추정하며, 모델이 타겟 단어를 예측하는 것과 관련된 소스 문장의 일부를 명시적인 하드 세그먼트로 형성하지 않고도 자동으로 (소프트) 탐색할 수 있도록 허용함으로써 이를 확장할 것을 제안합니다. 이러한 새로운 접근 방식을 통해, 우리는 영-불 번역 태스크에서 기존의 최첨단 구문 기반 시스템에 필적하는 번역 성능을 달성했습니다. 또한, 정성적 분석을 통해 모델이 찾아낸 (소프트) 정렬이 우리의 직관과 잘 일치함을 확인했습니다.
2013
단어와 구의 분산 표현 및 그 구성성 Distributed Representations of Words and Phrases and their Compositionality
최근 소개된 연속 스킵-그램(continuous Skip-gram) 모델은 수많은 정확한 구문 및 의미적 단어 관계를 포착하는 고품질의 분산 벡터 표현을 학습하기 위한 효율적인 방법입니다. 본 논문에서는 벡터의 품질과 학습 속도를 모두 향상시키는 몇 가지 확장 기법을 제시합니다. 빈번하게 등장하는 단어들을 서브샘플링함으로써 상당한 속도 향상을 얻는 동시에 더 규칙적인 단어 표현을 학습할 수 있게 되었습니다. 또한 계층적 소프트맥스(hierarchical softmax)의 단순한 대안으로 네거티브 샘플링(negative sampling)이라 불리는 방법을 설명합니다. 단어 표현의 내재적인 한계는 단어 순서를 무시한다는 점과 관용구를 표현할 수 없다는 점입니다. 예를 들어, "Canada"와 "Air"의 의미를 쉽게 결합하여 "Air Canada"를 만들어낼 수 없습니다. 이러한 예시에서 동기를 얻어, 우리는 텍스트에서 구(phrase)를 찾는 간단한 방법을 제시하고, 수백만 개의 구에 대해 좋은 벡터 표현을 학습하는 것이 가능함을 보여줍니다.
벡터 공간 내 단어 표현의 효율적 추정 Efficient Estimation of Word Representations in Vector Space
우리는 매우 큰 데이터 세트로부터 단어의 연속적인 벡터 표현을 계산하기 위한 두 가지 새로운 모델 아키텍처를 제안한다. 이러한 표현들의 품질은 단어 유사도 과제에서 측정되며, 그 결과는 다른 유형의 신경망을 기반으로 한 기존의 최고 성능 기법들과 비교된다. 우리는 훨씬 낮은 계산 비용으로 정확도가 크게 향상됨을 관찰했다. 즉, 16억 개의 단어로 구성된 데이터 세트에서 고품질 단어 벡터를 학습하는 데 하루가 채 걸리지 않는다. 더 나아가, 우리는 이 벡터들이 구문적 및 의미적 단어 유사도를 측정하는 테스트 세트에서 최첨단 성능을 보여줌을 입증한다.