2201.08239 Jan 20, 2022 cs.AI

LaMDA: 대화 애플리케이션을 위한 언어 모델

LaMDA: Language Models for Dialog Applications

Dmitry Lepikhin
Dmitry Lepikhin
Citations: 13,662
h-index: 13
Yuanzhong Xu
Yuanzhong Xu
Citations: 14,530
h-index: 17
Yaguang Li
Yaguang Li
Citations: 8,869
h-index: 9
M. Krikun
M. Krikun
Citations: 22,630
h-index: 23
James Qin
James Qin
Citations: 12,615
h-index: 17
R. Thoppilan
R. Thoppilan
Citations: 4,909
h-index: 5
Daniel De Freitas
Daniel De Freitas
Character AI
Citations: 4,901
h-index: 4
Jamie Hall
Jamie Hall
Citations: 2,864
h-index: 3
Noam Shazeer
Noam Shazeer
Google
Citations: 231,052
h-index: 40
Apoorv Kulshreshtha
Apoorv Kulshreshtha
Citations: 4,896
h-index: 4
Heng-Tze Cheng
Heng-Tze Cheng
Citations: 7,554
h-index: 16
A. Jin
A. Jin
Citations: 3,887
h-index: 3
Taylor Bos
Taylor Bos
Citations: 3,887
h-index: 3
Leslie W. Baker
Leslie W. Baker
Citations: 3,887
h-index: 3
Yu Du
Yu Du
Citations: 1,974
h-index: 3
Hongrae Lee
Hongrae Lee
Citations: 3,231
h-index: 18
H. Zheng
H. Zheng
Citations: 3,090
h-index: 12
Amin Ghafouri
Amin Ghafouri
Citations: 4,031
h-index: 8
Marcelo Menegali
Marcelo Menegali
Citations: 1,896
h-index: 2
Yanping Huang
Yanping Huang
Citations: 18,013
h-index: 21
Dehao Chen
Dehao Chen
Citations: 7,212
h-index: 16
Zhifeng Chen
Zhifeng Chen
Citations: 7,775
h-index: 12
Adam Roberts
Adam Roberts
Citations: 70,940
h-index: 40
Maarten Bosma
Maarten Bosma
Inflection AI
Citations: 41,858
h-index: 14
Yanqi Zhou
Yanqi Zhou
Citations: 30,828
h-index: 26
Chung-Ching Chang
Chung-Ching Chang
Citations: 1,880
h-index: 5
I. Krivokon
I. Krivokon
Citations: 3,866
h-index: 2
W. Rusch
W. Rusch
Citations: 1,845
h-index: 3
Marc Pickett
Marc Pickett
Citations: 2,172
h-index: 7
K. Meier-Hellstern
K. Meier-Hellstern
Citations: 15,197
h-index: 18
M. Morris
M. Morris
Citations: 23,109
h-index: 71
Tulsee Doshi
Tulsee Doshi
Citations: 3,080
h-index: 6
Renelito Delos Santos
Renelito Delos Santos
Citations: 1,832
h-index: 1
Toju Duke
Toju Duke
Citations: 10,679
h-index: 5
J. Søraker
J. Søraker
Citations: 2,251
h-index: 11
Ben Zevenbergen
Ben Zevenbergen
Citations: 1,952
h-index: 8
Vinodkumar Prabhakaran
Vinodkumar Prabhakaran
Citations: 13,572
h-index: 32
Mark Díaz
Mark Díaz
Citations: 9,797
h-index: 8
Ben Hutchinson
Ben Hutchinson
Citations: 24,395
h-index: 19
Kristen Olson
Kristen Olson
Citations: 2,124
h-index: 5
Alejandra Molina
Alejandra Molina
Citations: 1,847
h-index: 3
Erin Hoffman-John
Erin Hoffman-John
Citations: 1,843
h-index: 2
Josh Lee
Josh Lee
Citations: 1,832
h-index: 1
Lora Aroyo
Lora Aroyo
Google
Citations: 12,243
h-index: 43
Ravi Rajakumar
Ravi Rajakumar
Google Inc.
Citations: 1,851
h-index: 4
Alena Butryna
Alena Butryna
Citations: 3,873
h-index: 3
Matthew Lamm
Matthew Lamm
Citations: 2,958
h-index: 12
V. Kuzmina
V. Kuzmina
Citations: 1,843
h-index: 3
Joseph Fenton
Joseph Fenton
Citations: 1,853
h-index: 2
Aaron Cohen
Aaron Cohen
Citations: 1,835
h-index: 2
R. Bernstein
R. Bernstein
Citations: 1,953
h-index: 7
R. Kurzweil
R. Kurzweil
Citations: 9,275
h-index: 22
Blaise Aguera-Arcas
Blaise Aguera-Arcas
Citations: 1,832
h-index: 1
Claire Cui
Claire Cui
Citations: 1,877
h-index: 3
M. Croak
M. Croak
Citations: 2,030
h-index: 2
Ed H. Chi
Ed H. Chi
Google
Citations: 60,414
h-index: 79
Quoc Le
Quoc Le
Citations: 26,038
h-index: 7

본 논문에서는 대화 애플리케이션을 위한 언어 모델인 LaMDA를 소개합니다. LaMDA는 대화에 특화된 Transformer 기반 신경 언어 모델 제품군으로, 최대 1,370억 개의 매개변수를 보유하고 있으며 1.56조 단어의 공개 대화 데이터와 웹 텍스트로 사전 학습되었습니다. 모델의 규모를 키우는 것만으로도 품질을 개선할 수 있지만, 안전성과 사실적 근거(factual grounding) 측면에서는 개선 효과가 제한적입니다. 우리는 주석이 달린 데이터로 미세 조정(fine-tuning)하고 모델이 외부 지식 정보를 참조할 수 있도록 함으로써, 안전성과 사실적 근거라는 두 가지 주요 과제에서 상당한 개선을 이룰 수 있음을 입증합니다. 첫 번째 과제인 안전성은 해로운 제안이나 불공정한 편향을 방지하는 등 일련의 인간 가치와 모델의 응답이 일치하도록 보장하는 것입니다. 우리는 예시적인 인간 가치 집합에 기반한 지표를 사용하여 안전성을 정량화했으며, 크라우드 워커가 라벨링한 소량의 데이터로 미세 조정된 LaMDA 분류기를 사용하여 후보 응답을 필터링하는 것이 모델의 안전성을 향상시키는 유망한 접근 방식임을 확인했습니다. 두 번째 과제인 사실적 근거는 모델이 정보 검색 시스템, 언어 번역기, 계산기와 같은 외부 지식 정보를 참조할 수 있도록 하는 것입니다. 우리는 근거성(groundedness) 지표를 사용하여 사실성을 정량화했으며, 이러한 접근 방식이 단순히 그럴듯하게 들리는 응답이 아닌 알려진 출처에 근거한 응답을 생성할 수 있게 함을 확인했습니다. 마지막으로, 교육 및 콘텐츠 추천 분야에서 LaMDA의 활용 가능성을 탐색하고, 그 유용성과 역할 일관성을 분석합니다.

Original Abstract

We present LaMDA: Language Models for Dialog Applications. LaMDA is a family of Transformer-based neural language models specialized for dialog, which have up to 137B parameters and are pre-trained on 1.56T words of public dialog data and web text. While model scaling alone can improve quality, it shows less improvements on safety and factual grounding. We demonstrate that fine-tuning with annotated data and enabling the model to consult external knowledge sources can lead to significant improvements towards the two key challenges of safety and factual grounding. The first challenge, safety, involves ensuring that the model's responses are consistent with a set of human values, such as preventing harmful suggestions and unfair bias. We quantify safety using a metric based on an illustrative set of human values, and we find that filtering candidate responses using a LaMDA classifier fine-tuned with a small amount of crowdworker-annotated data offers a promising approach to improving model safety. The second challenge, factual grounding, involves enabling the model to consult external knowledge sources, such as an information retrieval system, a language translator, and a calculator. We quantify factuality using a groundedness metric, and we find that our approach enables the model to generate responses grounded in known sources, rather than responses that merely sound plausible. Finally, we explore the use of LaMDA in the domains of education and content recommendations, and analyze their helpfulness and role consistency.

1838 Citations
108 Influential
30 Altmetric
2,204.0 Score

AI Analysis

Korean Summary

이 논문은 구글이 개발한 대화 특화 언어 모델인 LaMDA를 소개합니다. 최대 1,370억(137B) 파라미터 규모의 트랜스포머 기반 모델로, 단순히 모델 크기를 키우는 것만으로는 대화의 안전성(Safety)과 사실적 근거(Groundedness)를 보장할 수 없음을 지적합니다. 이를 해결하기 위해 연구진은 인간이 레이블링한 데이터를 활용한 미세 조정(Fine-tuning)과 외부 정보 검색 시스템(Information Retrieval)을 호출할 수 있는 도구 사용 능력을 모델에 학습시켰습니다. 이 접근 방식은 대화의 품질(합리성, 구체성, 흥미성)을 유지하면서도, 모델이 생성하는 답변의 유해성을 줄이고 사실에 입각한 답변을 제공하는 능력을 획기적으로 향상시켰습니다.

Key Innovations

  • SSI(합리성, 구체성, 흥미성), 안전성, 근거성(Groundedness)을 아우르는 다면적 평가 지표 도입
  • 생성(Generative) 및 판별(Discriminative) 작업을 결합한 하이브리드 미세 조정 전략
  • 외부 지식 검색(IR), 계산기, 번역기 등을 활용할 수 있는 도구(ToolSet) 통합 학습 방법
  • 생성된 후보 답변을 안전성 점수로 필터링하고 품질 점수로 재순위화(Re-ranking)하는 디코딩 방식
  • 적대적(Adversarial) 데이터 수집을 통한 안전성 강화 프로세스

Learning & Inference Impact

학습 과정에서는 일반적인 다음 토큰 예측 외에도, 답변의 품질과 안전성을 판별하는 판별자(Discriminator) 학습과 외부 도구에 보낼 쿼리를 생성하는 학습이 추가되어 데이터 구축 및 훈련의 복잡도가 증가했습니다. 추론 과정에서는 모델이 답변을 즉시 생성하는 대신, 'LaMDA-Research' 단계를 통해 외부 API를 호출하여 최신 정보를 검색하고 이를 문맥에 반영하는 과정을 거칩니다. 또한 생성된 여러 후보 답변을 판별자가 검사하여 안전하지 않은 답변을 거르고 품질이 높은 답변을 선택하는 과정이 포함되므로, 단일 패스 추론 대비 연산 비용과 지연 시간(Latency)이 증가하지만 할루시네이션(환각 현상)을 크게 줄일 수 있습니다.

Technical Difficulty

중급

Estimated implementation complexity based on methodology.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!