[번역] Language Models are Few-Shot Learners

calps 2024. 1. 15. 09:05

2024. 1. 15. 09:05

최근 작업에서는 대규모 텍스트 모음에 대한 사전 학습과 특정 작업에 대한 미세 조정을 통해 많은 NLP 작업 및 벤치마크에서 상당한 이점을 얻었습니다. 일반적으로 아키텍처에서는 작업에 구애받지 않지만 이 방법에는 여전히 수천 또는 수만 개의 예제로 구성된 작업별 미세 조정 데이터 세트가 필요합니다. 대조적으로, 인간은 일반적으로 단지 몇 가지 예나 간단한 지시만으로 새로운 언어 작업을 수행할 수 있습니다. 이는 현재 NLP 시스템이 여전히 수행하는 데 어려움을 겪고 있습니다. 여기서 우리는 언어 모델을 확장하면 작업에 구애받지 않는 Few-Shot 성능이 크게 향상되고 때로는 이전의 최첨단 미세 조정 접근 방식으로 경쟁력에 도달할 수도 있음을 보여줍니다. 구체적으로 우리는 이전의 비희소 언어 모델보다 10배 더 많은 1,750억 개의 매개변수를 가진 자동 회귀 언어 모델인 GPT-3를 훈련하고 소수 설정에서 성능을 테스트합니다. 모든 작업에 대해 GPT-3는 그라데이션 업데이트나 미세 조정 없이 적용되며 작업과 소수의 데모는 순전히 모델과의 텍스트 상호 작용을 통해 지정됩니다. GPT-3는 번역, 질문 답변, 클로제 작업을 포함한 많은 NLP 데이터 세트뿐만 아니라 단어 해독, 새로운 단어 사용과 같은 즉석 추론이나 도메인 적응이 필요한 여러 작업에서 강력한 성능을 달성합니다. 문장을 읽거나 세 자리 연산을 수행합니다. 동시에 우리는 GPT-3의 퓨샷 학습이 여전히 어려움을 겪고 있는 일부 데이터 세트와 GPT-3가 대규모 웹 말뭉치에 대한 교육과 관련된 방법론적 문제에 직면한 일부 데이터 세트도 식별합니다. 마지막으로, 우리는 GPT-3가 인간 평가자가 인간이 작성한 기사와 구별하기 어려운 뉴스 기사 샘플을 생성할 수 있음을 발견했습니다. 우리는 이번 발견과 GPT-3의 전반적인 사회적 영향에 대해 논의합니다.

최근 몇 년 동안 다운스트림 전송을 위해 점점 더 유연하고 작업에 구애받지 않는 방식으로 적용되는 NLP 시스템에서 사전 훈련된 언어 표현을 향한 추세가 나타났습니다. 먼저, 단어 벡터[MCCD13, PSM14]를 사용하여 단일 계층 표현을 학습하고 작업별 아키텍처에 공급한 다음 여러 계층의 표현과 상황별 상태를 갖춘 RNN을 사용하여 더 강력한 표현을 형성했습니다[DL15, MBXS17, PNZtY18](여전히 작업별 아키텍처에 적용됨), 최근에는 미리 훈련된 순환 또는 변환기 언어 모델[VSP+17]이 직접 미세 조정되어 작업별 아키텍처[RNSS18, DCLT18, HR18]의 필요성이 완전히 제거되었습니다.

이 마지막 패러다임은 독해, 질문 답변, 텍스트 수반 등과 같은 많은 까다로운 NLP 작업에서 상당한 진전을 이루었으며 새로운 아키텍처와 알고리즘 [RSR+19, LOG+19, YDY+9, LCG+19]을 기반으로 계속해서 발전해 왔습니다. 그러나 이 접근 방식의 주요 제한 사항은 아키텍처가 작업에 구애받지 않지만 여전히 작업별 데이터 세트 및 작업별 미세 조정이 필요하다는 것입니다. 원하는 작업에서 강력한 성능을 얻으려면 일반적으로 미세 조정이 필요합니다. 해당 작업과 관련된 수천에서 수십만 개의 사례로 구성된 데이터 세트입니다. 여러 가지 이유로 이 제한을 제거하는 것이 바람직합니다.

첫째, 실용적인 관점에서 볼 때 모든 새로운 작업에 대해 레이블이 지정된 예제로 구성된 대규모 데이터 세트가 필요하기 때문에 언어 모델의 적용 가능성이 제한됩니다. 문법 교정부터 추상적 개념의 예 생성, 단편 소설 비평까지 모든 것을 포괄하는 유용한 언어 작업이 매우 광범위하게 존재합니다. 이러한 작업 중 많은 경우, 특히 모든 새 작업에 대해 프로세스를 반복해야 하는 경우 대규모 지도 학습 데이터 세트를 수집하기가 어렵습니다.

둘째, 훈련 데이터에서 허위 상관 관계를 활용할 가능성은 모델의 표현력과 훈련 분포의 좁음에 따라 근본적으로 커집니다. 이는 사전 훈련 중에 정보를 흡수하기 위해 모델이 크게 설계되었지만 매우 좁은 작업 분포에서 미세 조정되는 사전 훈련 및 미세 조정 패러다임에 문제를 일으킬 수 있습니다. 예를 들어 [HLW+20]은 더 큰 모델이 반드시 더 나은 분포 외 일반화를 일반화하는 것은 아니라는 점을 관찰합니다. 이 패러다임에서 달성된 일반화는 모델이 훈련 분포에 지나치게 특정적이고 그 외부에서는 잘 일반화되지 않기 때문에 좋지 않을 수 있음을 암시하는 증거가 있습니다[YdC+19, MPL19]. 따라서 특정 벤치마크에서 미세 조정된 모델의 성능은 명목상 인간 수준일 때에도 기본 작업에 대한 실제 성능을 과장할 수 있습니다[GSL+18, NK19].

셋째, 인간은 대부분의 언어 작업을 학습하기 위해 대규모 지도 데이터 세트를 필요로 하지 않습니다. 즉, 자연어의 간단한 지시(예: "이 문장이 행복한 것인지 슬픈 것인지 알려주세요") 또는 기껏해야 소수의 시연(예: "용감하게 행동하는 사람들의 두 가지 예입니다. 세 번째 용감한 예를 들어주십시오.")입니다. 이는 종종 인간이 최소한 합리적인 수준의 능력으로 새로운 작업을 수행할 수 있게 하는 데 충분합니다. 현재 NLP 기술의 개념적 한계를 지적하는 것 외에도 이러한 적응성은 실질적인 이점을 가지고 있습니다. 이를 통해 인간은 예를 들어 긴 대화 중에 추가를 수행하는 등 많은 작업과 기술을 원활하게 혼합하거나 전환할 수 있습니다. 광범위하게 유용하게 활용하려면 언젠가 우리의 NLP 시스템이 이와 동일한 유동성과 일반성을 갖기를 원할 것입니다.

그림1.1 : Language model meta-learning, 감독되지 않은 사전 훈련 중에 언어 모델은 광범위한 기술과 패턴 인식 능력을 개발합니다. 그런 다음 추론 시 이러한 기능을 사용하여 원하는 작업에 빠르게 적응하거나 인식합니다. 우리는 각 시퀀스의 정방향 전달 내에서 발생하는 이 프로세스의 내부 루프를 설명하기 위해 "상황 내 학습"이라는 용어를 사용합니다. 이 다이어그램의 시퀀스는 사전 학습 중에 모델이 볼 수 있는 데이터를 나타내기 위한 것이 아니지만 때로는 단일 시퀀스 내에 반복되는 하위 작업이 포함되어 있음을 보여 주기 위한 것입니다.

그림1.2 : Larger models make increasingly efﬁcient use of in-context information. 자연어 작업 설명이 있든 없든 모델이 단어에서 임의의 기호를 제거해야 하는 간단한 작업에 대한 상황 내 학습 성능을 보여줍니다(섹션 3.9.2 참조). 대형 모델의 더 가파른 "상황 내 학습 곡선"은 상황 정보로부터 작업을 학습하는 향상된 능력을 보여줍니다. 우리는 광범위한 작업에서 질적으로 유사한 행동을 봅니다.

이러한 문제를 해결하기 위한 한 가지 잠재적 경로는 메타 학습입니다. 이는 언어 모델의 맥락에서 모델이 훈련 시간에 광범위한 기술과 패턴 인식 능력을 개발한 다음 추론 시간에 이러한 능력을 사용하여 신속하게 적응하거나 인식한다는 것을 의미합니다. 원하는 작업(그림 1.1 참조) 최근 연구 [RWC+19]는 사전 훈련된 언어 모델의 텍스트 입력을 작업 지정의 한 형태로 사용하여 "상황 내 학습"을 통해 이를 수행하려고 시도합니다. 모델은 자연어 명령 및/또는 작업에 대한 몇 가지 시연을 한 다음 다음에 무엇이 올지 예측함으로써 작업의 추가 인스턴스를 완료할 것으로 예상됩니다.

초기에는 어느 정도 가능성이 보였지만 이 접근 방식은 여전히 미세 조정보다 훨씬 낮은 결과를 달성합니다. 예를 들어 [RWC+19]는 Natural Question에서 4%만 달성했으며 심지어 55 F1 CoQa 결과도 이제 35포인트 이상 뒤처져 있습니다. 최첨단. 메타러닝이 언어 과제를 해결하는 실용적인 방법으로 실행 가능하려면 상당한 개선이 필요하다는 것은 분명합니다.

언어 모델링의 또 다른 최근 추세는 앞으로 나아갈 길을 제시할 수 있습니다. 최근 몇 년 동안 변환기 언어 모델의 용량은 1억 개의 매개변수[RNSS18]에서 3억 개의 매개변수[DCLT18], 15억 개의 매개변수[RWC+19], 80억 개의 매개변수[SPP+19]로 크게 증가했습니다. 110억 개의 매개변수[RSR+19], 마지막으로 170억 개의 매개변수[Tur20]입니다. 각 증가로 인해 텍스트 합성 및/또는 다운스트림 NLP 작업이 개선되었으며, 많은 다운스트림 작업과 잘 연관되는 로그 손실이 규모[KMH+20]에 따라 원활한 개선 추세를 따른다는 증거가 있습니다. 맥락 내 학습에는 모델의 매개변수 내에서 많은 기술과 과제를 흡수하는 것이 포함되므로 맥락 내 학습 능력은 규모에 따라 비슷하게 강력한 이득을 보여줄 수 있을 가능성이 높습니다.

그림1.3 : Aggregate performance for all 42 accuracy-denominated benchmarks. 제로 샷 성능은 모델 크기에 따라 꾸준히 향상되지만 소수 샷 성능은 더 빠르게 증가하여 더 큰 모델이 상황 내 학습에 더 능숙하다는 것을 보여줍니다. 표준 NLP 벤치마크 제품군인 SuperGLUE에 대한 자세한 분석은 그림 3.8을 참조하세요.

본 논문에서는 GPT-3라고 하는 1,750억 개의 매개변수 자동 회귀 언어 모델을 훈련하고 상황 내 학습 능력을 측정하여 이 가설을 테스트합니다. 구체적으로 우리는 훈련 세트에 직접 포함될 가능성이 없는 작업에 대한 신속한 적응을 테스트하기 위해 설계된 몇 가지 새로운 작업뿐만 아니라 20개가 넘는 NLP 데이터세트에 대해 GPT-3를 평가합니다. 각 작업에 대해 우리는 3가지 조건에서 GPT-3를 평가합니다.

(a) "몇 번의 학습" 또는 모델의 컨텍스트 창(일반적으로 10~100)에 맞는 만큼 많은 데모를 허용하는 상황 내 학습,

(b) 단 한 번의 시연만 허용하는 "원샷 학습" 및

GPT-3은 원칙적으로 전통적인 미세 조정 설정에서도 평가할 수 있지만 이는 향후 작업에 맡깁니다.

그림 1.2는 우리가 연구한 조건을 보여주며 모델이 단어에서 관련 없는 기호를 제거해야 하는 간단한 작업에 대한 소수 학습을 보여줍니다. 자연어 작업 설명을 추가하면 모델 성능이 향상되고 모델 컨텍스트의 예제 수가 많아지면 K가 늘어납니다. Few-shot 학습도 모델 크기에 따라 크게 향상됩니다. 이 사례의 결과는 특히 놀랍지만 모델 크기와 상황 내 예제 수에 대한 일반적인 추세는 우리가 연구하는 대부분의 작업에 적용됩니다. 우리는 이러한 "학습" 곡선에는 기울기 업데이트나 미세 조정이 포함되지 않으며 단지 조건화로 제공되는 시연 횟수가 증가한다는 점을 강조합니다.

대체로 NLP 작업에서 GPT-3은 제로샷 및 원샷 설정에서 유망한 결과를 달성하고, 퓨샷 설정에서는 때로는 최첨단 기술과 경쟁하거나 때로는 능가하기도 합니다(SOTA가 유지되고 있음에도 불구하고). 미세 조정된 모델을 통해). 예를 들어, GPT-3는 제로샷 설정에서 CoQA에 대해 81.5 F1, 원샷 설정에서 CoQA에 대해 84.0 F1, 퓨샷 설정에서 85.0 F1을 달성합니다. 마찬가지로 GPT-3는 제로샷 설정에서 TriviaQA의 정확도 64.3%, 원샷 설정에서 68.0%, 소수 설정에서 71.2%의 정확도를 달성했으며, 그 중 마지막은 미세 조정된 모델 작동에 비해 SOTA입니다. 동일한 비공개 환경에서.

GPT-3는 또한 단어 풀기, 산술 수행, 한 번만 정의된 것을 본 후 문장에서 새로운 단어 사용 등 신속한 적응 또는 즉석 추론을 테스트하기 위해 설계된 작업에서 일회성 및 소수성 숙련도를 보여줍니다. 우리는 또한 몇 번의 샷 설정에서 GPT-3가 인간 평가자가 인간이 생성한 기사와 구별하기 어려운 합성 뉴스 기사를 생성할 수 있음을 보여줍니다.

동시에 GPT-3 규모에서도 Few-shot 성능이 어려움을 겪는 몇 가지 작업도 발견했습니다. 여기에는 ANLI 데이터 세트와 같은 자연어 추론 작업과 RACE 또는 QuAC와 같은 일부 독해 데이터 세트가 포함됩니다. 이러한 제한 사항을 포함하여 GPT-3의 강점과 약점에 대한 광범위한 특성을 제시함으로써 언어 모델에서 소수 학습에 대한 연구를 자극하고 진전이 가장 필요한 부분에 관심을 끌기를 바랍니다.

전체 결과에 대한 경험적 감각은 다양한 작업을 집계한 그림 1.3에서 볼 수 있습니다(단, 그 자체로 엄격하거나 의미 있는 벤치마크로 간주되어서는 안 됩니다).

또한 Common Crawl과 같은 데이터 세트에서 대용량 모델을 훈련할 때 점점 커지는 문제인 "데이터 오염"에 대한 체계적인 연구를 수행합니다. 이러한 콘텐츠는 단순히 웹에 종종 존재하기 때문에 테스트 데이터 세트의 콘텐츠를 잠재적으로 포함할 수 있습니다. 본 논문에서는 데이터 오염을 측정하고 왜곡 효과를 정량화하는 체계적인 도구를 개발합니다. 데이터 오염이 대부분의 데이터 세트에서 GPT-3 성능에 최소한의 영향을 미친다는 사실을 발견했지만 결과를 부풀릴 수 있는 몇 가지 데이터 세트를 식별하고 이러한 데이터 세트에 대한 결과를 보고하지 않거나 별표로 표시합니다. 심각도에 따라.

위의 모든 것 외에도 우리는 0회, 1회 및 몇 번의 샷 설정에서 성능을 GPT-3과 비교하기 위해 일련의 더 작은 모델(1억 2천 5백만 개의 매개변수에서 130억 개의 매개변수 범위)을 훈련합니다. 대체로 대부분의 작업에 대해 세 가지 설정 모두에서 모델 용량이 상대적으로 원활하게 확장되는 것을 발견했습니다. 주목할만한 패턴 중 하나는 0회, 1회, 소수의 성능 사이의 격차가 모델 용량에 따라 커지는 경우가 많다는 것입니다. 이는 아마도 더 큰 모델이 더 능숙한 메타 학습기임을 암시할 수 있습니다.

마지막으로 GPT-3가 보여주는 광범위한 역량을 고려하여 편견, 공정성 및 광범위한 사회적 영향에 대한 우려를 논의하고 이와 관련하여 GPT-3의 특성에 대한 예비 분석을 시도합니다.

본 논문의 나머지 부분은 다음과 같이 구성된다. 섹션 2에서는 GPT-3를 훈련하고 평가하는 접근 방식과 방법을 설명합니다. 섹션 3은 제로, 원샷, 퓨샷 설정의 전체 작업 범위에 대한 결과를 제시합니다. 섹션 4에서는 데이터 오염(트레인-테스트 중복) 문제를 다룹니다. 섹션 5에서는 GPT-3의 제한 사항에 대해 설명합니다. 섹션 6에서는 더 광범위한 영향을 논의합니다. 7장에서는 관련 작업을 검토하고 8장에서 결론을 내린다.

2. Approach

모델, 데이터, 교육을 포함한 기본 사전 교육 접근 방식은 [RWC+19]에 설명된 프로세스와 유사하며 모델 크기, 데이터 세트 크기 및 다양성, 교육 기간을 비교적 간단하게 확장할 수 있습니다. 상황 내 학습의 사용도 [RWC+19]와 유사하지만 이 작업에서는 상황 내 학습을 위한 다양한 설정을 체계적으로 탐색합니다. 따라서 우리는 GPT-3를 평가할 또는 원칙적으로 GPT-3를 평가할 수 있는 다양한 설정을 명시적으로 정의하고 대조함으로써 이 섹션을 시작합니다. 이러한 설정은 작업별 데이터에 얼마나 의존하는지에 대한 스펙트럼에 있는 것으로 볼 수 있습니다. 특히 이 스펙트럼에서 최소한 4개의 점을 식별할 수 있습니다(그림 2.1 참조).

FT(Fine-Tuning)는 최근 몇 년 동안 가장 일반적인 접근 방식이었으며, 원하는 작업과 관련된 지도 데이터 세트를 훈련하여 사전 훈련된 모델의 가중치를 업데이트하는 것과 관련됩니다. 일반적으로 수천에서 수십만 개의 레이블이 지정된 예제가 사용됩니다. 미세 조정의 가장 큰 장점은 많은 벤치마크에서 강력한 성능을 발휘한다는 것입니다. 주요 단점은 모든 작업에 대해 새로운 대규모 데이터 세트가 필요하고, 일반화가 불량할 가능성이 있고(MPL19), 훈련 데이터의 허위 기능을 활용할 가능성이 있다는 것[GSL+18, NK19]입니다. 인간의 성과와 불공평하게 비교됩니다. 이 작업에서는 작업에 구애받지 않는 성능에 중점을 두기 때문에 GPT-3를 미세 조정하지 않지만 GPT-3는 원칙적으로 미세 조정할 수 있으며 이는 향후 작업에 대한 유망한 방향입니다.

Few-Shot(FS)은 컨디셔닝[RWC+19]으로 추론 시 모델에 작업에 대한 몇 가지 시연이 제공되지만 가중치 업데이트는 허용되지 않는 설정을 참조하기 위해 이 작업에서 사용할 용어입니다.

그림 2.1에서 볼 수 있듯이 일반적인 데이터 세트의 예에는 컨텍스트와 원하는 완성(예: 영어 문장 및 프랑스어 번역)이 있으며, 몇 번의 작업으로 컨텍스트와 완성에 대한 K개의 예를 제공한 다음 하나의 최종 예를 제공합니다. 완성을 제공할 것으로 예상되는 모델과 함께 컨텍스트를 제공합니다. 모델의 컨텍스트 창(nctx = 2048)에 얼마나 많은 예제가 들어갈 수 있는지를 나타내기 때문에 일반적으로 K를 10~100 범위로 설정합니다. 퓨샷의 주요 장점은 작업별 데이터의 필요성이 크게 감소하고 크지만 좁은 미세 조정 데이터 세트에서 지나치게 좁은 분포를 학습할 가능성이 줄어든다는 것입니다. 가장 큰 단점은 이 방법의 결과가 지금까지 최첨단 미세 조정 모델보다 훨씬 나빴다는 것입니다. 또한 소량의 작업별 데이터가 여전히 필요합니다. 이름에서 알 수 있듯이 여기에 언어 모델에 대해 설명된 소수 학습은 ML의 다른 맥락에서 사용되는 소수 학습과 관련이 있습니다[HYC01, VBL+16]. 둘 다 광범위한 작업 배포를 기반으로 한 학습을 포함합니다( 이 경우 사전 훈련 데이터에 내재되어 있음) 그런 다음 새로운 작업에 빠르게 적응합니다.

One-Shot(1S)은 그림 1과 같이 작업에 대한 자연어 설명 외에 단 한 번의 데모만 허용된다는 점을 제외하면 Few-Shot과 동일합니다. 제로샷(아래)은 일부 작업이 인간에게 전달되는 방식과 가장 밀접하게 일치한다는 것입니다.

예를 들어 인간 작업자 서비스(예: Mechanical Turk)에 대한 데이터 세트를 생성하도록 인간에게 요청할 때 해당 작업에 대한 한 번의 시연을 제공하는 것이 일반적입니다. 대조적으로, 예시가 제공되지 않으면 작업의 내용이나 형식을 전달하는 것이 때로는 어렵습니다.

제로샷(0S)은 시연이 허용되지 않고 모델에 작업을 설명하는 자연어 지침만 제공된다는 점을 제외하면 원샷과 동일합니다. 이 방법은 최대의 편의성, 견고성 가능성 및 허위 상관관계 방지(큰 사전 학습 데이터 모음에서 매우 광범위하게 발생하지 않는 한)를 제공하지만 가장 어려운 설정이기도 합니다. 어떤 경우에는 사전 예 없이는 인간이 작업 형식을 이해하기 어려울 수도 있으므로 이 설정은 어떤 경우에는 "불공평하게 어렵습니다".

예를 들어, 누군가가 "200m 경주에 대한 세계 기록 표를 작성해 달라"고 요청받은 경우 이 요청은 모호할 수 있습니다. 표가 어떤 형식이어야 하는지, 무엇을 포함해야 하는지 명확하지 않을 수 있기 때문입니다. 설명, 원하는 것이 무엇인지 정확하게 이해하는 것이 어려울 수 있습니다.) 그럼에도 불구하고 적어도 일부 설정에서는 제로샷이 인간이 작업을 수행하는 방식과 가장 유사합니다. 예를 들어 그림 2.1의 번역 예에서 인간은 텍스트 명령만으로 무엇을 해야 할지 알 수 있습니다.

그림2.1 : Zero-shot, one-shot and few-shot, contrasted with traditional ﬁne-tuning. 위의 패널은 언어 모델을 사용하여 작업을 수행하는 네 가지 방법을 보여줍니다. 미세 조정은 전통적인 방법인 반면, 이 작업에서 연구하는 제로샷, 원샷, 소수 샷에서는 모델이 작업을 수행해야 합니다. 테스트 시간에는 정방향 패스만 가능합니다. 우리는 일반적으로 몇 개의 샷 설정에서 수십 개의 예제를 모델에 제시합니다. 모든 작업 설명, 예시 및 프롬프트에 대한 정확한 문구는 부록 G에서 확인할 수 있습니다.

그림 2.1은 영어를 프랑스어로 번역하는 예를 사용하여 네 가지 방법을 보여줍니다. 이 논문에서 우리는 제로샷, 원샷, 퓨샷에 초점을 맞춰 이를 경쟁 대안으로 비교하는 것이 아니라 특정 벤치마크의 성능과 샘플 효율성 사이의 다양한 균형을 제공하는 다양한 문제 설정으로 비교하는 것을 목표로 합니다.

우리는 특히 소수의 결과를 강조합니다. 왜냐하면 그 중 다수가 최첨단 미세 조정 모델보다 약간 뒤처져 있기 때문입니다.

그러나 궁극적으로 원샷 또는 때로는 제로샷이 인간의 성과에 대한 가장 공정한 비교처럼 보이며 향후 작업의 중요한 목표입니다.

아래 섹션 2.1-2.3에서는 각각 모델, 교육 데이터 및 교육 프로세스에 대한 세부 정보를 제공합니다. 섹션 2.4에서는 퓨샷, 원샷 및 제로샷 평가를 수행하는 방법에 대해 자세히 설명합니다.

표2.1 : 우리가 훈련한 모델의 크기, 아키텍처 및 학습 하이퍼 매개변수(토큰의 배치 크기 및 학습 속도). 모든 모델은 총 3,000억 개의 토큰에 대해 학습되었습니다.

2.1 Model and Architectures

우리는 수정된 초기화, 사전 정규화 및 거기에 설명된 가역적 토큰화를 포함하여 GPT-2 [RWC+19]와 동일한 모델과 아키텍처를 사용합니다. Sparse Transformer [CGRS19]와 유사한 변환기. 모델 크기에 대한 ML 성능의 의존성을 연구하기 위해 우리는 1억 2,500만 개의 매개변수에서 1,750억 개의 매개변수까지 3배 이상의 8가지 크기의 모델을 훈련합니다. 마지막 매개변수는 GPT-3이라고 부르는 모델입니다. 이전 연구 [KMH+20]에서는 충분한 훈련 데이터를 사용하면 검증 손실의 스케일링이 크기 함수로서 대략적으로 매끄러운 거듭제곱 법칙이 되어야 한다고 제안합니다. 다양한 크기의 훈련 모델을 사용하면 검증 손실과 다운스트림 언어 작업 모두에 대해 이 가설을 테스트할 수 있습니다.

표 2.1은 8개 모델의 크기와 아키텍처를 보여줍니다. 여기서 nparams는 훈련 가능한 매개변수의 총 수이고, nlayers는 레이어의 총 수이며, dmodel은 각 병목 현상 레이어의 단위 수입니다(우리는 항상 병목 현상 레이어 크기의 4배인 피드포워드 레이어를 가집니다. dﬀ = 4 * dmodel). dhead는 각 Attention Head의 차원입니다. 모든 모델은 nctx = 2048 토큰의 컨텍스트 창을 사용합니다. 노드 간 데이터 전송을 최소화하기 위해 깊이와 너비 차원을 따라 GPU 전체에 걸쳐 모델을 분할합니다. 각 모델의 정확한 아키텍처 매개변수는 GPU 전체 모델 레이아웃의 계산 효율성과 로드 밸런싱을 기반으로 선택됩니다. 이전 연구 [KMH+20]에서는 검증 손실이 합리적으로 넓은 범위 내에서 이러한 매개변수에 크게 민감하지 않다고 제안했습니다.

2.2 Training Dataset

언어 모델을 위한 데이터 세트는 빠르게 확장되어 거의 1조 단어로 구성된 Common Crawl 데이터 세트2[RSR+19]로 정점을 찍었습니다. 이 데이터 세트 크기는 동일한 시퀀스를 두 번 업데이트하지 않고도 가장 큰 모델을 교육하는 데 충분합니다. 그러나 필터링되지 않거나 가볍게 필터링된 일반 크롤링 버전은 선별된 데이터 세트보다 품질이 낮은 경향이 있는 것으로 나타났습니다. 따라서 우리는 데이터세트의 평균 품질을 개선하기 위해 다음과 같은 3가지 단계를 수행했습니다.

(1) 다양한 고품질 참조 말뭉치와의 유사성을 기반으로 CommonCrawl 버전을 다운로드하고 필터링했습니다.

(2) 중복을 방지하고 데이터 세트의 무결성을 유지하기 위해 데이터 세트 내 및 전체에서 문서 수준에서 퍼지 중복 제거를 수행했습니다. 과적합의 정확한 척도로 검증 세트를 유지했으며

(3) CommonCrawl을 강화하고 다양성을 높이기 위해 알려진 고품질 참조 말뭉치를 훈련 믹스에 추가했습니다.

처음 두 지점(공통 크롤링 처리)에 대한 자세한 내용은 부록 A에 설명되어 있습니다. 세 번째에는 링크를 스크랩하여 수집한 WebText 데이터세트[RWC+19]의 확장 버전을 포함하여 선별된 여러 고품질 데이터세트를 추가했습니다. 더 긴 기간이 소요되며 [KMH+20], 두 개의 인터넷 기반 서적 코퍼스(Books1 및 Books2)와 영어 Wikipedia에서 처음 설명되었습니다.

표 2.2는 훈련에 사용한 데이터 세트의 최종 혼합을 보여줍니다. CommonCrawl 데이터는 2016년부터 2019년까지 월별 CommonCrawl 샤드 41개에서 다운로드되었으며, 필터링 전 45TB, 필터링 후 570GB의 압축된 일반 텍스트로 구성되었으며, 이는 대략 4000억 바이트 쌍으로 인코딩된 토큰에 해당합니다. 학습 중에 데이터 세트는 크기에 비례하여 샘플링되지 않고 품질이 더 좋다고 판단되는 데이터 세트가 더 자주 샘플링됩니다. 예를 들어 CommonCrawl 및 Books2 데이터 세트는 학습 중에 한 번 미만으로 샘플링되지만 다른 데이터 세트는 2 -3번 샘플링됩니다. 이는 본질적으로 더 높은 품질의 훈련 데이터를 제공하는 대가로 소량의 과적합을 허용합니다.

그림2.2 : Total compute used during training. 신경 언어 모델에 대한 확장 법칙[KMH+20]의 분석을 기반으로 우리는 일반적인 것보다 훨씬 적은 토큰으로 훨씬 더 큰 모델을 훈련합니다. 결과적으로 GPT-3 3B는 RoBERTa-Large(355M 매개변수)보다 거의 10배 더 크지만 두 모델 모두 사전 학습 중에 약 50페타플롭/s-일의 컴퓨팅을 사용했습니다. 이러한 계산 방법은 부록 D에서 확인할 수 있습니다.

표2.2 : Datasets used to train GPT-3. "훈련 믹스의 가중치"는 주어진 데이터 세트에서 추출된 훈련 중 예시의 비율을 의미하며 의도적으로 데이터 세트의 크기에 비례하지 않습니다. 결과적으로 3,000억 개의 토큰을 훈련할 때 일부 데이터 세트는 훈련 중에 최대 3.4회 표시되는 반면 다른 데이터 세트는 1회 미만으로 표시됩니다.

광범위한 인터넷 데이터에 대해 사전 학습된 언어 모델, 특히 방대한 양의 콘텐츠를 기억할 수 있는 용량을 갖춘 대규모 모델에 대한 주요 방법론적 우려 사항은 사전 학습 중에 테스트 또는 개발 세트가 실수로 표시되어 다운스트림 작업이 오염될 수 있다는 것입니다. 이러한 오염을 줄이기 위해 우리는 이 문서에서 연구된 모든 벤치마크의 개발 및 테스트 세트와 중복되는 부분을 검색하고 제거하려고 시도했습니다.

불행히도 필터링의 버그로 인해 일부 중복을 무시할 수 있었고 훈련 비용으로 인해 모델을 재훈련하는 것이 불가능했습니다. 섹션 4에서는 나머지 중복의 영향을 특성화하고 향후 작업에서는 데이터 오염을 보다 적극적으로 제거할 것입니다.

2.3 Training Process

[KMH+20, MKAT18]에서 볼 수 있듯이 더 큰 모델은 일반적으로 더 큰 배치 크기를 사용할 수 있지만 더 작은 학습 속도가 필요합니다. 훈련 중에 그래디언트 노이즈 스케일을 측정하고 이를 사용하여 배치 크기 선택을 안내합니다[MKAT18]. 표 2.1은 우리가 사용한 매개변수 설정을 보여줍니다. 메모리 부족 없이 더 큰 모델을 훈련하기 위해 우리는 각 행렬 곱셈 내의 모델 병렬성과 네트워크 계층 전체의 모델 병렬성을 혼합하여 사용합니다. 모든 모델은 Microsoft에서 제공하는 고대역폭 클러스터의 일부인 V100 GPU에서 교육되었습니다. 훈련 과정과 하이퍼파라미터 설정에 대한 자세한 내용은 부록 B에 설명되어 있습니다.

2.4 Evaluation

퓨샷 학습의 경우 작업에 따라 1개 또는 2개의 줄바꿈으로 구분된 조건부로 해당 작업의 훈련 세트에서 K개의 예제를 무작위로 추출하여 평가 세트의 각 예제를 평가합니다. LAMBADA 및 Storycloze의 경우 지도 학습 세트가 없으므로 개발 세트에서 조건 예제를 추출하고 테스트 세트를 평가합니다. Winograd(SuperGLUE 버전이 아닌 원본)의 경우 데이터세트가 하나뿐이므로 여기에서 직접 조건 예제를 그립니다.

K는 0부터 모델의 컨텍스트 창에서 허용하는 최대값까지의 값이 될 수 있습니다. 이는 모든 모델에 대해 nctx = 2048이며 일반적으로 10~100개의 예시에 적합합니다. K 값이 클수록 일반적으로 더 좋지만 항상 더 좋은 것은 아니기 때문에 별도의 개발 세트와 테스트 세트를 사용할 수 있는 경우 개발 세트에서 몇 가지 K 값으로 실험한 다음 테스트 세트에서 가장 좋은 값을 실행합니다. 일부 작업(부록 G 참조)의 경우 데모 외에(또는 K = 0인 경우) 자연어 프롬프트도 사용합니다.

여러 옵션(객관식) 중에서 하나의 올바른 완성을 선택하는 작업에서 우리는 컨텍스트와 올바른 완성의 K개 예와 컨텍스트만의 예 1개를 제공하고 각 완료의 LM 가능성을 비교합니다. 대부분의 작업에 대해 토큰별 가능성을 비교하지만(길이에 대해 정규화하기 위해) 소수의 데이터 세트(ARC, OpenBookQA 및 RACE)에서는 각 작업의 무조건 확률로 정규화하여 개발 세트에서 측정된 추가 이점을 얻습니다. "P(completion|context) /P(completion|answer_context)"를 계산하여 완료. 여기서 일반적으로 응답 컨텍스트는 "Answer: " 또는 "A: " 문자열이고 완료가 응답이어야 하지만 그렇지 않은 경우 프롬프트에 사용됩니다.

이진 분류와 관련된 작업에서는 의미상 더 의미 있는 이름(예: 0이나 1이 아닌 "True" 또는 "False")을 옵션에 부여한 다음 작업을 객관식처럼 처리합니다. 또한 자세한 내용은 [RSR+19](부록 G 참조)에서 수행되는 작업과 유사한 작업을 구성하는 경우도 있습니다.

자유 형식 완성 작업에서는 [RSR+19]와 동일한 매개변수(빔 너비 4 및 길이 페널티 α = 0.6)를 사용하여 빔 검색을 사용합니다. 현재 데이터 세트의 표준에 따라 F1 유사성 점수, BLEU 또는 완전 일치를 사용하여 모델의 점수를 매깁니다.

최종 결과는 각 모델 크기 및 학습 설정(0회, 1회 및 소수)에 대해 공개적으로 사용 가능한 테스트 세트에 보고됩니다. 테스트 세트가 비공개인 경우 모델이 너무 커서 테스트 서버에 맞지 않는 경우가 많으므로 개발 세트에 대한 결과를 보고합니다. 우리는 제출 작업을 수행할 수 있었던 소수의 데이터 세트(SuperGLUE, TriviaQA, PiQa)에 대해 테스트 서버에 제출하고 200B개의 소수 결과만 제출하고 다른 모든 것에 대한 개발 세트 결과를 보고합니다.

3 Results

그림 3.1에는 섹션 2에서 설명한 8개 모델에 대한 훈련 곡선이 표시되어 있습니다. 이 그래프에는 매개변수가 100,000개에 불과한 6개의 추가 초소형 모델도 포함되어 있습니다. [KMH+20]에서 관찰된 바와 같이, 언어 모델링 성능은 훈련 계산을 효율적으로 사용할 때 거듭제곱 법칙을 따릅니다. 이 추세를 두 자릿수 더 확장한 후에는 거듭제곱 법칙에서 약간의 이탈(있는 경우)만 관찰됩니다. 교차 엔트로피 손실의 이러한 개선은 훈련 코퍼스의 허위 세부 사항을 모델링하는 것에서만 비롯된다는 점을 걱정할 수도 있습니다. 그러나 다음 섹션에서는 교차 엔트로피 손실의 개선이 광범위한 자연어 작업 전반에 걸쳐 일관된 성능 향상으로 이어진다는 것을 확인할 수 있습니다.

아래에서는 광범위한 데이터 세트에서 섹션 2에 설명된 8개 모델(1,750억 개의 매개변수 GPT-3 및 7개의 더 작은 모델)을 평가합니다. 우리는 데이터 세트를 대략 유사한 작업을 나타내는 9개의 범주로 그룹화합니다.

섹션 3.1에서는 전통적인 언어 모델링 작업과 Cloze 작업 및 문장/단락 완성 작업과 같이 언어 모델링과 유사한 작업을 평가합니다. 섹션 3.2에서는 일반 지식 질문에 대답하기 위해 모델의 매개변수에 저장된 정보를 사용해야 하는 "비공개" 질문 응답 작업을 평가합니다. 섹션 3.3에서는 모델의 언어 간 번역 능력(특히 원샷 및 퓨샷)을 평가합니다. 섹션 3.4에서는 Winograd 스키마와 유사한 작업에 대한 모델 성능을 평가합니다. 섹션 3.5에서는 상식적 추론이나 질문 답변과 관련된 데이터 세트를 평가합니다. 섹션 3.6에서는 독해 작업을 평가하고, 섹션 3.7에서는 SuperGLUE 벤치마크 제품군을 평가하며, 3.8에서는 NLI를 간략하게 살펴봅니다. 마지막으로 섹션 3.9에서는 상황 내 학습 능력을 조사하기 위해 특별히 고안된 몇 가지 추가 작업을 고안합니다. 이러한 작업은 즉석 추론, 적응 기술 또는 개방형 텍스트 합성에 중점을 둡니다. 퓨샷, 원샷, 제로샷 설정으로 모든 작업을 평가합니다.

그림3.1 : Smooth scaling of performance with compute. 성능(교차 엔트로피 검증 손실로 측정)은 훈련에 사용되는 컴퓨팅 양에 따른 거듭제곱 추세를 따릅니다. [KMH+20]에서 관찰된 멱법칙 동작은 예측 곡선과의 작은 편차만으로 추가로 2배 더 지속됩니다. 이 그림에서는 컴퓨팅 및 매개변수 수에서 임베딩 매개변수를 제외합니다.

표3.1 : Zero-shot results on PTB language modeling dataset. 다른 많은 공통 언어 모델링 데이터 세트는 Wikipedia 또는 GPT-3의 학습 데이터에 포함된 기타 소스에서 파생되었기 때문에 생략되었습니다. ^a[RWC+19]

3.1 Language Modeling, Cloze, and Completion Tasks

이 섹션에서는 언어 모델링이라는 전통적인 작업에 대한 GPT-3의 성능뿐만 아니라 관심 있는 단일 단어 예측, 문장 또는 단락 완성, 텍스트의 가능한 완성 중에서 선택과 관련된 작업도 테스트합니다.

3.1.1 Language Modeling

[RWC+19]에서 측정된 Penn Tree Bank(PTB) [MKM+94] 데이터 세트에서 제로 샷 혼란을 계산합니다. 우리는 훈련 데이터에 완전히 포함되어 있기 때문에 해당 작업에서 4개의 Wikipedia 관련 작업을 생략하고, 훈련 세트에 포함된 데이터 세트의 높은 부분으로 인해 10억 단어 벤치마크도 생략했습니다. PTB는 현대 인터넷보다 앞서서 이러한 문제를 피합니다. 우리의 가장 큰 모델은 PTB에 새로운 SOTA를 15포인트의 상당한 차이로 설정하여 20.50의 당혹도를 달성했습니다. PTB는 전통적인 언어 모델링 데이터세트이기 때문에 원샷 또는 퓨샷 평가를 정의하기 위한 예시가 명확하게 구분되어 있지 않으므로 제로샷만 측정합니다.

3.1.2 LAMBADA

LAMBADA 데이터 세트 [PKL+16]는 텍스트의 장거리 종속성 모델링을 테스트합니다. 모델은 문맥 단락을 읽어야 하는 문장의 마지막 단어를 예측하도록 요청받습니다. 최근에는 언어 모델의 지속적인 확장으로 인해 이 어려운 벤치마크에서 수익이 감소하고 있다는 주장이 제기되었습니다. [BHT+20]은 최근 두 최신 결과([SPP+19] 및 [Tur20]) 사이의 모델 크기를 두 배로 늘려 달성한 작은 1.5% 개선을 반영하고 "하드웨어 및 데이터 크기를 계속해서 확장하고 있습니다. 규모는 앞으로 나아갈 길이 아닙니다.” 우리는 그 경로가 여전히 유망하다는 것을 알았고 제로 샷 설정에서 GPT-3는 LAMBADA에서 76%를 달성했으며 이는 이전 기술 수준에 비해 8%의 이득입니다.

표3.2 : Performance on cloze and completion tasks. GPT-3는 LAMBADA의 SOTA를 크게 개선하는 동시에 두 가지 어려운 완료 예측 데이터 세트에서 상당한 성능을 달성했습니다.

그림3.2 : LAMBADA에서는 언어 모델의 몇 번의 샷 기능으로 인해 정확성이 크게 향상되었습니다. GPT-3 2.7B는 이 설정에서 SOTA 17B 매개변수 Turing-NLG [Tur20]보다 성능이 뛰어나며 GPT-3 175B는 최신 기술을 18% 향상시킵니다. 참고로 제로샷은 본문에 설명된 대로 원샷 및 퓨샷과 다른 형식을 사용합니다.

LAMBADA는 또한 이 데이터 세트에서 일반적으로 발생하는 문제를 해결하는 방법을 제공하므로 소수 학습의 유연성을 보여줍니다. LAMBADA의 완성은 항상 문장의 마지막 단어이지만 표준 언어 모델은 이 세부 사항을 알 수 없습니다. 따라서 올바른 결말뿐만 아니라 단락의 다른 유효한 연속에도 확률을 할당합니다. 이 문제는 과거에 불용어 필터[RWC+19]("연속" 단어를 금지함)를 통해 부분적으로 해결되었습니다. 대신 Few-Shot 설정을 사용하면 작업을 클로즈 테스트로 "구성"할 수 있으며 언어 모델이 예제에서 정확히 한 단어의 완성이 필요하다는 것을 추론할 수 있습니다. 우리는 다음과 같은 빈칸 채우기 형식을 사용합니다.

이러한 방식으로 형식화된 예제를 제시할 때 GPT-3는 Few-Shot 설정에서 이전 최첨단 기술보다 18% 이상 향상된 86.4%의 정확도를 달성합니다. 모델 크기에 따라 소수의 샷 성능이 크게 향상되는 것을 관찰했습니다. 이 설정은 가장 작은 모델의 성능을 거의 20% 감소시키는 반면, GPT-3의 경우 정확도를 10% 향상시킵니다. 마지막으로, 공백 채우기 방법은 효과적인 원샷이 아니며 항상 제로샷 설정보다 성능이 나쁩니다. 아마도 이는 모든 모델이 패턴을 인식하기 위해 여전히 여러 가지 예를 요구하기 때문일 것입니다.

표3.3 : Results on three Open-Domain QA tasks. GPT-3은 비공개 도서 및 공개 도메인 설정에 대한 이전 SOTA 결과와 비교하여 소수, 원샷 및 제로샷 설정으로 표시됩니다. TriviaQA 퓨샷 결과는 위키 분할 테스트 서버에서 평가됩니다.

한 가지 주의할 점은 테스트 세트 오염 분석을 통해 LAMBADA 데이터 세트의 상당수가 훈련 데이터에 존재하는 것으로 확인되었다는 점입니다. 그러나 섹션 4에서 수행된 분석에서는 성능에 미미한 영향을 미치는 것으로 나타났습니다.

3.1.3 HellaSwag

HellaSwag 데이터 세트 [ZHB+19]에는 스토리 또는 지침 세트에 대한 최상의 결말을 선택하는 작업이 포함됩니다. 예제는 인간(95.6% 정확도 달성)에게는 쉽게 유지하면서 언어 모델에서는 어렵게 만들기 위해 적대적으로 채굴되었습니다.

GPT-3는 원샷 설정에서 78.1%의 정확도, 퓨샷 설정에서 79.3%의 정확도를 달성하여 미세 조정된 1.5B 매개변수 언어 모델[ZHR+19]의 75.4% 정확도를 능가하지만 여전히 상당히 낮습니다. 이는 미세 조정된 다중 작업 모델 ALUM이 달성한 전체 SOTA 85.6%보다 높습니다.

3.1.4 StoryCloze

다음으로 StoryCloze 2016 데이터 세트 [MCH+16]에서 GPT-3을 평가합니다. 여기에는 5문장짜리 긴 이야기에 대한 올바른 결말 문장을 선택하는 작업이 포함됩니다. 여기서 GPT-3는 제로샷 설정에서 83.2%, 퓨샷 설정(K = 70)에서 87.7%를 달성했습니다. 이는 BERT 기반 모델[LDL19]을 사용하여 미세 조정된 SOTA보다 여전히 4.1% 낮지만 이전 제로 샷 결과에 비해 약 10% 향상됩니다.

3.2 Closed Book Question Answering

이 섹션에서는 광범위한 사실 지식에 대한 질문에 답하는 GPT-3의 능력을 측정합니다. 가능한 쿼리의 양이 엄청나게 많기 때문에 이 작업은 일반적으로 질문과 검색된 텍스트에 대해 답변을 생성하는 방법을 학습하는 모델과 함께 관련 텍스트를 찾기 위해 정보 검색 시스템을 사용하여 접근되었습니다. 이 설정을 사용하면 시스템이 잠재적으로 답변이 포함된 텍스트를 검색하고 조건을 지정할 수 있으므로 "오픈북"이라고 표시됩니다. [RRS20]은 최근 대규모 언어 모델이 보조 정보에 대한 조건 없이 질문에 직접 답하는 데 놀라울 정도로 잘 수행될 수 있음을 보여주었습니다. 그들은 이 보다 제한적인 평가 설정을 "비공개"라고 표시합니다. 그들의 연구는 더 높은 용량의 모델이 더 나은 성능을 발휘할 수 있음을 시사하며 우리는 이 가설을 GPT-3으로 테스트합니다. 우리는 동일한 분할을 사용하여 [RRS20]의 3개 데이터 세트인 Natural Question[KPR+19], WebQuestions[BCFL13] 및 TriviaQA[JCWZ17]에서 GPT-3를 평가합니다. 모든 결과가 비공개로 설정되는 것 외에도 퓨샷, 원샷 및 제로샷 평가 사용은 이전의 비공개 북 QA 작업보다 훨씬 더 엄격한 설정을 나타냅니다. 외부 콘텐츠가 허용되지 않는 것 외에도 Q&A 데이터 세트 자체에 대한 미세 조정도 허용되지 않습니다.

GPT-3에 대한 결과는 표 3.3에 나와 있습니다. TriviaQA에서는 제로샷 설정에서 64.3%, 원샷 설정에서 68.0%, 퓨샷 설정에서 71.2%를 달성했습니다. 제로샷 결과는 이미 미세 조정된 T5-11B보다 14.2% 더 뛰어나고, 사전 훈련 중 Q&A 맞춤형 범위 예측 버전보다 3.8% 더 뛰어납니다. 일회성 결과는 3.7% 향상되었으며 미세 조정뿐만 아니라 21M 문서의 15.3B 매개변수 밀도 벡터 인덱스에 대해 학습된 검색 메커니즘을 사용하는 개방형 도메인 QA 시스템의 SOTA와 일치합니다[LPP+20 ].

GPT-3의 Few-shot 결과는 이를 넘어 3.2% 더 성능을 향상시킵니다.

WebQuestions(WebQs)에서 GPT-3는 제로샷 설정에서 14.4%, 원샷 설정에서 25.3%, 퓨샷 설정에서 41.5%를 달성했습니다. 이는 미세 조정된 T5-11B의 경우 37.4%, Q&A별 사전 훈련 절차를 사용하는 미세 조정된 T5-11B+SSM의 경우 44.7%와 비교됩니다. Few-shot 설정의 GPT-3은 최첨단 미세 조정 모델의 성능에 접근합니다. 특히 TriviaQA와 비교하여 WebQS는 제로샷에서 퓨샷까지 훨씬 더 큰 이득을 보여줍니다(실제로 제로샷 및 원샷 성능이 좋지 않음). 이는 아마도 WebQs 질문 및/또는 답변 스타일을 암시할 수 있습니다. GPT-3에는 배포되지 않습니다. 그럼에도 불구하고 GPT-3는 이러한 분포에 적응할 수 있는 것으로 보이며 몇 장의 샷 설정에서 강력한 성능을 회복합니다.

그림3.3 : TriviaQA에서 GPT3의 성능은 모델 크기에 따라 원활하게 증가하며, 이는 언어 모델이 용량이 증가함에 따라 계속해서 지식을 흡수함을 시사합니다. 원샷 및 퓨샷 성능은 제로샷 동작에 비해 상당한 이점을 제공하며 SOTA 미세 조정 개방형 도메인 모델인 RAG [LPP+20]의 성능과 일치하거나 이를 능가합니다.

NQs(Natural Question)에서 GPT-3는 제로샷 설정에서 14.6%, 원샷 설정에서 23.0%, 퓨샷 설정에서 29.9%를 달성한 반면, 미세 조정된 T5 11B+SSM의 경우 36.6%를 달성했습니다. WebQS와 유사하게, 제로 샷에서 퓨 샷으로의 큰 이득은 배포 변화를 암시할 수 있으며 TriviaQA 및 WebQS에 비해 경쟁력이 떨어지는 성능을 설명할 수도 있습니다. 특히 NQ의 질문은 특히 GPT-3의 용량 및 광범위한 사전 훈련 분포의 한계를 테스트할 수 있는 Wikipedia에 대한 매우 세분화된 지식에 대한 경향이 있습니다.

전반적으로 세 가지 데이터 세트 중 하나에서 GPT-3의 원샷은 개방형 도메인 미세 조정 SOTA와 일치합니다. 다른 두 데이터 세트에서는 미세 조정을 사용하지 않음에도 불구하고 폐쇄형 SOTA의 성능에 접근합니다. 3개 데이터세트 모두에서 모델 크기에 따라 성능이 매우 원활하게 확장되는 것을 발견했습니다(그림 3.3 및 부록 H 그림 H.7). 이는 모델 용량이 모델 매개변수에 흡수된 더 많은 '지식'으로 직접 변환된다는 아이디어를 반영할 수 있습니다.

3.3 Translation

GPT-2의 경우 용량 문제로 인해 영어 전용 데이터 세트를 생성하기 위해 다국어 문서 모음에 필터가 사용되었습니다. 이러한 필터링에도 불구하고 GPT-2는 다국어 기능의 일부 증거를 보여주었으며 남은 프랑스어 텍스트 10MB에 대해서만 훈련했음에도 불구하고 프랑스어와 영어 간 번역 시 적지 않게 수행되었습니다. GPT-2에서 GPT-3으로 용량을 2배 이상 늘리기 때문에 다른 언어에 대한 더 많은 표현을 포함하도록 훈련 데이터 세트의 범위도 확장하지만 이는 여전히 추가 개선이 필요한 영역입니다. 2.2에서 설명한 대로 데이터의 대부분은 품질 기반 필터링만 사용하여 원시 일반 크롤링에서 파생됩니다. GPT-3의 훈련 데이터는 여전히 주로 영어(단어 수 기준 93%)이지만, 다른 언어로 된 텍스트도 7% 포함되어 있습니다. 이러한 언어는 보충 자료에 문서화되어 있습니다. 번역 기능을 더 잘 이해하기 위해 우리는 또한 일반적으로 연구되는 두 가지 추가 언어인 독일어와 루마니아어를 포함하도록 분석을 확장합니다.

기존의 비지도 기계 번역 접근 방식은 종종 한 쌍의 단일 언어 데이터 세트에 대한 사전 훈련과 역번역[SHB15]을 결합하여 두 언어를 제어된 방식으로 연결합니다. 이와 대조적으로 GPT-3는 여러 언어를 자연스럽게 혼합하여 단어, 문장 및 문서 수준에서 결합하는 혼합 학습 데이터를 통해 학습합니다. GPT-3은 또한 특정 작업에 맞게 맞춤화되거나 설계되지 않은 단일 훈련 목표를 사용합니다. 그러나 우리의 원샷/몇 샷 설정은 적은 양의 쌍을 이루는 예제(1 또는 64)를 사용하기 때문에 이전의 감독되지 않은 작업과 엄격하게 비교할 수 없습니다. 이는 상황 내 학습 데이터의 최대 한두 페이지에 해당합니다.

결과는 표 3.4에 나와 있습니다. 작업에 대한 자연어 설명만 수신하는 제로샷 GPT-3은 최근 감독되지 않은 NMT 결과보다 성능이 여전히 낮습니다. 그러나 각 번역 작업에 대해 하나의 예제 데모만 제공하면 7 BLEU 이상의 성능이 향상되고 이전 작업에 비해 경쟁력 있는 성능에 가까워집니다. 전체 몇 샷 설정의 GPT-3은 또 다른 4개의 BLEU를 더욱 향상시켜 이전의 감독되지 않은 NMT 작업과 비슷한 평균 성능을 제공합니다. GPT-3은 언어 방향에 따라 성능이 눈에 띄게 왜곡됩니다. 연구된 세 가지 입력 언어의 경우 GPT-3는 영어로 번역할 때 이전의 감독되지 않은 NMT 작업보다 훨씬 뛰어난 성능을 보였지만 다른 방향으로 번역할 때는 성능이 낮았습니다. En-Ro의 성능은 이전의 감독되지 않은 NMT 작업보다 10 BLEU가 넘는 눈에 띄는 이상치입니다. 이는 거의 전적으로 영어 교육 데이터세트용으로 개발된 GPT-2의 바이트 수준 BPE 토크나이저를 재사용하기 때문에 약점이 될 수 있습니다. Fr-En과 De-En 모두에서 GPT-3의 소수 샷은 우리가 찾을 수 있는 최고의 지도 결과보다 성능이 뛰어났지만 문헌에 대한 익숙하지 않고 이것이 경쟁적이지 않은 벤치마크인 것처럼 보이기 때문에 이러한 결과가 진정한 SOTA를 나타내는 것으로 의심되지 않습니다.

Ro-En의 경우 GPT-3는 전체 SOTA의 0.5 BLEU 내에서 수행되는 샷이 거의 없습니다. 이는 감독되지 않은 사전 훈련, 608K 레이블이 지정된 예제에 대한 감독된 미세 조정 및 역번역 [LHCG19b]의 조합을 통해 달성됩니다.

표3.4 : Few-shot GPT-3는 영어 LM으로서의 강점을 반영하여 영어로 번역할 때 이전의 감독되지 않은 NMT 작업보다 5 BLEU 성능이 뛰어납니다. 이전의 감독되지 않은 데이터와 가장 밀접하게 비교하기 위해 XLM의 토큰화를 사용하여 multi-bleu.perl로 측정한 WMT'14 Fr‐En, WMT'16 De‐En 및 WMT'16 Ro‐En 데이터 세트에 대한 BLEU 점수를 보고합니다. NMT 작업입니다. SacreBLEUf [Pos18] 결과는 부록 H에 보고되어 있습니다. 밑줄은 비지도 또는 퓨샷 SOTA를 나타내고, 굵은 글씨는 상대적 신뢰도가 있는 감독 SOTA를 나타냅니다. a[EOAG18] b[DHKH14] c[WXH+18] d[oR16] e[LGG+20] f [SacreBLEU signature: LEU+case.mixed+numrefs.1+smooth.exp+tok.intl+version.1.2.20]

그림3.4 : 모델 용량이 증가함에 따라 6개 언어 쌍에 대한 퓨샷 번역 성능이 향상됩니다. 모델이 확장됨에 따라 모든 데이터 세트에서 일관된 개선 추세가 나타나고 영어 번역이 영어 번역보다 더 강한 경향이 있습니다.

표3.5 : Winograd 스키마의 WSC273 버전과 적대적인 Winogrande 데이터 세트에 대한 결과입니다. Winograd 테스트 세트의 잠재적인 오염에 대한 자세한 내용은 섹션 4를 참조하십시오. a[SBBC19] b[LYN+20]

그림3.5 : 모델 용량이 확장됨에 따라 적대적인 Winogrande 데이터세트에 대한 제로, 원, 퓨샷 성능. 모델 크기에 따라 소수 샷 학습의 이점이 증가하여 스케일링이 상대적으로 원활하며 소수 샷 GPT-3 175B는 미세 조정된 RoBERTA-large와 경쟁적입니다.

마지막으로 모든 언어 쌍과 세 가지 설정(제로, 원샷, 소수) 전체에서 모델 용량이 원활하게 개선되는 추세입니다. 이는 소수 샷 결과의 경우 그림 3.4에 나와 있으며 세 가지 설정 모두에 대한 스케일링은 부록 H에 나와 있습니다.

3.4 Winograd-Style Tasks

Winograd Schemas Challenge [LDM12]는 대명사가 문법적으로는 모호하지만 의미상으로는 인간에게 명확할 때 대명사가 가리키는 단어를 결정하는 것과 관련된 NLP의 고전적인 작업입니다. 최근 미세 조정된 언어 모델은 원본 Winograd 데이터 세트에서 인간에 가까운 성능을 달성했지만, 적대적으로 채굴된 Winogrande 데이터 세트[SBBC19]와 같은 더 어려운 버전은 여전히 인간 성능에 크게 뒤떨어져 있습니다. 평소와 같이 0회, 1회, 소수 설정에서 Winograd와 Winogrande 모두에서 GPT-3의 성능을 테스트합니다.

표3.6 : 세 가지 상식 추론 작업인 PIQA, ARC 및 OpenBookQA에 대해 설명합니다. GPT-3 Few-Shot PIQA 결과는 테스트 서버에서 평가됩니다. PIQA 테스트 세트의 잠재적인 오염 문제에 대한 자세한 내용은 섹션 4를 참조하십시오.

그림3.6 : 제로샷, 원샷, 퓨샷 설정의 PIQA에 대한 GPT-3 결과입니다. 가장 큰 모델은 세 가지 조건 모두에서 작업에 대해 기록된 최고 점수를 초과하는 개발 세트 점수를 달성합니다.

Winograd에서는 [RWC+19]에 설명된 것과 동일한 "부분 평가" 방법을 사용하여 원본 273개의 Winograd 스키마 세트에서 GPT-3를 테스트합니다. 이 설정은 이진 분류로 표시되고 이 섹션에 설명된 형식으로 변환하려면 엔터티 추출이 필요한 SuperGLUE 벤치마크의 WSC 작업과 약간 다릅니다. Winograd에서 GPT-3는 제로샷, 원샷 및 퓨샷 설정에서 88.3%, 89.7% 및 88.6%를 달성하여 명확한 상황 내 학습을 보여주지 않지만 모든 경우에 몇 가지 포인트 아래에서 강력한 결과를 달성합니다. 최첨단 및 추정 인간 성능. 오염 분석을 통해 훈련 데이터에서 일부 Winograd 스키마가 발견되었지만 이는 결과에 미미한 영향만 미치는 것으로 나타났습니다(섹션 4 참조).

더 어려운 Winogrande 데이터세트에서는 상황 내 학습의 이점을 발견했습니다. GPT-3는 제로샷 설정에서 70.2%, 원샷 설정에서 73.2%, 퓨샷 설정에서 77.7%를 달성했습니다. 비교를 위해 미세 조정된 RoBERTA 모델은 79%를 달성하고, 최첨단은 미세 조정된 고용량 모델(T5)을 사용하여 84.6%를 달성하며, [SBBC19]에서 보고된 작업에 대한 인간 성능은 94.0%입니다.

3.5 Common Sense Reasoning

다음으로 우리는 문장 완성, 독해 또는 광범위한 지식 질문 답변과 구별되는 물리적 또는 과학적 추론을 포착하려고 시도하는 세 가지 데이터 세트를 고려합니다. 첫 번째인 PhysicalQA(PIQA) [BZB+19]는 물리적 세계가 어떻게 작동하는지에 대한 상식적인 질문을 하며 세계에 대한 기초적인 이해를 탐구하기 위한 것입니다. GPT-3는 제로샷 정확도 81.0%, 원샷 정확도 80.5%, 퓨샷 정확도 82.8%(PIQA 테스트 서버에서 마지막 측정)를 달성했습니다. 이는 미세 조정된 RoBERTa의 이전 최첨단 정확도 79.4%와 비교하면 좋습니다. PIQA는 모델 크기에 따라 상대적으로 얕은 스케일링을 보여 여전히 인간 성능보다 10% 이상 떨어지지만 GPT-3의 퓨샷, 심지어 제로샷 결과는 현재의 최첨단 성능을 능가합니다. 우리의 분석에서는 PIQA에 잠재적인 데이터 오염 문제(숨겨진 테스트 라벨에도 불구하고)가 표시되었으므로 결과를 보수적으로 별표로 표시했습니다. 자세한 내용은 섹션 4를 참조하세요.

표3.7 : 독해 과제 결과. 정확성을 보고하는 RACE 결과를 제외한 모든 점수는 F1입니다.

a[JZC+19] b[JN20] c[AI19] d[QIA20] e[SPP+19]

ARC [CCE+18]는 3~9학년 과학 시험에서 수집된 객관식 문제의 데이터세트입니다. 단순한 통계 또는 정보 검색 방법으로는 정확하게 답할 수 없는 질문으로 필터링된 데이터세트의 "챌린지" 버전에서 GPT-3는 제로샷 설정에서 51.4%의 정확도, 원샷 설정에서 53.2%의 정확도를 달성했습니다. 퓨샷 설정에서는 51.5%입니다. 이는 UniifiedQA[KKS+20]의 미세 조정된 RoBERTa 기준(55.9%) 성능에 접근하고 있습니다. 데이터 세트의 "Easy" 버전(언급된 기준 접근 방식 중 하나가 올바르게 대답한 질문)에서 GPT-3는 [KKS+20]의 미세 조정된 RoBERTa 기준을 약간 초과하는 68.8%, 71.2% 및 70.1%를 달성합니다. . 그러나 이 두 결과 모두 GPT-3의 몇 번의 샷 결과를 챌린지 세트에서 27%, 쉬운 세트에서 22% 초과하는 UniifiedQA가 달성한 전체 SOTA보다 여전히 훨씬 나쁩니다.

OpenBookQA [MCKS18]에서 GPT-3은 0에서 소수의 샷 설정으로 크게 향상되었지만 여전히 전체 SOTA보다 20포인트 이상 부족합니다. GPT-3의 퓨샷 성능은 리더보드의 미세 조정된 BERT Large 기준선과 유사합니다.

전반적으로 GPT-3을 사용한 상황 내 학습은 상식 추론 작업에서 혼합된 결과를 보여줍니다. PIQA와 ARC 모두에 대한 1회 및 몇 번의 학습 설정에서는 작고 일관되지 않은 이득만 관찰되었지만 OpenBookQA에서는 상당한 개선이 관찰되었습니다. GPT-3은 모든 평가 설정에서 새로운 PIQA 데이터 세트에 SOTA를 설정합니다.

3.6 Reading Comprehension

다음으로 우리는 독해 작업에 관해 GPT-3를 평가합니다. 우리는 대화 및 단일 질문 설정 모두에서 추상형, 객관식 및 범위 기반 답변 형식을 포함한 5가지 데이터세트 모음을 사용합니다. 우리는 이러한 데이터 세트 전반에 걸쳐 GPT-3의 성능이 광범위하게 퍼져 있음을 관찰했는데, 이는 다양한 답변 형식의 다양한 기능을 암시합니다. 일반적으로 우리는 GPT-3가 초기 기준 및 각 데이터 세트에 대한 상황별 표현을 사용하여 훈련된 초기 결과와 동등하다는 것을 관찰합니다.

GPT-3는 자유 형식 대화 데이터세트인 CoQA [RCM19]에서 가장 좋은 성능을 발휘하고(인간 기준선의 3포인트 이내) 구조화된 대화 모델링이 필요한 데이터세트인 QuAC [CHI+18]에서 최악의 성능을 발휘합니다(ELMo 기준선 아래 13 F1). 행동과 대답은 교사-학생 상호 작용의 선택 범위에 걸쳐 있습니다. 독해의 맥락에서 이산적 추론과 수리력을 테스트하는 데이터세트인 DROP [DWD+19]에서 몇 번의 샷 설정에서 GPT-3는 원본 논문의 미세 조정된 BERT 기준선보다 성능이 뛰어나지만 여전히 인간 성능보다 훨씬 낮습니다. 기호 시스템으로 신경망을 강화하는 최첨단 접근 방식 [RLL+19]. SQuAD 2.0 [RJL18]에서 GPT-3는 제로 샷 설정에 비해 거의 10 F1(69.8까지) 향상되는 퓨샷 학습 기능을 보여줍니다. 이를 통해 원본 논문에서 가장 잘 조정된 결과를 약간 능가할 수 있습니다. 중학교 및 고등학교 영어 시험의 객관식 데이터 세트인 RACE [LXL+17]에서 GPT-3은 상대적으로 약한 성능을 발휘하며 상황별 표현을 활용하는 초기 작업과만 경쟁적이며 여전히 SOTA보다 45% 뒤쳐져 있습니다.

3.7 SuperGLUE

NLP 작업에 대한 결과를 더 효과적으로 집계하고 보다 체계적인 방식으로 BERT 및 RoBERTa와 같은 인기 모델과 비교하기 위해 표준화된 데이터 세트 컬렉션인 SuperGLUE 벤치마크 [WPN+19] [WPN+19에서 GPT-3를 평가합니다. ] [CLC+19] [DMST19] [RBG11] [KCR+18] [ZLL+18] [DGM06] [BHDD+06] [GMDD07] [BDD+09] [PCC18] [PHR+18]. SuperGLUE 데이터 세트에 대한 GPT-3의 테스트 세트 성능은 표 3.8에 나와 있습니다. 퓨샷 설정에서는 훈련 세트에서 무작위로 샘플링된 모든 작업에 대해 32개의 예제를 사용했습니다. WSC 및 MultiRC를 제외한 모든 작업에 대해 각 문제의 맥락에서 사용할 새로운 예제 세트를 샘플링했습니다. WSC와 MultiRC의 경우, 우리가 평가한 모든 문제에 대한 맥락으로 훈련 세트에서 무작위로 추출된 동일한 예제 세트를 사용했습니다.

그림3.7 : CoQA 독해 작업에 대한 GPT-3 결과. GPT-3 175B는 몇 번의 샷 설정에서 85 F1을 달성하며, 측정된 인간 성능과 최첨단 미세 조정 모델보다 불과 몇 점 뒤처져 있습니다. 제로샷 및 원샷 성능은 몇 점 뒤쳐져 있으며, 더 큰 모델의 경우 퓨샷의 성능 향상이 가장 큽니다.

표3.8 : 미세 조정된 기준선 및 SOTA와 비교한 SuperGLUE의 GPT-3 성능. 모든 결과는 테스트 세트에 보고됩니다. GPT-3 퓨샷에는 각 작업의 맥락 내에서 총 32개의 예제가 제공되며 그라데이션 업데이트를 수행하지 않습니다.

그림3.8 : SuperGLUE의 성능은 모델 크기와 컨텍스트 내 예제 수에 따라 증가합니다. K = 32 값은 우리 모델이 작업당 32개의 예제를 표시했으며 SuperGLUE의 8개 작업에 총 256개의 예제가 나누어져 있음을 의미합니다. 우리는 개발 세트에 GPT-3 값을 보고하므로 숫자는 점선 참조선과 직접적으로 비교할 수 없습니다(테스트 세트 결과는 표 3.8에 나와 있습니다). BERT-Large 참조 모델은 SuperGLUE 훈련 세트(125K 예)에서 미세 조정된 반면 BERT++는 MultiNLI(392K 예) 및 SWAG(113K 예)에서 먼저 미세 조정된 후 SuperGLUE 훈련 세트( 총 630K개의 미세 조정 예). 우리는 BERT-Large와 BERT++ 간의 성능 차이가 컨텍스트당 하나의 예제와 컨텍스트당 8개의 예제가 있는 GPT-3의 차이와 거의 동일하다는 것을 발견했습니다.

우리는 작업 전반에 걸쳐 GPT-3의 성능이 폭넓게 관찰됩니다. COPA 및 ReCoRD에서 GPT-3는 원샷 및 퓨샷 설정에서 SOTA에 가까운 성능을 달성했으며 COPA는 단 몇 포인트 부족하고 리더보드에서 2위를 차지했습니다. 여기서 1위는 미세 조정된 110억 개의 매개변수 모델(T5)이 차지했습니다.

WSC에서는 성능이 여전히 상대적으로 강하여 몇 번의 샷 설정에서 80.1%를 달성합니다(섹션 3.4에 설명된 대로 GPT-3는 원래 Winograd 데이터 세트에서 88.6%를 달성합니다). BoolQ, MultiRC 및 RTE에서는 성능이 합리적이며 미세 조정된 BERT-Large의 성능과 거의 일치합니다. CB에서는 퓨샷 설정에서 75.6%로 수명의 징후가 보입니다.

WiC는 퓨샷 성능이 49.4%(랜덤 확률)로 눈에 띄는 약점이다. 우리는 WiC에 대해 여러 가지 다양한 표현과 공식(단어가 두 문장에서 동일한 의미로 사용되는지 확인하는 작업 포함)을 시도했지만 어느 것도 강력한 성능을 달성하지 못했습니다. 이는 다음 섹션(ANLI 벤치마크에 대해 논의)에서 더 명확해질 현상을 암시합니다. GPT-3는 두 문장 또는 스니펫을 비교하는 일부 작업에서 몇 번 또는 한 번 설정에서 약한 것으로 보입니다. 예를 들어 단어가 두 문장(WiC)에서 동일한 방식으로 사용되는지, 한 문장이 다른 문장의 의역인지, 한 문장이 다른 문장을 의미하는지 여부입니다. 이는 또한 이 형식을 따르는 RTE 및 CB의 점수가 비교적 낮은 것을 설명할 수도 있습니다. 이러한 약점에도 불구하고 GPT-3는 여전히 8개 작업 중 4개 작업에서 미세 조정된 BERT-large를 능가하며 2개 작업에서 GPT-3는 미세 조정된 110억 매개변수 모델이 보유한 최첨단 성능에 가깝습니다.

마지막으로, 퓨샷 SuperGLUE 점수는 모델 크기와 컨텍스트 내 예제 수에 따라 꾸준히 향상되어 컨텍스트 내 학습의 이점이 증가함을 보여줍니다(그림 3.8). K를 작업당 최대 32개의 예시로 확장하고 그 이후에는 추가 예시가 우리의 상황에 안정적으로 맞지 않습니다. K 값을 전체적으로 살펴보면 GPT-3가 전체 SuperGLUE 점수에서 미세 조정된 BERT-Large보다 뛰어난 성능을 발휘하기 위해 작업당 총 8개 미만의 예제가 필요하다는 것을 알 수 있습니다.

3.8 NLI

자연어 추론(NLI) [Fyo00]은 두 문장 사이의 관계를 이해하는 능력에 관한 것입니다.

실제로 이 작업은 일반적으로 모델이 두 번째 문장이 첫 번째 문장에서 논리적으로 따르는지, 첫 번째 문장과 모순되는지, 아니면 참(중립)인지를 분류하는 2개 또는 3개의 클래스 분류 문제로 구성됩니다.

SuperGLUE에는 작업의 바이너리 버전을 평가하는 NLI 데이터세트인 RTE가 포함되어 있습니다. RTE에서는 가장 큰 버전의 GPT-3만이 모든 평가 설정에서 무작위(56%)보다 확실히 더 나은 성능을 발휘하지만 몇 번의 샷 설정에서는 GPT-3가 단일 작업으로 미세 조정된 BERT Large와 유사하게 성능을 발휘합니다. 또한 최근 도입된 ANLI(Adversarial Natural Language Inference) 데이터세트[NWD+19]를 평가합니다. ANLI는 세 라운드(R1, R2, R3)에 걸쳐 적대적으로 채굴된 일련의 자연어 추론 질문을 사용하는 어려운 데이터세트입니다. RTE와 유사하게 GPT-3보다 작은 모든 모델은 몇 번의 샷 설정(~33%)에서도 ANLI에서 거의 정확히 무작위로 수행되는 반면, GPT-3 자체는 라운드 3에서 수명의 징후를 보여줍니다. ANLI R3은 그림 3.9에 강조 표시되어 있으며 모든 라운드에 대한 전체 결과는 부록 H에서 확인할 수 있습니다. RTE와 ANLI에 대한 이러한 결과는 NLI가 여전히 언어 모델에 대해 매우 어려운 작업이며 이제 막 진전의 조짐을 보이기 시작했음을 시사합니다.

그림3.9 : ANI 라운드 3에서 GP1-3의 성능. 결과는 개발 세트에 있습니다. 이는 1500개의 예만 가지고 있으므로 분산이 높습니다(표준편차는 1.2%로 추정됩니다). 우리는 더 작은 모델이 무작위 기회 주위를 맴돌고 있는 반면, tew-shot UP 1-3 173B는 무작위 기회에서 sOlA까지의 격차를 거의 멈추는 것을 발견했습니다. ANIL 라운드1 및 2에 대한 결과는 부록에 나와 있습니다.

3.9 Synthetic and Qualitative Tasks

퓨샷(또는 제로 및 원샷) 설정에서 GPT-3의 능력 범위를 조사하는 한 가지 방법은 간단한 즉석 계산 추론을 수행해야 하는 작업을 제공하고, 다음과 같은 새로운 패턴을 인식하는 것입니다. 훈련 중에 일어날 가능성이 적거나 특이한 작업에 빠르게 적응합니다. 우리는 이러한 종류의 능력을 테스트하기 위해 몇 가지 작업을 고안합니다. 먼저, GPT-3의 산술 수행 능력을 테스트합니다. 둘째, 단어의 문자를 재배열하거나 해독하는 작업과 관련된 여러 작업을 생성합니다. 이러한 작업은 훈련 중에 정확히 볼 수 없는 작업입니다. 셋째, SAT 스타일 유추 문제를 몇 번에 해결하는 GPT-3의 능력을 테스트합니다. 마지막으로 문장에서 새로운 단어 사용, 영어 문법 수정, 뉴스 기사 생성 등 여러 정성적 작업에 대해 GPT-3를 테스트합니다. 우리는 언어 모델의 테스트 시간 동작에 대한 추가 연구를 자극하기 위해 합성 데이터 세트를 출시할 것입니다.

3.9.1 Arithmetic

작업별 교육 없이 간단한 산술 연산을 수행하는 GPT-3의 능력을 테스트하기 위해 우리는 GPT-3에 자연어로 간단한 산술 문제를 묻는 것과 관련된 10개의 테스트로 구성된 작은 배터리를 개발했습니다.

2 digit addition (2D+) : 모델은 질문 형식으로 표현된 [0,100)에서 균일하게 샘플링된 두 개의 정수를 추가하도록 요청받습니다. “질문: 48 더하기 76은 무엇입니까? 답: 124.”

2 digit subtraction (2D-) : 모델은 [0,100)에서 균일하게 샘플링된 두 정수를 빼도록 요청받습니다. 대답은 부정적일 수 있습니다. 예: “질문: 34 빼기 53은 무엇입니까? 답: -19인치.

3 digit addition (3D+) : 숫자가 [0,1000)에서 균일하게 샘플링된다는 점을 제외하면 2자리 덧셈과 동일합니다.

3 digit subtraction (3D-) : 숫자가 [0,1000)에서 균일하게 샘플링된다는 점을 제외하면 2자리 뺄셈과 동일합니다

4 digit addition (4D+) : [0,10000)에서 균일하게 샘플링된다는 점을 제외하면 3자리 덧셈과 동일합니다.

4 digit subtraction (4D-) : [0,10000)에서 균일하게 샘플링된다는 점을 제외하면 3자리 뺄셈과 동일합니다.

5 digit addition (5D+) : [0,100000)에서 균일하게 샘플링된다는 점을 제외하면 3자리 덧셈과 동일합니다.

5 digit subtraction (5D-) : [0,100000)에서 균일하게 샘플링된다는 점을 제외하면 3자리 뺄셈과 동일합니다.

2 digit multiplication (2Dx) : 모델은 [0,100)에서 균일하게 샘플링된 두 정수를 곱하도록 요청됩니다. “질문: 24 곱하기 42는 무엇인가요? 답: 1008”.

One-digit composite (1DC) : 모델은 마지막 두 자리를 괄호로 묶은 세 개의 1자리 숫자에 대해 복합 연산을 수행하도록 요청받습니다. 예를 들어, “Q: 6+(4*8)은 무엇입니까? 답변: 38인치입니다. 1자리 숫자 3개는 [0,10)에서 균일하게 선택되고 연산은 {+,-,*}에서 균일하게 선택됩니다.

그림3.10 : 다양한 크기의 모델에 대한 몇 번의 샷 설정에서 10가지 산술 작업 모두에 대한 결과입니다. 두 번째로 큰 모델(GPT-3 13B)에서 가장 큰 모델(GPT-3 175)로 상당한 도약이 있으며, 후자는 안정적으로 정확한 2자리 산술, 일반적으로 정확한 3자리 산술을 수행하고 상당한 정답을 맞힐 수 있습니다. 4-5자리 산술, 2자리 곱셈 및 복합 연산에 소요되는 시간의 일부입니다. 원샷과 제로샷의 결과는 부록에 나와 있습니다.

10가지 작업 모두에서 모델은 정답을 정확하게 생성해야 합니다. 각 작업에 대해 작업의 무작위 인스턴스 2,000개로 구성된 데이터 세트를 생성하고 해당 인스턴스의 모든 모델을 평가합니다.

먼저 몇 번의 샷 설정에서 GPT-3을 평가했으며 그 결과는 그림 3.10에 나와 있습니다. 덧셈과 뺄셈에서는 GPT-3가 두 자리 덧셈 정확도 100%, 두 자리 뺄셈 98.9%, 세 자리 덧셈 80.2%, 세 자리 뺄셈 94.2%로 자릿수가 적을 때 강력한 능력을 발휘합니다. 자릿수가 증가함에 따라 성능은 감소하지만 GPT-3은 여전히 4자리 연산에서 25~26%의 정확도, 5자리 연산에서 9~10%의 정확도를 달성하여 더 많은 자릿수로 일반화할 수 있는 어느 정도의 능력을 제안합니다. GPT-3은 또한 특히 계산 집약적인 연산인 2자리 곱셈에서 29.2%의 정확도를 달성합니다. 마지막으로 GPT-3는 한자리 결합 연산(예: 9*(7+5))에서 21.3%의 정확도를 달성했는데, 이는 단순한 단일 연산 이상의 견고성을 가지고 있음을 의미합니다.

그림 3.10에서 알 수 있듯이 작은 모델은 이러한 모든 작업에서 제대로 작동하지 않습니다. 심지어 130억 개의 매개변수 모델(1,750억 개의 전체 GPT-3 다음으로 두 번째로 큰 모델)도 2자리 덧셈과 뺄셈을 절반의 시간만 풀 수 있고 다른 모든 작업은 해결할 수 있습니다. 작업 시간은 10% 미만입니다.

원샷 및 제로샷 성능은 퓨샷 성능에 비해 다소 저하되며, 이는 작업에 대한 적응(또는 최소한 작업 인식)이 이러한 계산을 올바르게 수행하는 데 중요함을 시사합니다.

그럼에도 불구하고 원샷 성능은 여전히 매우 강력하며 전체 GPT-3의 제로샷 성능조차도 모든 소규모 모델에 대한 퓨샷 학습 성능을 훨씬 능가합니다. 전체 GPT-3에 대한 세 가지 설정은 모두 표 3.9에 나와 있으며, 세 가지 설정 모두에 대한 모델 용량 확장은 부록 H에 나와 있습니다.

표3.9 : GPT-3 175B의 기본 산술 작업 결과. {2,3,4,5}D{+,-}는 2, 3, 4, 5자리 덧셈 또는 뺄셈이고, 2Dx는 2자리 곱셈입니다. 1DC는 1자리 복합 연산입니다. 제로샷에서 원샷, 퓨샷 설정으로 갈수록 결과가 점점 더 좋아지지만 제로샷에서도 상당한 연산 능력을 보여줍니다.

표3.10 : GPT-3 175B는 제로, 원, 퓨샷 설정에서 다양한 단어 해독 및 단어 조작 작업에 대한 성능을 발휘합니다. CL은 "단어의 순환 문자", A1은 처음과 마지막 문자만 제외하고 철자 바꾸기, A2는 처음과 마지막 두 글자를 제외한 모든 철자 바꾸기, RI는 "단어에 무작위 삽입", RW는 "역전된 단어"입니다.

모델이 단순히 특정 산술 문제를 기억하고 있는지 확인하기 위해 테스트 세트에서 3자리 산술 문제를 가져와 훈련 데이터에서 "<NUM1> + <NUM2> =" 및 "<NUM1> plus <NUM2>" 형식으로 검색했습니다. 2,000개의 덧셈 문제 중 17개 일치(0.8%)만 찾았고 2,000개의 뺄셈 문제 중에서 2개(0.1%)만 찾았습니다. 이는 정답의 아주 작은 부분만이 기억될 수 있음을 시사합니다. 또한 오답을 검사하면 모델이 "1"을 표시하지 않는 등의 실수를 자주 하는 것으로 나타나 실제로 테이블을 기억하는 것이 아니라 관련 계산을 수행하려고 시도하고 있음을 나타냅니다.

전반적으로 GPT-3는 퓨샷, 원샷, 심지어 제로샷 설정에서도 적당히 복잡한 연산에서 합리적인 능력을 보여줍니다.

3.9.2 Word Scrambling and Manipulation Tasks

몇 가지 예를 통해 새로운 기호 조작을 학습하는 GPT-3의 능력을 테스트하기 위해 5개의 "문자 조작" 작업으로 구성된 작은 배터리를 설계했습니다. 각 작업에는 문자 뒤섞기, 추가 또는 삭제의 조합으로 인해 왜곡된 단어를 모델에 제공하고 원래 단어를 복구하도록 요청하는 작업이 포함됩니다. 5가지 작업은 다음과 같습니다.

Cycle letters in word (CL) : 모델에는 문자가 순환된 단어와 "=" 기호가 주어지며 원래 단어를 생성할 것으로 예상됩니다. 예를 들어, “lyinevitab”이 주어질 수 있으며 “inevitously”를 출력해야 합니다.

Anagrams of all but ﬁrst and last characters (A1) : 모델에는 첫 번째와 마지막 문자를 제외한 모든 문자가 무작위로 뒤섞인 단어가 주어지며 원래 단어를 출력해야 합니다. 예: criroptuon = corruption.

Anagrams of all but ﬁrst and last 2 characters (A2) : 모델에는 처음 2개와 마지막 2개를 제외한 모든 문자가 무작위로 뒤섞인 단어가 주어지며 원래 단어를 복구해야 합니다. 예: opoepnnt → opponent.

Random insertion in word (RI) : 단어의 각 문자 사이에 임의의 구두점이나 공백 문자가 삽입되며, 모델은 원래 단어를 출력해야 합니다. 예: s.u!c/c!e.s s i/o/n = succession.

Reversed words (RW) : 모델에는 철자를 거꾸로 쓴 단어가 제공되며 원래 단어를 출력해야 합니다. 예: stcejbo → objects

그림3.11 : 다양한 크기의 모델에 대한 5개의 단어 스크램블링 작업에 대한 퓨샷 성능. 무작위 삽입 작업은 대부분의 시간 동안 작업을 해결하는 175B 모델에서 개선의 상승 기울기를 보여주지만 일반적으로 모델 크기가 원활하게 개선됩니다. 원샷 및 제로샷 성능의 스케일링은 부록에 나와 있습니다. 모든 작업은 K = 100으로 수행됩니다.

원샷 설정에서는 성능이 현저히 약하고(절반 이상 감소) 제로샷 설정에서는 모델이 어떤 작업도 거의 수행할 수 없습니다(표 3.10). 이는 모델이 이러한 작업을 제로샷으로 수행할 수 없고 인위적인 특성으로 인해 사전 훈련 데이터에 나타날 가능성이 낮기 때문에 모델이 실제로 테스트 시간에 이러한 작업을 학습하는 것처럼 보인다는 것을 의미합니다(비록 확실하게 확인할 수는 없지만).

상황 내 사례 수의 함수로 작업 성능을 보여주는 "상황 내 학습 곡선"을 그려 성능을 더욱 정량화할 수 있습니다. 그림 1.2에는 기호 삽입 작업에 대한 상황 내 학습 곡선이 나와 있습니다. 더 큰 모델이 작업 예제와 자연어 작업 설명을 포함하여 상황 내 정보를 점점 더 효과적으로 사용할 수 있다는 것을 알 수 있습니다.

마지막으로, 이러한 작업을 해결하려면 문자 수준 조작이 필요한 반면 BPE 인코딩은 단어의 상당 부분(토큰당 평균 약 0.7 단어)에서 작동하므로 LM의 관점에서 이러한 작업을 성공하려면 단순히 조작하는 것만으로는 충분하지 않다는 점을 덧붙일 가치가 있습니다. BPE 토큰이지만 하위 구조를 이해하고 분리합니다. 또한 CL, A1, A2는 전단사가 아니므로(즉, 뒤섞인 단어는 뒤섞인 단어의 결정적 함수가 아님) 모델이 올바른 뒤섞임을 찾기 위해 일부 검색을 수행해야 합니다. 따라서 관련된 기술에는 사소한 패턴 일치 및 계산이 필요한 것으로 보입니다.

3.9.3 SAT Analogies

일반적인 텍스트 분포와 관련하여 다소 특이한 또 다른 작업에서 GPT-3를 테스트하기 위해 우리는 374개의 "SAT 유추" 문제 세트를 수집했습니다[TLBS03]. 비유는 2005년 이전 SAT 대학 입학 시험의 한 부분을 구성했던 객관식 문제 스타일입니다. 전형적인 예는 “대담함은 대담함을 뜻하며, (a) 성스러운 것은 위선을 뜻하고, (b) 익명은 정체성을 뜻하며, (c) 후회하는 것은 악행이고, (d) 해로운 것은 결과이며, (e) 감수성이 있는 것은 유혹입니다.” 학생은 5개의 단어 쌍 중 원래 단어 쌍과 동일한 관계를 갖는 단어 쌍을 선택해야 합니다. 이 예에서 대답은 "성스러운 것은 위선이다"이다. 이 과제에서 GPT-3는 퓨샷 설정에서 65.2%, 원샷 설정에서 59.1%, 제로샷 설정에서 53.7%를 달성한 반면, 대학 지원자의 평균 점수는 57%였습니다[TL05](랜덤) 추측하면 20%가 나옵니다. 그림 3.12에서 볼 수 있듯이 결과는 규모에 따라 개선되며 전체 1,750억 모델은 130억 매개변수 모델에 비해 10% 이상 향상됩니다.

그림3.12 : 다양한 크기의 모델에 대해 SAT 유추 작업에 대한 제로, 원샷 및 퓨샷 성능을 제공합니다. 가장 큰 모델은 소수 샷 설정에서 65%의 정확도를 달성했으며, 또한 작은 모델에는 없는 상황 내 학습에 대한 상당한 이점을 보여줍니다.

3.9.4 News Article Generation

생성 언어 모델에 대한 이전 연구에서는 뉴스 기사에 대한 그럴듯한 첫 번째 문장으로 구성된 사람이 작성한 프롬프트가 주어진 모델에서 조건부 샘플링을 통해 합성 "뉴스 기사"를 생성하는 능력을 정성적으로 테스트했습니다[RWC+19]. [RWC+19]에 비해 GPT-3을 훈련하는 데 사용되는 데이터 세트는 뉴스 기사에 훨씬 덜 가중치를 두므로 무조건 원시 샘플을 통해 뉴스 기사를 생성하는 것은 덜 효과적입니다. 예를 들어 GPT-3는 종종 제안된 첫 번째 문장을 해석합니다. “뉴스 기사”를 트윗으로 만든 다음 합성 응답이나 후속 트윗을 게시합니다. 이 문제를 해결하기 위해 우리는 모델의 맥락에서 이전 뉴스 기사 3개를 제공하여 GPT-3의 퓨샷 학습 능력을 활용했습니다. 제안된 다음 기사의 제목과 부제를 사용하여 모델은 "뉴스" 장르의 짧은 기사를 안정적으로 생성할 수 있습니다.

GPT-3의 뉴스 기사 생성 품질(일반적으로 조건부 샘플 생성 품질과 상관관계가 있을 것으로 생각됨)을 측정하기 위해 우리는 GPT-3에서 생성된 기사와 실제 기사를 구별하는 인간의 능력을 측정하기로 결정했습니다. Kreps 등도 비슷한 작업을 수행했습니다. [KMB20] 및 Zellers et al. [ZHR+19]. 생성 언어 모델은 인간이 생성한 콘텐츠의 배포와 일치하도록 훈련되었으므로 인간이 두 가지를 구별할 수 있는 능력이 잠재적으로 중요한 품질 척도가 됩니다.

인간이 모델 생성 텍스트를 얼마나 잘 감지할 수 있는지 확인하기 위해 newser.com 웹사이트에서 25개의 기사 제목과 부제목을 임의로 선택했습니다(평균 길이: 215단어). 그런 다음 크기가 125M에서 175B(GPT-3) 매개변수(평균 길이: 200단어)인 4가지 언어 모델로부터 이러한 제목과 자막의 완성을 생성했습니다. 각 모델에 대해 우리는 미국에 거주하는 약 80명의 참가자에게 실제 제목과 부제, 그리고 사람이 쓴 기사 또는 모델에서 생성된 기사로 구성된 퀴즈를 제시했습니다. 참가자들에게 그 기사가 "사람이 썼을 가능성이 매우 높음", "사람이 썼을 가능성이 더 높음", "모르겠어요", "기계가 썼을 가능성이 높음", "사람이 썼을 가능성이 매우 높음" 중 하나를 선택하도록 요청받았습니다. 기계".

우리가 선택한 기사는 모델의 훈련 데이터에 없었으며 모델 출력은 인간의 체리 따기를 방지하기 위해 프로그래밍 방식으로 형식화되고 선택되었습니다. 모든 모델은 동일한 컨텍스트를 사용하여 출력을 조절하고 동일한 컨텍스트 크기로 사전 학습되었으며 동일한 기사 제목과 부제목이 각 모델의 프롬프트로 사용되었습니다. 그러나 우리는 동일한 형식을 따르지만 의도적으로 잘못된 모델 생성 기사를 포함하는 참가자의 노력과 관심을 제어하기 위한 실험도 실행했습니다. 이는 컨텍스트가 없고 출력 무작위성이 증가된 160M 매개변수 모델인 "제어 모델"에서 기사를 생성하여 수행되었습니다.

표3.11 : 짧은(약 200단어) 뉴스 기사가 모델 생성되었는지 여부를 식별하는 인간의 정확성. 우리는 인간의 정확도(중립적이지 않은 할당에 대한 올바른 할당의 비율로 측정)의 범위가 제어 모델의 86%에서 GPT-3 175B의 52%라는 것을 발견했습니다. 이 표는 5개 모델 간의 평균 정확도를 비교하고, 각 모델과 제어 모델(출력 무작위성이 증가된 무조건 GPT-3 Small 모델) 간의 평균 정확도 차이에 대한 2-샘플 T-검정 결과를 보여줍니다.

의도적으로 잘못된 기사가 모델에서 생성되었음을 감지할 때 평균 인간 정확도(참가자당 올바른 할당 대 중립적이지 않은 할당의 비율)는 약 86%였으며 여기서 50%는 기회 수준 성능입니다. 대조적으로, 175B 매개변수 모델에 의해 생성된 기사를 탐지하는 인간의 평균 정확도는 약 52%로 우연보다 거의 높았습니다(표 3.11 참조). 모델 생성 텍스트를 탐지하는 인간의 능력은 모델 크기가 증가함에 따라 감소하는 것으로 보입니다.

모델 크기에 따라 확률 정확도가 높아지는 경향이 있는 것으로 보이며 인간이 GPT-3를 감지하는 경우는 확률에 가깝습니다. 이는 모델 크기가 증가함에 따라 참가자가 각 출력에 더 많은 시간을 소비한다는 사실에도 불구하고 사실입니다(부록 E 참조).

GPT-3의 합성 기사의 예는 그림 3.14 및 3.15.7에 나와 있습니다. 평가에서 알 수 있듯이 텍스트의 대부분은 인간이 실제 인간 콘텐츠와 구별하기 어렵습니다. 사실적 부정확성은 인간 저자와 달리 기사 제목이 참조하는 특정 사실이나 기사가 작성된 시점에 접근할 수 없기 때문에 기사가 모델로 생성되었다는 지표가 될 수 있습니다. 다른 지표로는 반복, 비순차적 표현, 특이한 표현 등이 있지만 이러한 표현은 종종 눈에 띄지 않을 정도로 미묘합니다.

Ippolito et al. [IDCBE19] 의 언어 모델 감지 관련 연구는 GROVER [ZHR+19] 및 GLTR [GSR19]와 같은 자동 판별자가 인간 평가자보다 모델 생성 텍스트를 감지하는 데 더 큰 성공을 거둘 수 있음을 나타냅니다. 이러한 모델의 자동 감지는 향후 연구의 유망한 영역이 될 수 있습니다.

Ippolitoet al. [IDCBE19]는 또한 인간이 더 많은 토큰을 관찰할수록 모델 생성 텍스트를 감지하는 정확도가 높아진다는 점에 주목합니다. GPT-3 175B에서 생성된 긴 뉴스 기사를 인간이 얼마나 잘 감지하는지에 대한 예비 조사를 수행하기 위해 우리는 Reuters에서 평균 길이 569 단어의 12개 세계 뉴스 기사를 선택하고 GPT-3에서 이 기사의 완성을 평균 498단어 길이입니다(초기 실험보다 298단어 더 깁니다). 위의 방법론에 따라 우리는 미국에 거주하는 약 80명의 참가자를 대상으로 두 가지 실험을 실행하여 GPT-3와 제어 모델에서 생성된 기사를 탐지하는 인간의 능력을 비교했습니다.

우리는 제어 모델에서 의도적으로 불량한 긴 항목을 탐지하는 인간의 평균 정확도가 약 88%인 반면, GPT-3 175B에 의해 생성된 긴 항목을 탐지하는 인간의 평균 정확도는 여전히 약 52%로 확률보다 약간 높은 것으로 나타났습니다. 표 3.12). 이는 약 500단어 길이의 뉴스 기사에 대해 GPT-3가 인간이 작성한 뉴스 기사와 구별하기 어려운 기사를 계속해서 생성한다는 것을 나타냅니다.

3.9.5 Learning and Using Novel Words

발달 언어학[CB78]에서 연구되는 과제는 새로운 단어를 배우고 활용하는 능력입니다. 예를 들어 단어가 한 번만 정의된 것을 본 후 문장에서 단어를 사용하거나 반대로 단 한 번의 사용법에서 단어의 의미를 추론하는 것입니다. 여기서 우리는 전자를 수행하는 GPT-3의 능력을 질적으로 테스트합니다. 구체적으로 GPT-3에 "Gigamuru"와 같은 존재하지 않는 단어에 대한 정의를 제공한 다음 이를 문장에서 사용하도록 요청합니다. 우리는 (별도의) 존재하지 않는 단어가 문장에서 정의되고 사용되는 이전 예를 1~5개 제공하므로 작업은 광범위한 작업의 이전 예 측면에서는 소수이고 특정 단어 측면에서는 일회성입니다. 표 3.16은 우리가 생성한 6가지 예를 보여줍니다. 모든 정의는 인간이 생성했으며 첫 번째 답변은 조건화로 인간이 생성한 반면 후속 답변은 GPT-3에 의해 생성되었습니다. 이러한 예제는 한 번에 지속적으로 생성되었으며 프롬프트를 생략하거나 반복적으로 시도하지 않았습니다. 모든 경우에 생성된 문장은 단어의 올바른 사용 또는 적어도 그럴듯한 사용으로 나타납니다. 마지막 문장에서 모델은 "screeg"(즉 "screeghed")라는 단어에 대한 그럴듯한 활용형을 생성합니다. 비록 단어의 사용이 설명할 수 있다는 의미에서 그럴듯함에도 불구하고 약간 어색합니다("screeghed at other"). 장난감 칼싸움. 전반적으로 GPT-3는 문장에서 새로운 단어를 사용하는 작업에 적어도 능숙한 것으로 보입니다.

그림3.13 : 뉴스 기사가 모델에서 생성되었는지 여부(중립적이지 않은 할당에 대한 올바른 할당의 비율로 측정)를 식별하는 사람들의 능력은 모델 크기가 증가함에 따라 감소합니다. 의도적으로 불량한 제어 모델(출력 무작위성이 더 높은 조건이 지정되지 않은 GPT-3 Small 모델)의 출력 정확도는 상단에 점선으로 표시되고 무작위 가능성(50%)은 상단에 점선으로 표시됩니다. 맨 아래. 최적선은 95% 신뢰구간을 갖는 거듭제곱 법칙입니다.

표3.12 : ~500 단어 기사가 모델 생성인지 여부를 식별하는 사람들의 능력(중립적이지 않은 할당에 대한 올바른 할당의 비율로 측정)은 제어 모델에서 88%, GPT-3 175B에서 52%였습니다. 이 표는 GPT-3 175B와 제어 모델(출력 무작위성이 증가된 무조건 GPT-3 Small 모델) 간의 평균 정확도 차이에 대한 2-샘플 T-테스트 결과를 보여줍니다.

그림3.14 : GPT-3는 인간이 쓴 기사와 구별하기 가장 어렵다는 뉴스 기사를 생성했습니다(정확도: 12%).

그림3.15 : GPT-3는 인간이 작성한 기사와 가장 쉽게 구별할 수 있는 뉴스 기사를 생성했습니다(정확도: 61%).

그림3.16 : 문장에서 새로운 단어를 사용하는 몇 번의 작업에 대한 대표적인 GPT-3 완성입니다. 굵은 글씨는 GPT-3의 완성이고 일반 텍스트는 인간 프롬프트입니다. 첫 번째 예에서는 프롬프트와 완성이 모두 사람에 의해 제공됩니다. 이는 GPT-3가 연속적인 추가 프롬프트를 수신하고 완성을 제공하는 후속 예제에 대한 조건 역할을 합니다. 여기에 표시된 조건 외에 GPT-3에는 특정 작업이 제공되지 않습니다.

3.9.6 Correcting English Grammar

퓨샷 학습에 적합한 또 다른 작업은 영어 문법을 교정하는 것입니다. 우리는 "불량한 영어 입력: <문장>\n 좋은 영어 출력: <문장>" 형식의 프롬프트를 제공하여 Few-Shot 설정에서 GPT-3을 사용하여 이를 테스트합니다. 우리는 GPT-3에 인간이 생성한 수정 사항 1개를 제공한 다음 5개를 더 수정하도록 요청합니다(다시 한 번 누락이나 반복 없이). 결과는 그림 3.17에 나와 있습니다.

4 벤치마크 암기 측정 및 방지

훈련 데이터 세트는 인터넷에서 제공되므로 모델이 일부 벤치마크 테스트 세트에서 훈련되었을 가능성이 있습니다. 인터넷 규모의 데이터 세트에서 테스트 오염을 정확하게 탐지하는 것은 확립된 모범 사례가 없는 새로운 연구 영역입니다. 오염을 조사하지 않고 대규모 모델을 훈련하는 것이 일반적인 관행이지만, 사전 훈련 데이터 세트의 규모가 증가함에 따라 이 문제에 주의를 기울이는 것이 점점 더 중요해지고 있다고 생각합니다.

이러한 우려는 단순한 가설이 아닙니다. Common Crawl 데이터에 대한 언어 모델을 훈련하는 최초의 논문 중 하나[TL18]는 평가 데이터 세트 중 하나와 겹치는 훈련 문서를 감지하고 제거했습니다. GPT-2 [RWC+19]와 같은 다른 연구에서도 사후 중복 분석을 수행했습니다. 그들의 연구는 훈련과 테스트 사이에 중복되는 데이터에서 모델의 성능이 어느 정도 향상되었지만 오염된 데이터의 작은 부분(종종 몇 퍼센트에 불과)으로 인해 보고된 결과에 큰 영향을 미치지 않았다는 사실을 발견하여 상대적으로 고무적이었습니다.

그림3.17 : 영어 문법 교정을 위한 몇 번의 작업에 대한 대표적인 GPT-3 완성입니다. 굵은 글씨는 GPT-3의 완성이고 일반 텍스트는 인간 프롬프트입니다. 처음 몇 가지 예에서는 프롬프트와 완성이 모두 사람에 의해 제공됩니다. 이는 GPT-3가 연속적인 추가 프롬프트를 수신하고 완성을 제공하는 후속 예제에 대한 조건 역할을 합니다. 조건화 및 "나쁜 영어 입력/좋은 영어 출력" 프레이밍과 같은 처음 몇 가지 예를 제외하고 작업별 아무것도 GPT-3에 제공되지 않습니다. 우리는 "나쁜" 영어와 "좋은" 영어(및 용어 자체)의 구별이 복잡하고 상황에 따라 다르며 논쟁의 여지가 있다는 점에 주목합니다. 주택 임대를 언급하는 예에서 알 수 있듯이, 모델이 "좋은" 것이 무엇인지에 대해 가정한다는 가정은 심지어 오류를 범할 수도 있습니다(여기서 모델은 문법을 조정할 뿐만 아니라 "저렴한"이라는 단어도 제거합니다) 그러면 의미가 달라집니다).

그림4.1 : GPT-3 훈련 곡선 훈련 분포의 중복 제거된 검증 분할에 대한 훈련 중에 모델 성능을 측정합니다. 훈련 성능과 검증 성능 사이에는 약간의 차이가 있지만 모델 크기와 훈련 시간에 따라 그 차이는 최소한으로 커집니다. 이는 대부분의 차이가 과적합보다는 난이도의 차이에서 비롯된다는 것을 의미합니다.

GPT-3는 다소 다른 체제에서 작동합니다. 한편, 데이터세트와 모델 크기는 GPT-2에 사용된 것보다 약 2배 정도 크고 대량의 공통 크롤링을 포함하므로 오염 및 기억 가능성이 높아집니다. 반면에, 정확하게는 많은 양의 데이터로 인해 GPT-3 175B조차도 중복 제거된 보유 검증 세트에 비해 측정된 훈련 세트를 상당한 양만큼 과적합하지 않습니다(그림 4.1). 따라서 오염이 자주 발생할 가능성이 높지만 그 영향은 우려만큼 크지 않을 것으로 예상됩니다.

우리는 처음에 훈련 데이터와 이 문서에서 연구된 모든 벤치마크의 개발 및 테스트 세트 사이의 중복을 사전에 검색하고 제거하려고 시도하여 오염 문제를 해결하려고 노력했습니다. 불행하게도 버그로 인해 학습 데이터에서 감지된 모든 중복 항목이 부분적으로만 제거되었습니다. 훈련 비용 때문에 모델을 재훈련하는 것은 불가능했습니다. 이 문제를 해결하기 위해 감지된 나머지 중복이 결과에 어떤 영향을 미치는지 자세히 조사합니다.

각 벤치마크에 대해 우리는 잠재적으로 누출된 모든 예제를 제거하는 '깨끗한' 버전을 생성합니다. 이는 사전 훈련 세트의 모든 것과 13그램이 겹치는 예제(또는 13그램보다 짧을 때 전체 예제와 겹치는 예제)로 대략 정의됩니다. 그램). 목표는 잠재적으로 오염될 수 있는 모든 항목을 매우 보수적으로 표시하여 높은 신뢰도로 오염이 없는 깨끗한 하위 집합을 생성하는 것입니다. 정확한 절차는 부록 C에 자세히 설명되어 있습니다.

그런 다음 이러한 깨끗한 벤치마크에서 GPT-3를 평가하고 원래 점수와 비교합니다. 깨끗한 하위 집합의 점수가 전체 데이터 집합의 점수와 유사한 경우 이는 오염이 존재하더라도 보고된 결과에 큰 영향을 미치지 않음을 의미합니다. 깨끗한 하위 집합의 점수가 낮으면 오염으로 인해 결과가 부풀려질 수 있음을 의미합니다. 결과는 그림 4.2에 요약되어 있습니다. 잠재적인 오염이 높은 경우가 많지만(벤치마크의 1/4이 50% 이상) 대부분의 경우 성능 변화는 미미할 뿐이며 오염 수준과 성능 차이가 상관 관계가 있다는 증거는 없습니다. 우리는 보수적인 방법이 오염을 상당히 과대평가했거나 오염이 성능에 거의 영향을 미치지 않는다는 결론을 내렸습니다.

아래에서는 (1) 정리된 버전에서 모델의 성능이 현저히 떨어지거나 (2) 잠재적인 오염이 매우 높아 성능 차이를 측정하기 어려운 몇 가지 구체적인 사례를 자세히 검토합니다.

그림4.2 : 벤치마크 오염 분석 우리는 훈련 세트의 잠재적인 오염을 확인하기 위해 각 벤치마크의 정리된 버전을 구성했습니다. x축은 높은 신뢰도로 알려진 데이터세트의 양에 대한 보수적인 하한이고, y축은 검증된 깨끗한 하위 집합에 대해서만 평가할 때의 성능 차이를 보여줍니다. 대부분의 벤치마크에서 성능은 미미하게 변경되었지만 일부는 추가 검토를 위해 표시되었습니다. 검사에서 우리는 PIQA 및 Winograd 결과의 오염에 대한 몇 가지 증거를 발견했으며 섹션 3의 해당 결과에 별표를 표시했습니다. 다른 벤치마크가 영향을 받는다는 증거는 없습니다.

우리의 분석에서는 추가 조사를 위해 단어 스크램블링, 독해(QuAC, SQuAD2, DROP), PIQA, Winograd, 언어 모델링 작업(Wikitext 작업, 1BW) 및 독일어-영어 번역 등 6개 벤치마크 그룹을 표시했습니다. 우리의 중복 분석은 극도로 보수적으로 설계되었기 때문에 일부 거짓 긍정이 발생할 것으로 예상됩니다. 아래에는 각 작업 그룹의 결과가 요약되어 있습니다.

독해력: 초기 분석에서는 QuAC, SQuAD2 및 DROP의 작업 예제 중 >90%가 잠재적으로 오염된 것으로 표시되었으며 너무 커서 깨끗한 하위 집합에서 차이를 측정하는 것조차 어려웠습니다.

그러나 수동 조사에서 우리는 조사한 모든 겹침에 대해 3개 데이터 세트 모두에서 소스 텍스트가 훈련 데이터에 존재했지만 질문/답변 쌍은 존재하지 않았음을 발견했습니다. 이는 모델이 배경 정보만 얻고 답변을 기억할 수 없음을 의미합니다. 특정 질문에.

독일어 번역: WMT16 독일어-영어 테스트 세트의 사례 중 25%가 잠재적으로 오염된 것으로 표시되었으며 관련 총 효과 크기는 1-2 BLEU인 것으로 나타났습니다. 조사 결과, 플래그가 지정된 예제에는 NMT 훈련 데이터와 유사한 쌍을 이루는 문장이 포함되어 있지 않으며 충돌은 대부분 뉴스에서 논의된 이벤트 조각의 단일 언어 일치였습니다.

반전된 단어 및 철자 바꾸기: 이러한 작업은 "alaok = koala" 형식이라는 점을 기억하세요. 이러한 작업의 길이가 짧기 때문에 필터링(구두점 무시)에 2그램을 사용했습니다. 플래그가 지정된 겹침을 검사한 후, 우리는 이것이 훈련 세트의 실제 반전이나 스크램블링 해제의 경우가 아니라 회문 또는 사소한 언스크램블링(예: "kayak = kayak")이라는 것을 발견했습니다. 겹치는 양은 적었지만 사소한 작업을 제거하면 난이도가 증가하여 가짜 신호가 발생합니다. 이와 관련하여 기호 삽입 작업은 높은 중복을 나타내지만 성능에는 영향을 미치지 않습니다. 이는 해당 작업이 단어에서 문자가 아닌 문자를 제거하는 작업을 포함하고 중복 분석 자체가 이러한 문자를 무시하여 많은 가짜 일치로 이어지기 때문입니다.

PIQA: 중복 분석에서는 예시의 29%가 오염된 것으로 표시되었으며 깨끗한 하위 집합에서 성능이 3% 포인트 절대 감소(4% 상대 감소)한 것으로 관찰되었습니다. 훈련 세트가 생성된 후 테스트 데이터 세트가 출시되었고 해당 레이블이 숨겨져 있지만 크라우드소싱 데이터 세트 작성자가 사용하는 일부 웹 페이지는 훈련 세트에 포함되어 있습니다. 우리는 기억할 수 있는 용량이 훨씬 적은 25배 더 작은 모델에서 비슷한 감소를 발견했으며, 이로 인해 변화가 기억보다는 통계적 편향일 가능성이 있다고 의심하게 되었습니다. 작업자가 복사한 예가 더 쉬울 수도 있습니다. 불행하게도 우리는 이 가설을 엄격하게 증명할 수 없습니다. 따라서 이러한 잠재적인 오염을 나타내기 위해 PIQA 결과에 별표를 표시했습니다.

Winograd: 중복 분석에서 예제의 45%가 플래그 지정되었으며 깨끗한 하위 집합에서 성능이 2.6% 감소한 것으로 나타났습니다. 중복되는 데이터 포인트를 수동으로 검사한 결과, 모델에 작업을 제시하는 것과는 다른 형식으로 제시되었지만 실제로는 132개의 Winograd 스키마가 훈련 세트에 존재하는 것으로 나타났습니다.

성능 저하가 적더라도 Winograd 결과를 주요 논문에 별표로 표시합니다.

언어 모델링: 우리는 GPT-2에서 측정된 4개의 Wikipedia 언어 모델링 벤치마크와 Children's Book Test 데이터 세트가 거의 전적으로 우리의 훈련 데이터에 포함되어 있음을 발견했습니다. 여기서는 깨끗한 하위 집합을 안정적으로 추출할 수 없기 때문에 이 작업을 시작할 때 의도했더라도 이러한 데이터 세트에 대한 결과를 보고하지 않습니다. Penn Tree Bank는 나이 때문에 영향을 받지 않았으며 따라서 우리의 주요 언어 모델링 벤치마크가 되었습니다.

또한 오염도가 높지만 성능에 미치는 영향은 0에 가까웠던 데이터 세트도 검사하여 실제 오염 정도를 확인했습니다. 여기에는 종종 오탐지가 포함된 것으로 나타났습니다. 실제 오염이 없었거나 작업에 대한 답을 제공하지 못하는 오염이 있었습니다. 주목할만한 예외 중 하나는 LAMBADA로, 이는 상당한 오염이 있는 것으로 보였지만 성능에 미치는 영향은 매우 작았으며 깨끗한 하위 집합 점수는 전체 데이터 세트의 0.5% 이내였습니다. 또한 엄밀히 말하면 우리의 빈칸 채우기 형식은 가장 간단한 형태의 암기를 불가능하게 합니다. 그럼에도 불구하고 이 논문에서는 LAMBADA에 대해 매우 큰 이득을 얻었으므로 결과 섹션에 잠재적인 오염이 언급되어 있습니다.

오염 분석의 중요한 한계는 깨끗한 하위 집합이 원래 데이터 세트와 동일한 분포에서 추출되었는지 확신할 수 없다는 것입니다. 암기가 결과를 부풀릴 가능성은 여전히 남아 있지만 동시에 일부 통계적 편향에 의해 정확하게 상쇄되어 깨끗한 하위 집합이 더 쉬워집니다. 그러나 0에 가까운 교대 횟수는 이것이 가능성이 없음을 시사하며, 기억할 가능성이 없는 작은 모델의 교대에도 눈에 띄는 차이가 없음을 관찰했습니다.

전반적으로 우리는 데이터 오염의 영향을 측정 및 문서화하고 심각도에 따라 문제가 있는 결과를 기록하거나 완전히 제거하기 위해 최선의 노력을 기울였습니다. 벤치마크를 설계하고 모델을 교육할 때 일반적으로 현장에 대한 이 중요하고 미묘한 문제를 해결하기 위해 수행해야 할 많은 작업이 남아 있습니다. 분석에 대한 더 자세한 설명을 보려면 독자에게 부록 C를 참조하시기 바랍니다.

5 Limitations

GPT-3와 이에 대한 분석에는 여러 가지 제한 사항이 있습니다. 아래에서는 이들 중 일부를 설명하고 향후 작업 방향을 제안합니다.

첫째, GPT-3의 강력한 양적, 질적 개선에도 불구하고, 특히 직전 GPT-2에 비해 텍스트 합성 및 여러 NLP 작업에서 여전히 눈에 띄는 약점이 있습니다. 텍스트 합성의 경우 전반적인 품질은 높지만 GPT-3 샘플은 여전히 문서 수준에서 의미론적으로 반복되고, 충분히 긴 구절에서 일관성을 잃기 시작하고, 서로 모순되며, 때때로 비동등한 문장이나 단락을 포함합니다. 텍스트 합성에서 GPT-3의 한계와 강점을 더 잘 이해할 수 있도록 선별되지 않은 무조건 샘플 500개 컬렉션을 출시할 예정입니다. 이산 언어 작업 영역 내에서 우리는 GPT-3가 이 영역을 테스트하는 일부 데이터 세트(예: PIQA [BZB+19])에서 좋은 성능을 보임에도 불구하고 "상식 물리학"에 특별한 어려움을 겪는 것으로 보인다는 사실을 비공식적으로 알아냈습니다. 특히 GPT-3에서는 “치즈를 냉장고에 넣으면 녹을까?”와 같은 질문에 어려움을 겪고 있습니다. 정량적으로 GPT-3의 상황 내 학습 성능은 섹션 3에 설명된 대로 벤치마크 제품군에서 눈에 띄는 차이가 있으며, 특히 일부 "비교"에서 일회성 또는 심지어 소수를 평가할 때 우연보다 거의 낫지 않습니다. 두 단어가 문장에서 동일한 방식으로 사용되는지 또는 한 문장이 다른 문장을 의미하는지(각각 WIC 및 ANLI) 결정하는 등의 작업뿐만 아니라 독해 작업의 하위 집합에 대해서도 마찬가지입니다. 이는 다른 많은 작업에서 GPT-3의 강력한 몇 번의 샷 성능을 고려할 때 특히 두드러집니다.

GPT-3에는 위의 문제 중 일부를 설명할 수 있는 몇 가지 구조적 및 알고리즘적 제한이 있습니다. 이 모델 클래스를 사용하면 가능성을 샘플링하고 계산하는 것이 간단하기 때문에 자동 회귀 언어 모델에서 상황 내 학습 동작을 탐색하는 데 중점을 두었습니다. 결과적으로 우리의 실험에는 양방향 아키텍처나 잡음 제거와 같은 기타 교육 목표가 포함되지 않습니다. 이는 표준 언어 모델 [RSR+19]에 비해 이러한 접근 방식을 사용할 때 향상된 미세 조정 성능을 문서화한 최근 문헌의 대부분과 눈에 띄는 차이입니다. 따라서 우리의 설계 결정은 경험적으로 양방향성으로 이익을 얻는 작업에서 잠재적으로 성능이 저하될 수 있는 대가로 이루어집니다. 여기에는 빈칸 채우기 작업, 내용의 두 부분을 되돌아보고 비교하는 작업, 긴 구절을 다시 읽거나 신중하게 고려한 후 매우 짧은 답변을 생성하는 작업이 포함될 수 있습니다. 이는 WIC(두 문장의 단어 사용을 비교하는 작업), ANLI(두 문장을 비교하여 하나인지 확인하는 작업)와 같은 몇 가지 작업에서 GPT-3의 몇 번의 실행 성능이 뒤처지는 것에 대한 가능한 설명이 될 수 있습니다. 다른 것을 의미함) 및 여러 독해 작업(예: QuAC 및 RACE)이 있습니다. 또한 과거 문헌을 바탕으로 대규모 양방향 모델이 GPT-3보다 미세 조정에 더 강할 것이라고 추측합니다. GPT-3 규모의 양방향 모델을 만드는 것 및/또는 소수 또는 제로샷 학습으로 양방향 모델이 작동하도록 시도하는 것은 미래 연구의 유망한 방향이며 "두 세계의 최고"를 달성하는 데 도움이 될 수 있습니다.

이 백서에 설명된 일반적인 접근 방식(자동 회귀든 양방향이든 LM 유사 모델 확장)의 보다 근본적인 한계는 결국 사전 훈련 목표의 한계에 부딪힐 수 있다는 것입니다(또는 이미 부딪치고 있을 수 있습니다). 우리의 현재 목표는 모든 토큰에 균등한 가중치를 부여하며 예측하는 데 가장 중요한 것과 덜 중요한 것이 무엇인지에 대한 개념이 부족합니다. [RRS20]은 관심 엔터티에 대한 예측을 사용자 정의하는 이점을 보여줍니다. 또한 자기 감독 목표를 사용하면 작업 지정은 원하는 작업을 예측 문제로 강제하는 데 의존하는 반면, 궁극적으로 유용한 언어 시스템(예: 가상 보조자)은 단순히 예측을 하는 것보다 목표 지향적인 조치를 취하는 것으로 더 잘 생각할 수 있습니다. 마지막으로, 사전 훈련된 대규모 언어 모델은 비디오나 실제 물리적 상호 작용과 같은 다른 경험 영역에 기반을 두지 않으므로 세계에 대한 많은 양의 맥락이 부족합니다[BHT+20]. 이러한 모든 이유로 인해 순수한 자기 지도 예측을 확장하는 것은 한계에 부딪힐 가능성이 높으며 다른 접근 방식을 사용한 보강이 필요할 가능성이 높습니다. 이러한 맥락에서 유망한 미래 방향에는 인간의 목적 함수 학습[ZSW+19a], 강화 학습을 통한 미세 조정 또는 더 나은 세계 모델과 기반을 제공하기 위한 이미지와 같은 추가 양식 추가[CLY+19]가 포함될 수 있습니다.

언어 모델이 널리 공유하는 또 다른 제한 사항은 사전 훈련 중 샘플 효율성이 좋지 않다는 것입니다. GPT-3는 인간의 효율성(원샷 또는 제로샷)에 더 가까운 테스트 시간 샘플 효율성을 향한 단계를 밟았지만 여전히 인간이 평생 동안 보는 것보다 사전 훈련 중에 훨씬 더 많은 텍스트를 볼 수 있습니다[Lin20]. 사전 훈련 샘플 효율성을 향상시키는 것은 향후 작업의 중요한 방향이며 추가 정보를 제공하기 위해 물리적 세계에 기반을 두거나 알고리즘 개선을 통해 이루어질 수 있습니다.

GPT-3의 퓨샷 학습과 관련된 한계 또는 적어도 불확실성은 퓨샷 학습이 실제로 추론 시 "처음부터" 새로운 작업을 학습하는지 아니면 단순히 학습한 작업을 인식하고 식별하는지에 대한 모호함입니다. 훈련 중. 이러한 가능성은 테스트 시간과 정확히 동일한 분포에서 추출된 훈련 세트의 시연에서부터 동일한 작업을 다른 형식으로 인식하는 것, 일반적인 작업의 특정 스타일에 적응하는 것까지 스펙트럼에 존재합니다. QA로서 완전히 새로운 기술을 배우는 것입니다. 이 스펙트럼에서 GPT-3가 있는 위치는 작업마다 다를 수 있습니다. 단어 뒤섞기 또는 무의미한 단어 정의와 같은 합성 작업은 특히 새로 학습될 가능성이 높은 반면, 번역은 비록 테스트 데이터와 구성 및 스타일이 매우 다른 데이터에서 가능하더라도 사전 학습 중에 분명히 학습되어야 합니다. 궁극적으로 인간이 처음부터 배우는 것과 이전 시연에서 배우는 것이 무엇인지조차 명확하지 않습니다. 사전 훈련 중에 다양한 시연을 구성하고 테스트 시 이를 식별하는 것조차 언어 모델의 발전이 될 수 있지만, 그럼에도 불구하고 소수 학습이 어떻게 작동하는지 정확하게 이해하는 것은 향후 연구에서 중요한 미개척 방향입니다.

목적 함수나 알고리즘에 관계없이 GPT-3 규모의 모델과 관련된 제한 사항은 추론을 수행하는 데 비용이 많이 들고 불편하다는 것입니다. 이는 현재 형태로 이 규모의 모델을 실제로 적용하는 데 어려움을 겪을 수 있습니다. . 이 문제를 해결하기 위한 가능한 미래 방향 중 하나는 특정 작업을 위해 관리 가능한 크기로 대형 모델을 증류하는 것입니다[HVD15]. GPT-3과 같은 대형 모델에는 매우 광범위한 기술이 포함되어 있으며 그 중 대부분은 특정 작업에 필요하지 않으므로 원칙적으로 공격적인 증류가 가능할 수 있음을 시사합니다.

증류는 일반적으로 잘 연구되었지만[LHCG19a] 수천억 개의 매개변수 규모에서는 시도되지 않았습니다. 이 규모의 모델에 이를 적용하면 새로운 도전과 기회가 생길 수 있습니다.

마지막으로, GPT-3는 대부분의 딥 러닝 시스템에 공통적인 몇 가지 제한 사항을 공유합니다. 즉, GPT-3의 결정은 쉽게 해석할 수 없으며, 표준 벤치마크에서 인간보다 훨씬 더 높은 성능 차이로 관찰되는 새로운 입력에 대한 예측이 반드시 잘 보정되지는 않습니다. 그리고 훈련된 데이터의 편향을 유지합니다. 이 마지막 문제(모델이 고정관념이나 편견을 가진 콘텐츠를 생성하도록 유도할 수 있는 데이터의 편향)는 사회적 관점에서 특히 우려되는 문제이며 광범위한 영향에 대한 다음 섹션에서 다른 문제와 함께 논의될 것입니다.

6 Broader Impacts

언어 모델은 코드 및 작성 자동 완성, 문법 지원, 게임 내러티브 생성, 검색 엔진 응답 개선, 질문 답변 등 사회에 유익한 다양한 응용 프로그램을 갖추고 있습니다. 그러나 잠재적으로 유해한 응용 프로그램도 있습니다. GPT-3은 더 작은 모델에 비해 텍스트 생성 품질과 적응성을 향상시키고 합성 텍스트와 사람이 작성한 텍스트를 구별하기 어렵게 만듭니다. 따라서 이는 언어 모델의 유익한 적용과 해로운 적용을 모두 발전시킬 수 있는 잠재력을 가지고 있습니다.

여기서 우리는 개선된 언어 모델의 잠재적인 피해에 초점을 맞춥니다. 이는 피해가 반드시 더 크다고 믿기 때문이 아니라 이를 연구하고 완화하려는 노력을 자극하기 위한 것입니다. 이와 같은 언어 모델의 광범위한 영향은 다양합니다. 우리는 섹션 6.1의 GPT-3과 같은 언어 모델의 고의적 오용 가능성과 섹션 6.2의 GPT-3과 같은 모델 내 편견, 공정성 및 표현 문제라는 두 가지 주요 문제에 중점을 둡니다. 우리는 또한 에너지 효율성 문제에 대해서도 간략하게 논의합니다(6.3절).

6.1 Misuse of Language Models

언어 모델의 악의적인 사용은 연구자가 의도한 것과는 매우 다른 환경이나 다른 목적으로 언어 모델을 용도 변경하는 경우가 많기 때문에 예측하기가 다소 어려울 수 있습니다. 이를 돕기 위해 위협 및 잠재적 영향 식별, 가능성 평가, 가능성과 영향의 조합으로 위험 결정과 같은 주요 단계를 설명하는 전통적인 보안 위험 평가 프레임워크의 관점에서 생각할 수 있습니다[Ros12]. 잠재적인 오용 애플리케이션, 위협 행위자, 외부 인센티브 구조라는 세 가지 요소에 대해 논의합니다.

6.1.1 Potential Misuse Applications

텍스트 생성에 의존하는 사회적으로 유해한 활동은 강력한 언어 모델을 통해 강화될 수 있습니다. 예로는 잘못된 정보, 스팸, 피싱, 법률 및 정부 절차 남용, 사기성 학술 에세이 작성, 사회공학적 프리텍스팅 등이 있습니다. 이러한 응용 프로그램 중 다수는 인간이 충분히 고품질의 텍스트를 작성하는 데 병목 현상을 일으킵니다. 고품질의 텍스트 생성을 생성하는 언어 모델은 이러한 활동을 수행하는 데 대한 기존 장벽을 낮추고 효율성을 높일 수 있습니다.

텍스트 합성의 품질이 향상됨에 따라 언어 모델의 오용 가능성도 높아집니다. 3.9.4에서 사람이 작성한 텍스트와 구별하기 어려운 여러 단락의 합성 콘텐츠를 생성하는 GPT-3의 기능은 이와 관련하여 우려되는 이정표를 나타냅니다.

6.1.2 Threat Actor Analysis

위협 행위자는 악성 제품을 구축할 수 있는 낮거나 보통 수준의 기술과 자원을 갖춘 행위자부터 '고급 지속 위협'(APT)에 이르기까지 기술 및 리소스 수준에 따라 구성될 수 있습니다. 장기적인 의제를 가진 그룹 [SBC+19].

낮은 기술과 중간 기술의 행위자가 언어 모델에 대해 어떻게 생각하는지 이해하기 위해 우리는 잘못된 정보 전술, 악성 코드 배포 및 컴퓨터 사기가 자주 논의되는 포럼과 채팅 그룹을 모니터링해 왔습니다. 2019년 봄 GPT-2의 초기 릴리스 이후 오용에 대한 중요한 논의를 발견했지만 그 이후로 실험 사례가 적고 성공적인 배포도 발견되지 않았습니다. 또한 이러한 오용 논의는 언어 모델 기술에 대한 언론 보도와 관련이 있었습니다. 이를 통해 우리는 이러한 행위자의 오용 위협이 즉각적이지는 않지만 신뢰성이 크게 향상되면 이를 변화시킬 수 있다고 평가합니다.

APT는 일반적으로 공개적으로 작업을 논의하지 않기 때문에 우리는 언어 모델 사용과 관련된 가능한 APT 활동에 대해 전문 위협 분석가와 상담했습니다. GPT-2 출시 이후 언어 모델을 사용하여 잠재적인 이점을 얻을 수 있는 작업에는 눈에 띄는 차이가 없었습니다. 현재의 언어 모델이 현재의 텍스트 생성 방법보다 훨씬 낫다는 설득력 있는 증명이 없고 언어 내용을 "타겟팅"하거나 "제어"하는 방법이 있기 때문에 언어 모델은 상당한 자원을 투자할 가치가 없을 수 있다는 평가였습니다. 모델은 아직 매우 초기 단계에 있습니다.

6.1.3 External Incentive Structures

각 위협 행위자 그룹에는 의제를 달성하기 위해 의존하는 일련의 전술, 기술 및 절차(TTP)도 있습니다. TTP는 확장성 및 배포 용이성과 같은 경제적 요인의 영향을 받습니다. 피싱은 악성 코드를 배포하고 로그인 자격 증명을 도용하는 저비용, 저노력, 고수익 방법을 제공하기 때문에 모든 그룹에서 매우 인기가 있습니다. 기존 TTP를 강화하기 위해 언어 모델을 사용하면 배포 비용이 훨씬 낮아질 수 있습니다.

사용의 용이성은 또 다른 중요한 인센티브입니다. 안정적인 인프라를 갖추는 것은 TTP 채택에 큰 영향을 미칩니다. 그러나 언어 모델의 출력은 확률적이므로 개발자가 이를 제한할 수 있지만(예: top-k 잘림 사용) 사람의 피드백 없이는 일관되게 수행할 수 없습니다. 소셜 미디어 허위 정보 봇이 99%의 시간 동안 신뢰할 수 있는 출력을 생성하지만 1%의 시간 동안 일관되지 않은 출력을 생성하는 경우 이 봇을 운영하는 데 필요한 인력의 양을 줄일 수 있습니다. 그러나 출력을 필터링하려면 여전히 사람이 필요하므로 작업 확장성이 제한됩니다.

이 모델에 대한 분석과 위협 행위자 및 환경에 대한 분석을 바탕으로 우리는 AI 연구자들이 결국 충분히 일관되고 조정 가능한 언어 모델을 개발하여 악의적인 행위자가 더 큰 관심을 가질 것이라고 의심합니다. 우리는 이것이 더 광범위한 연구 커뮤니티에 도전 과제를 제시할 것으로 예상하고 완화 연구, 프로토타입 제작 및 다른 기술 개발자와의 조정을 결합하여 이 문제를 해결하기를 희망합니다.

6.2 Fairness, Bias, and Representation

훈련 데이터에 존재하는 편향으로 인해 모델이 고정관념이나 편견을 가진 콘텐츠를 생성하게 될 수 있습니다. 이는 모델 편견이 기존 고정관념을 확고히 하고 다른 잠재적 해악 중에서도 품위를 떨어뜨리는 묘사를 생성함으로써 다양한 방식으로 관련 그룹의 사람들에게 해를 끼칠 수 있기 때문에 우려스럽습니다[Cra17]. 공정성, 편견, 표현과 관련된 GPT-3의 한계를 더 잘 이해하기 위해 모델의 편견 분석을 수행했습니다.

우리의 목표는 GPT-3의 특징을 철저하게 설명하는 것이 아니라 GPT-3의 일부 제한 사항과 동작에 대한 예비 분석을 제공하는 것입니다. 우리는 성별, 인종, 종교와 관련된 편견에 중점을 두지만, 다른 많은 편견 범주가 존재할 가능성이 높으며 후속 작업에서 연구될 수 있습니다. 이는 예비 분석이며 연구된 범주 내에서도 모델의 모든 편향을 반영하지는 않습니다.

광범위하게, 우리의 분석은 인터넷으로 훈련된 모델이 인터넷 규모의 편향을 가지고 있음을 나타냅니다. 모델은 훈련 데이터에 존재하는 고정관념을 반영하는 경향이 있습니다. 아래에서는 성별, 인종, 종교 측면에서 편견에 대한 예비 조사 결과를 논의합니다. 우리는 1,750억 개의 매개변수 모델과 유사한 소규모 모델의 편향을 조사하여 이 차원에서 두 모델이 어떻게 다른지 확인합니다.

6.2.1 Gender

GPT-3의 성별 편견을 조사하면서 우리는 성별과 직업 간의 연관성에 중점을 두었습니다. 우리는 "{직업}은(는)"(중립 변형)과 같은 맥락이 주어졌을 때 일반적으로 직업 뒤에 여성 성별 식별자가 남성 성별 식별자로 이어질 확률이 더 높다는 사실을 발견했습니다(즉, 남성 경향이 있음).

우리가 테스트한 388개 직업 중 83%는 GPT-3에 따라 남성 식별자가 뒤따를 가능성이 더 높았습니다. 우리는 모델에 "탐정은 a였습니다"와 같은 컨텍스트를 제공한 다음 모델이 남성을 나타내는 단어(예: 남자, 남성 등) 또는 여성을 나타내는 단어(여자, 여성 등)를 따라갈 확률을 살펴봄으로써 이를 측정했습니다. ).

특히 국회의원, 은행가, 명예교수 등 학력이 높은 직종은 석공, 물방공, 보안관 등 힘든 육체노동을 요구하는 직종과 함께 남성 성향이 높았다. 여성 식별자가 뒤따를 가능성이 더 높은 직업에는 조산사, 간호사, 안내원, 가정부 등이 포함되었습니다.

또한 컨텍스트를 "유능한 {직업}은 a였습니다"(유능한 변형)로 전환하고 컨텍스트를 "무능한 {직업}은 a였습니다"(무능한 변형)로 전환했을 때 이러한 확률이 어떻게 바뀌는지 테스트했습니다. 데이터 세트의 각 직업에 대해 우리는 "유능한 {직업}은 a였습니다."라는 메시지가 표시될 때 대부분의 직업이 우리의 경우보다 여성 식별자보다 남성 식별자가 뒤따를 확률이 훨씬 더 높다는 것을 발견했습니다. 원래 중립 프롬프트는 "{occupation}은(는)"이었습니다. "무능한 {직업}은 a였습니다."라는 프롬프트를 사용하면 대부분의 직업이 원래 중립 프롬프트와 비슷한 확률로 여전히 남성을 선호했습니다. 1/njobs Σ_jobs log(P(female|Context) / P(male|Context))로 측정된 평균 직업 편향은 중립 변형의 경우 -1.11, 유능한 변형의 경우 -2.14, 무능한 변형의 경우 -1.15였습니다.

우리는 또한 대부분의 직업을 남성과 연관시키는 모델의 경향을 더욱 확증하는 두 가지 방법을 사용하여 Winogender 데이터 세트 [RNLVD18]에 대한 대명사 해결을 수행했습니다. 한 가지 방법은 대명사를 직업이나 참가자로 올바르게 지정하는 모델 능력을 측정했습니다. 예를 들어, "고문은 취업 지원에 대한 조언을 얻고 싶어서 조언자를 만났습니다. '그녀'는 ~를 지칭합니다"와 같은 컨텍스트를 모델에 제공하고 가능한 두 옵션 중에서 확률이 가장 낮은 옵션을 찾았습니다. (직업 옵션: 조언자, 참가자 옵션: 조언자 중 선택).

직업 및 참가자 단어에는 대부분의 거주자가 기본적으로 남성이라는 가정과 같은 사회적 편견이 있는 경우가 많습니다. 우리는 언어 모델이 남성 대명사보다 여성 대명사와 참가자 위치를 더 많이 연관시키는 경향과 같은 이러한 편견 중 일부를 학습했다는 것을 발견했습니다. GPT-3 175B는 이 작업에서 모든 모델 중 가장 높은 정확도(64.17%)를 가졌습니다. 또한 여성의 Occupant 문장(정답이 Occupation 옵션인 문장)의 정확도가 남성보다 높은 유일한 모델이었습니다(81.7% vs 76.7%). 다른 모든 모델은 두 번째로 큰 모델인 GPT-3 13B를 제외하고는 직업 문장이 있는 남성 대명사에 대해 여성 대명사에 비해 더 높은 정확도(60%)를 가졌습니다. 이는 편견 문제로 인해 언어 모델이 오류에 취약해질 수 있는 곳에서는 더 큰 모델이 작은 모델보다 더 강력하다는 몇 가지 예비 증거를 제공합니다.

표6.1 : 175B 모델에서 가장 편향된 설명 단어

또한 사전 선택된 다른 단어 근처에서 어떤 단어가 발생할 가능성이 있는지 분석하는 동시 발생 테스트도 수행했습니다. 우리는 데이터 세트의 모든 프롬프트에 대해 온도가 1이고 상위 p가 0.9인 길이가 50인 출력 800개를 생성하여 모델 출력 샘플 세트를 만들었습니다. 성별에 대해서는 "그는 매우 그랬습니다", "그녀는 매우 그랬습니다", "그는 다음과 같이 묘사될 것입니다", "그녀는 다음과 같이 묘사될 것입니다"와 같은 프롬프트가 있었습니다. 상용 POS 태거[LB02]를 사용하여 가장 선호하는 상위 100개 단어의 형용사와 부사를 살펴보았습니다. 우리는 남성이 더 넓은 스펙트럼에 걸쳐 있는 형용사를 사용하여 더 자주 설명되는 것에 비해 여성이 "아름답다", "화려하다"와 같은 외모 중심 단어를 사용하여 더 자주 설명된다는 것을 발견했습니다.

표 6.1은 각 단어가 대명사 표시와 함께 나타나는 원시 횟수와 함께 모델에 대해 가장 선호하는 설명 단어 상위 10개를 보여줍니다. 여기서 "가장 선호하는"은 다른 카테고리에 비해 더 높은 비율로 해당 카테고리와 함께 발생하여 해당 카테고리에 가장 치우친 단어를 나타냅니다. 이러한 수치를 관점에서 볼 수 있도록 각 성별에 해당하는 모든 단어에 대한 동시 발생 횟수의 평균도 포함했습니다.

6.2.2 Race

GPT-3의 인종적 편견을 조사하기 위해 우리는 "{인종} 남자는 매우 훌륭했습니다", "{인종} 여자는 매우 훌륭했습니다", "사람들은 {인종} 사람을 다음과 같이 묘사할 것입니다"와 같은 프롬프트를 모델에 시딩했습니다. 위의 각 프롬프트에 대해 800개의 샘플을 생성했으며, {race}는 백인 또는 아시아인과 같은 인종 범주를 나타내는 용어로 대체되었습니다. 그런 다음 생성된 샘플에서 단어 동시 발생을 측정합니다. 언어 모델이 직업[HZJ+19]과 같은 특징이 다양할 때 서로 다른 감정의 텍스트를 생성한다는 것을 보여주는 이전 연구를 바탕으로 인종이 감정에 어떤 영향을 미치는지 조사했습니다. 각 인종별로 불균형적으로 공존하는 단어에 대해 Senti WordNet [BES10]을 사용하여 감정을 측정했습니다. 각 단어 감정은 100에서 -100까지 다양하며 긍정적인 점수는 긍정적인 단어(예: 경이로움: 100, 우호적: 87.5)를 나타내고, 부정적인 점수는 부정적인 단어(예: 비참함: -87.5, 끔찍함: -87.5)를 나타내고 0은 중립 단어(예: 경사진 곳, 샬레)를 나타냅니다.

우리는 모델이 인종에 대해 이야기하도록 명시적으로 유도했으며 이는 결국 인종 특징에 초점을 맞춘 텍스트를 생성했다는 점에 유의해야 합니다. 이러한 결과는 야생에서의 인종에 대해 이야기하는 모델이 아니라 그렇게 하기 위해 준비된 실험 설정에서 인종에 대해 이야기하는 모델에서 나온 것입니다. 또한 단순히 단어 동시 출현을 보고 감정을 측정하기 때문에 결과 감정은 사회 역사적 요인을 반영할 수 있습니다. 예를 들어 노예 제도에 대한 논의와 관련된 텍스트는 종종 부정적인 감정을 갖게 되며 이는 인구 통계학적 존재로 이어질 수 있습니다. 이 테스트 방법론에 따른 부정적인 감정과 관련이 있습니다.

우리가 분석한 모델 전체에서 '아시안'은 지속적으로 높은 감성을 기록하여 7개 모델 중 3개 모델에서 1위를 차지했습니다. 반면 '블랙'은 7개 모델 중 5개 모델 중 최하위를 기록하며 지속적으로 낮은 감성을 기록했다. 이러한 차이는 더 큰 모델 크기에서 약간 좁아졌습니다. 이 분석은 다양한 모델의 편향을 파악하고 감정, 엔터티 및 입력 데이터 간의 관계에 대한 보다 정교한 분석의 필요성을 강조합니다.

그림6.1 : 모델 전반에 걸친 인종적 정서

표6.2 : GPT-3 175B 모델에서 각 종교에 대해 가장 선호하는 10개의 단어를 표시합니다.

6.2.3 Religion

우리는 모든 프롬프트에 대해 온도가 1이고 상위 p가 0.9인 길이 50의 800개 모델 출력을 생성하여 무신론, 불교, 기독교, 힌두교, 이슬람교 및 유대교와 관련된 종교 용어와 함께 발생하는 단어를 연구했습니다. 우리의 프롬프트는 위에 나열된 6가지 종교 범주 각각에 대해 "{종교 수행자}는"(예: "기독교인은") 성격을 띠었습니다. 그런 다음 모델이 자연스럽게 완성을 수행하도록 허용하고 단어의 동시 발생을 연구하기 위해 이러한 완성의 코퍼스를 만들었습니다.

다음은 모델의 출력 예입니다.

인종과 유사하게, 우리는 모델이 종교적 용어와 연관되어 이러한 용어가 때때로 세계에서 어떻게 표현되는지를 반영하는 경향을 나타냄을 발견했습니다. 예를 들어, 이슬람교에서는 라마단, 선지자, 모스크와 같은 단어가 다른 종교보다 더 높은 비율로 동시 발생한다는 사실을 발견했습니다. 우리는 또한 폭력, 테러리즘, 테러리스트와 같은 단어가 다른 종교보다 이슬람교에서 더 높은 비율로 공동 발생했으며 GPT-3에서 이슬람에 대해 가장 선호하는 단어 상위 40개에 포함된다는 사실을 발견했습니다.

6.2.4 미래 편견과 공정성 문제

우리는 추가 연구에 동기를 부여하고 대규모 생성 모델에서 편향을 특성화하는 데 내재된 어려움을 강조하기 위해 발견한 편향 중 일부를 공유하기 위해 이 예비 분석을 제시했습니다. 우리는 이것이 우리에게 지속적인 연구 영역이 될 것으로 기대하며 커뮤니티와 다양한 방법론적 접근 방식을 논의하게 되어 기쁩니다.

우리는 이 섹션의 작업을 주관적인 이정표로 봅니다. 우리는 성별, 인종, 종교를 출발점으로 선택했지만 이 선택에 내재된 주관성을 인식합니다. 우리의 작업은 [MWZ+18]의 모델 보고용 모델 카드와 같은 정보 라벨을 개발하기 위해 모델 속성 특성화에 관한 문헌에서 영감을 받았습니다.

궁극적으로 언어 시스템의 편견을 특성화하는 것뿐만 아니라 개입하는 것도 중요합니다. 이에 대한 문헌도 광범위하므로[QMZH19, HZJ+19], 대규모 언어 모델과 관련된 향후 방향에 대해 몇 가지 간략한 설명만 제공합니다. 범용 모델에서 효과적인 편견 예방을 위한 길을 닦기 위해서는 이러한 모델에 대한 편견 완화의 규범적, 기술적, 경험적 과제를 함께 묶는 공통 어휘를 구축할 필요가 있습니다. NLP 외부 문헌을 다루고, 피해에 대한 규범적 진술을 더 잘 설명하고, NLP 시스템의 영향을 받은 커뮤니티의 실제 경험을 다루는 더 많은 연구의 여지가 있습니다[BBDIW20].

따라서 완화 작업은 사각지대가 있는 것으로 나타났기 때문에 편견을 '제거'하기 위한 측정 기준 기반 목표로만 접근해서는 안 되며[GG19, NvNvdG19] 전체적인 방식으로 접근해야 합니다.

6.3 에너지 사용량

실용적인 대규모 사전 훈련에는 많은 양의 계산이 필요하며 이는 에너지 집약적입니다. GPT-3 175B 훈련에는 사전 훈련 동안 수천 페타플롭/s-일의 컴퓨팅이 소비되었습니다. 1.5B 매개변수 GPT-2 모델(그림 2.2) 이는 [SDSE19]에서 주장하는 것처럼 우리가 그러한 모델의 비용과 효율성을 인식해야 함을 의미합니다.

대규모 사전 훈련을 사용하면 대형 모델의 효율성을 볼 수 있는 또 다른 렌즈도 제공됩니다. 모델을 훈련하는 데 사용되는 리소스뿐만 아니라 이러한 리소스가 모델 수명 동안 어떻게 상환되는지 고려해야 합니다. 이후에는 다양한 목적으로 사용되며 특정 작업에 맞게 미세 조정됩니다. GPT-3과 같은 모델은 훈련 중에 상당한 리소스를 소비하지만 일단 훈련되면 놀라울 정도로 효율적일 수 있습니다. 전체 GPT-3 175B를 사용하더라도 훈련된 모델에서 100페이지의 콘텐츠를 생성하는 데 드는 비용은 0.4kW-hr 정도입니다. 에너지 비용은 단 몇 센트에 불과합니다. 또한 모델 증류[LHCG19a]와 같은 기술을 사용하면 이러한 모델의 비용을 더욱 낮출 수 있으므로 단일 대규모 모델 교육 패러다임을 채택한 다음 적절한 상황에서 사용할 수 있는 보다 효율적인 버전을 만들 수 있습니다. 알고리즘의 발전은 이미지 인식 및 신경 기계 번역에서 관찰된 추세와 유사하게 시간이 지남에 따라 자연스럽게 그러한 모델의 효율성을 더욱 증가시킬 수도 있습니다[HB20].

7 관련 업무

여러 작업 라인에서는 생성 또는 작업 성능을 향상시키기 위한 수단으로 언어 모델의 매개변수 수 및/또는 계산을 늘리는 데 중점을 두었습니다. 초기 작업에서는 LSTM 기반 언어 모델을 10억 개가 넘는 매개변수로 확장했습니다[JVS+16]. 한 줄의 작업으로 변환기 모델의 크기를 간단하게 늘리고 매개변수와 토큰당 FLOPS를 대략 비례적으로 확장합니다. 이러한 맥락에서 작업을 통해 모델 크기가 연속적으로 증가했습니다. 원본 논문의 매개변수 2억 1,300만 개[VSP+17], 매개변수 3억 개[DCLT18], 매개변수 15억 개[RWC+19], 매개변수 80억개[SPP+19], 110억 개 매개변수[RSR+19], 가장 최근에는 170억 개의 매개변수[Tur20]가 있습니다. 두 번째 작업 라인은 계산 비용을 늘리지 않고 정보를 저장할 수 있는 모델의 용량을 늘리는 수단으로 계산이 아닌 매개변수 수를 늘리는 데 중점을 두었습니다. 이러한 접근법은 조건부 계산 프레임워크[BLC13]에 의존하며 특히 전문가 혼합 방법[SMM+17]은 1000억 개의 매개변수 모델과 최근에는 500억 개의 매개변수 변환 모델[AJF19]을 생성하는 데 사용되었습니다. 매개변수의 작은 부분이 실제로 각 정방향 패스에서 사용됩니다. 세 번째 접근 방식은 매개변수를 늘리지 않고도 계산을 증가시킵니다. 이 접근 방식의 예로는 적응형 계산 시간 [Gra16] 및 범용 변환기 [DGV+18]가 있습니다. 우리의 작업은 첫 번째 접근 방식(신경망을 더 크게 만들어 컴퓨팅과 매개 변수를 함께 확장)에 중점을 두고 이 전략을 사용하는 이전 모델보다 모델 크기를 10배 늘립니다.

여러 가지 노력이 언어 모델 성능에 대한 규모의 영향을 체계적으로 연구했습니다. [KMH+20, RRBS19, LWS+20, HNA+17], 자동 회귀 언어 모델이 확장됨에 따라 손실에서 원활한 멱함수 추세를 찾습니다.

이 작업은 모델이 계속해서 확장됨에 따라 이러한 추세가 대체로 계속된다는 것을 시사하며(비록 그림 3.1에서 곡선의 약간의 굽힘이 감지될 수 있음), 3개 주문에 걸쳐 많은(전부는 아니지만) 다운스트림 작업에서 상대적으로 완만하게 증가하는 것을 발견했습니다. 스케일링의 규모.

또 다른 작업 라인은 확장과 반대 방향으로 진행되어 가능한 한 작은 언어 모델에서 강력한 성능을 유지하려고 시도합니다. 이 접근 방식에는 ALBERT [LCG+19]뿐만 아니라 일반 [HVD15] 및 작업별 [SDCW19, JYS+19, KR16] 접근 방식이 포함됩니다. 이러한 아키텍처와 기술은 잠재적으로 우리 작업을 보완하며 거대한 모델의 대기 시간과 메모리 공간을 줄이는 데 적용될 수 있습니다.

미세 조정된 언어 모델이 많은 표준 벤치마크 작업에서 인간의 성능에 가까워짐에 따라 질문 답변 [KPR+19, IBGC+14, CCE+18, MCKS18]을 포함하여 더 어렵거나 개방형 작업을 구성하는 데 상당한 노력을 기울였습니다. 독해력 [CHI+18, RCM19] 및 기존 언어 모델이 어렵도록 설계된 적대적으로 구성된 데이터 세트 [SBBC19, NWD+19]. 이 작업에서 우리는 이러한 많은 데이터 세트에서 모델을 테스트합니다.

이전의 많은 노력은 특히 우리가 테스트한 작업의 상당 부분을 구성하는 질문 답변에 중점을 두었습니다. 최근 노력에는 110억 개의 매개변수 언어 모델을 미세 조정한 [RSR+19, RRS20]과 테스트 시 대량의 데이터에 집중하는 데 중점을 둔 [GLT+20]이 포함됩니다. 우리의 작업은 맥락 내 학습에 중점을 두는 점에서 다르지만 향후 [GLT+20, LPP+20] 작업과 결합될 수 있습니다.

[RWC+19]에서는 언어 모델의 메타러닝이 활용되었지만 결과가 훨씬 제한적이고 체계적인 연구가 이루어지지 않았습니다. 보다 광범위하게 말하면 언어 모델 메탈러닝은 내부 루프-외부 루프 구조를 가지므로 일반적으로 ML에 적용되는 메탈러닝과 구조적으로 유사합니다. 여기에는 매칭 네트워크 [VBL+16], RL2 [DSC+16], 최적화 학습 [RL16, ADG+16, LM17] 및 MAML [FAL17]을 포함한 광범위한 문헌이 있습니다. 이전 예제로 모델의 컨텍스트를 채우는 접근 방식은 구조적으로 RL2와 가장 유사하며 [HYC01]과도 유사합니다. 적응의 내부 루프는 가중치를 업데이트하지 않고 시간 단계에 걸쳐 모델 활성화 계산을 통해 발생하는 반면 외부 루프는 (이 경우에는 언어 모델 사전 훈련만) 가중치를 업데이트하고 추론 시 정의된 작업에 적응하거나 최소한 인식하는 능력을 암시적으로 학습합니다. Few-shot 자동 회귀 밀도 추정은 [RCP+17]에서 탐색되었으며 [GWC+18]에서는 Few-shot 학습 문제로 저자원 NMT를 연구했습니다.

퓨샷 접근 방식의 메커니즘은 다르지만 이전 작업에서는 경사하강법과 함께 사전 훈련된 언어 모델을 사용하여 퓨샷 학습을 수행하는 방법도 탐색했습니다[SS20]. 비슷한 목표를 가진 또 다른 하위 분야는 UDA [XDH+19]와 같은 접근 방식이 레이블이 지정된 데이터가 거의 없을 때 미세 조정 방법을 탐색하는 준지도 학습입니다.

자연어로 다중 작업 모델 지침을 제공하는 것은 [MKXS18]을 사용하여 지도 설정에서 처음 공식화되었으며 [RWC+19]를 사용하여 언어 모델의 일부 작업(예: 요약)에 활용되었습니다. 자연어로 작업을 제시하는 개념은 텍스트-텍스트 변환기 [RSR+19]에서도 탐색되었지만 가중치 업데이트 없이 상황 내 학습보다는 다중 작업 미세 조정에 적용되었습니다.

언어 모델에서 일반성과 전이 학습 기능을 향상시키는 또 다른 접근 방식은 다중 작업 학습[Car97]으로, 각 작업에 대한 가중치를 별도로 업데이트하는 대신 다운스트림 작업을 함께 혼합하여 미세 조정합니다. 성공적인 다중 작업 학습을 통해 가중치를 업데이트하지 않고도 단일 모델을 여러 작업에 사용할 수 있거나(상황 내 학습 접근 방식과 유사) 새 작업에 대한 가중치를 업데이트할 때 샘플 효율성을 향상시킬 수 있습니다. 다중 작업 학습은 몇 가지 유망한 초기 결과를 보여 주었고[LGH+15, LSP+18] 다단계 미세 조정은 최근 일부 데이터 세트에 대한 SOTA 결과의 표준화된 부분이 되었으며[PFB18] 특정 작업의 경계를 넓혔습니다[KKS +20], 그러나 데이터 세트 컬렉션을 수동으로 선별하고 교육 커리큘럼을 설정해야 하는 필요성으로 인해 여전히 제한적입니다. 대조적으로, 충분히 큰 규모의 사전 훈련은 텍스트 자체를 예측하는 데 암시적으로 포함된 작업의 "자연스러운" 광범위한 분포를 제공하는 것으로 보입니다. 향후 작업의 한 방향은 예를 들어 절차적 생성[TFR+17], 인간 상호 작용[ZSW+19b] 또는 능동적 학습[Mac92]을 통해 다중 작업 학습을 위한 더 광범위한 명시적 작업 세트를 생성하려고 시도하는 것일 수 있습니다.

지난 2년 동안 언어 모델의 알고리즘 혁신은 잡음 제거 기반 양방향성[DCLT18], 접두사LM[DL15] 및 인코더-디코더 아키텍처[LLG+19, RSR+19], 훈련 중 무작위 순열[YDY+19]을 포함하여 엄청났습니다. 샘플링 효율성을 향상시키는 아키텍처[DYY+19], 데이터 및 훈련 절차 개선[LOG+19], 임베딩 매개변수의 효율성 증가[LCG+19]. 이러한 기술 중 다수는 다운스트림 작업에서 상당한 이점을 제공합니다. 이 작업에서 우리는 상황 내 학습 성능에 초점을 맞추고 대규모 모델 구현의 복잡성을 줄이기 위해 순수 자동 회귀 언어 모델에 계속 중점을 둡니다. 그러나 이러한 알고리즘 발전을 통합하면 다운스트림 작업, 특히 미세 조정 설정에서 GPT-3의 성능을 향상시킬 가능성이 매우 높으며 GPT-3의 규모를 이러한 알고리즘 기술과 결합하는 것이 향후 작업의 유망한 방향입니다.

8 결론

우리는 제로샷, 원샷 및 퓨샷 설정의 많은 NLP 작업 및 벤치마크에서 강력한 성능을 보여주는 1,750억 개의 매개변수 언어 모델을 제시했으며 일부 경우에는 최첨단 성능과 거의 일치했습니다. 즉석에서 정의된 작업에서 고품질 샘플과 강력한 질적 성능을 생성할 뿐만 아니라 조정된 시스템을 제공합니다. 우리는 미세 조정을 사용하지 않고도 대략적으로 예측 가능한 성능 확장 추세를 문서화했습니다.

우리는 또한 이 모델 클래스의 사회적 영향에 대해서도 논의했습니다. 많은 한계와 약점에도 불구하고 이러한 결과는 매우 큰 언어 모델이 적응 가능한 일반 언어 시스템 개발에 중요한 요소가 될 수 있음을 시사합니다.

'자연어처리논문' 카테고리의 다른 글

GPT-3 논문리뷰 (0)	2024.01.17
T5 논문 리뷰 (0)	2023.12.31
[번역] Exploring the Limits of Transfer Learning with a Uniﬁed Text-to-Text Transformer (1)	2023.12.31
RoBERTa 논문 리뷰 (0)	2023.12.03
[번역] RoBERTa: A Robustly Optimized BERT Pretraining Approach (2)	2023.12.03

오늘보다 더 나은 내일

[번역] Language Models are Few-Shot Learners

'자연어처리논문' 카테고리의 다른 글

+ Recent posts

티스토리툴바