https://arxiv.org/pdf/2202.12837
Abstract:
- in-context learning 에 대한 새로운 연구 결과를 소개하는 논문임.
- 이 논문에서는 demonstrations 의 레이블의 정확도가 크게 중요하지 않다, 레이블을 무작위로 바꿔도 성능은 유지된다" 라는 발견이 있었음:
- 여기서 말하는 demonstrations 은 예시 데이터를 말함.
- demonstrations 의 레이블은 예시 데이터 안에서의 레이블을 말함. 텍스트 분류 작업 기준으로 예시 데이터의 입력이 "이 영화는 정말 재미있었어요" 라면, 레이블은 "Positive" 가 될거임.
- 이런 레이블이 중요하지 않다는 이야기를 이 논문은 하고 있는거임.
Introduction:
- 대규모 언어 모델들이 소수의 입력-레이블 쌍(demonstrations)만으로 다양한 작업에서 좋은 성능을 보임.
- 하지만 정확한 레이블이 필요하지 않다는 걸 발견함. demonstrations의 레이블을 무작위로 바꿔도 성능이 거의 떨어지지 않음.
- 이러한 발견은 12개의 다른 모델(GPT-3 포함)에서 일관되게 나타나는 걸 알 수 있음.
- 이거는 모델이 입력-레이블 매핑에 의존하지 않는다는 것을 시사함.
- demonstrations의 어떤 부분이 성능에 기여하는지 조사해보니 레이블 공간, 입력 텍스트의 분포, 전체적인 형식 등이 중요한 요소로 밝혀졌다고 함.
- 레이블 공간 (Label space):
- 주어진 작업에서 가능한 모든 출력 카테고리나 답변의 집합을 말함.
- 예를 들어, 감성 분석 작업에서 레이블 공간은 "긍정", "부정", "중립"이 될 수 있음.
- 입력 텍스트의 분포 (Distribution of the input text):
- 이는 모델에 제공되는 입력 예시들의 특성과 다양성을 나타냄.
- 예를 들어, 문장의 길이, 사용된 어휘, 문체 등이 포함된다.
- 모델은 주어진 작업에서 어떤 종류의 입력을 다루게 될지 이해하낟.
- 전체적인 형식 (Overall format):
- 입력과 출력이 어떤 구조로 제시되는지를 의미함.
- 이 형식은 모델이 입력과 출력을 어떻게 구분하고 처리해야 하는지 알려준다.
- 레이블 공간 (Label space):
실험 설정:
- 모델:
- 총 12개의 모델을 사용함.
- 6개의 디코더 전용 언어 모델을 포함하며, 각 모델에 대해 direct와 channel 두 가지 추론 방법을 사용.
- 모델 크기는 774M에서 175B까지 다양함.
- GPT-3(당시 가장 큰 밀집 LM)와 fairseq 13B(당시 가장 큰 공개된 밀집 LM)를 포함.
- 평가 데이터:
- 26개의 데이터셋 사용.
- 감성 분석, 패러프레이즈 감지, 자연어 추론, 혐오 발언 탐지, 질문 답변, 문장 완성 등 다양한 작업 포함.
- 모든 데이터셋은 분류 또는 다중 선택 과제임.
- 기타 세부사항:
- 기본적으로 16개의 예시를 demonstrations 로 사용.
- 훈련 데이터에서 균일하게 샘플링.
- 5개의 다른 랜덤 시드로 실험을 5번 반복.
- fairseq 13B와 GPT-3는 리소스 제한으로 6개의 데이터셋과 3개의 랜덤 시드만 사용.
- 분류 작업은 MacroF1, 다중 선택 작업은 정확도로 평가.
- 데이터 셋 별 평균을 계산한 후 데이터셋 간 매크로 평균을 보고.
정확한 레이블의 중요성에 대한 실험 결과:
- 실험 방법:
- No demonstrations: 제로샷 방법으로, 레이블된 데이터를 사용하지 않음.
- Demonstrations w/ gold labels: 정확한 레이블이 있는 k개의 예시를 사용.
- Demonstrations w/ random labels: 무작위로 선택된 레이블로 k개의 예시를 구성.
- Gold labels를 사용한 demonstrations가 no demonstrations보다 성능이 크게 향상됨.
- 하지만 gold labels를 random labels로 대체해도 성능 저하가 미미함(0-5% 사이).
- 다중 선택 과제에서는 분류 과제보다 레이블 교체의 영향이 더 적음.
- 정확한 입력-레이블 쌍이 성능 향상에 필수적이지 않다는 것을 시사함.
- 모델이 예상되는 입력-레이블 관계를 프롬프트에 입력한 demonstrations의 직접적인 쌍이 아닌 다른 방식으로 추론할 수 있음을 시사한다.
정확한 레이블의 수가 미치는 영향에 대한 추가 실험:
- 실험 설계:
- 5개의 분류 데이터셋과 4개의 다중 선택 데이터셋을 사용.
- demonstrations에서 정확한 레이블의 비율을 0%에서 100%까지 변화시키며 실험.
- "Demonstrations w/ a% correct labels"라는 방법을 사용, 여기서 a는 정확한 레이블의 비율.
- 모델의 성능은 demonstrations에 있는 정확한 레이블의 수에 크게 민감하지 않음.
- 심지어 모든 레이블이 잘못된 경우(0% 정확도)에도 여전히 'no demonstrations' 방법보다 훨씬 나은 성능을 보임.
- MetaICL 모델:
- 분류 작업에서 잘못된 레이블만 사용해도 정확한 레이블을 사용했을 때의 성능 향상의 92%를 유지.
- 다중 선택 작업에서는 100%의 성능 향상을 유지.
- GPT-3 모델:
- 다중 선택 작업에서 잘못된 레이블만 사용해도 97%의 성능 향상을 유지.
- 분류 작업에서는 잘못된 레이블의 수가 증가할수록 성능이 상대적으로 크게 감소(항상 잘못된 레이블을 사용할 때 약 10% 성능 하락).
- 그러나 여전히 'no demonstrations' 방법보다는 훨씬 나은 성능을 보임.
- 모델이 demonstrations의 구조, 형식, 또는 다른 특성에서 중요한 정보를 얻고 있을 가능성을 제시함.
demonstrations에 포함된 입력-레이블 쌍의 수(k)가 미치는 영향에 대한 추가 실험:
- demonstrations에 포함되는 입력-레이블 쌍의 수(k)를 변화시키며 성능을 관찰.
- 적은 수의 예시(k=4)로도 'no demonstrations' 방법보다 유의미하게 높은 성능을 보임.
- 정확한 레이블(gold labels)에서 무작위 레이블(random labels)로 바꿨을 때의 성능 저하는 k값과 관계없이 일관되게 작음(0.8-1.6% 범위).
- k ≥ 8일 때, k가 증가해도 모델 성능이 크게 향상되지 않음. 이는 정확한 레이블과 무작위 레이블 모두에 해당됨.
- 이러한 결과는 전형적인 지도 학습과는 대조적임. 지도 학습에서는 일반적으로 데이터 양(k)이 증가할수록 성능이 빠르게 향상됨.
- 저자들은 모델은 적은 수의 예시만으로도 이러한 '다른 요소들'을 빠르게 파악할 수 있다고 하며 반면, 정확한 입력-레이블 대응 관계를 학습하는 것은 어렵다고 함.
- 다른 요소는 다음과 같다:
- 예시 입력: 입력 데이터의 일반적인 형태나 구조
- 예시 레이블: 가능한 레이블의 종류나 형식
- 데이터 형식: 입력과 레이블이 어떻게 구성되고 제시되는지에 대한 전반적인 구조
- 입력-레이블 대응 관계:
- 특정 입력이 어떤 레이블과 연관되는지에 대한 정보를 말함.
- 예를 들어, 감성 분석 작업에서 "이 영화는 훌륭했어요"라는 입력이 "긍정"이라는 레이블과 연결되는 것을 학습하는 것임.
- 저자들은 이 관계를 정확히 학습하려면 많은 예시가 필요하다고 가설을 세움. (실제로 더 많은 데이터를 입력해본 결과를 보고 싶긴함.)
- 맥락 내 학습에서 모델은 정확한 입력-레이블 대응보다는 이러한 '다른 요소들'에 더 의존하는거 아니냐라는 걸로 판단함.
- 이는 왜 무작위 레이블을 사용해도 성능이 크게 떨어지지 않는지, 그리고 왜 예시 수를 늘려도 성능이 크게 향상되지 않는지를 설명할 수 있긴함.
- 다른 요소는 다음과 같다:
Why does In-Context Learning work? (맥락 내 학습이 작동하는 이유):
- demonstrations의 정확한 입력-레이블 매핑이 성능 향상에 큰 영향을 미치지 않는다는 것이 나옴.
- 이제 demonstrations의 다른 측면들이 맥락 내 학습의 성능에 어떤 영향을 미치는지 알아보자.
- Demonstrations의 네 가지 주요 측면:
- a. 입력-레이블 매핑: 각 입력 xi가 올바른 레이블 yi와 짝지어져 있는지 여부.
- b. 입력 텍스트의 분포: x1...xk가 속한 기본 분포
- c. 레이블 공간: y1...yk가 포함하는 공간.
- d. 형식: 특히 입력-레이블 쌍을 형식으로 사용하는 것.
- 각 측면의 영향을 독립적으로 평가하기 위해 demonstrations의 여러 변형을 설계해서 하나씩 보자.
입력 텍스트의 분포가 맥락 내 학습에 미치는 영향:
- OOD (Out-of-Distribution) demonstrations 실험.
- 훈련 데이터의 입력 대신 외부 코퍼스에서 무작위로 샘플링한 문장들을 사용
- 이를 통해 레이블 공간과 demonstrations의 형식은 유지하면서 입력 텍스트 분포의 영향만을 평가
- Channel MetaICL, Direct GPT-J, Channel GPT-J 모델들에서 OOD 입력 사용 시 성능이 크게 하락 (3-16% 절대적 감소)
- 특히 Direct GPT-J의 경우 다중 선택 작업에서 'no demonstrations' 방법보다도 성능이 크게 낮아짐
- In-distribution 입력이 demonstrations에 포함되는 것이 성능 향상에 크게 기여함
- 이는 in-distribution 텍스트에 대한 조건부 확률 계산이 언어 모델의 훈련 과정과 더 유사하기 때문일 것으로 추정됨
- 맥락 내 학습에서 입력 텍스트의 분포가 중요한 역할을 한다는 것을 보여줌
레이블 공간이 맥락 내 학습에 미치는 영향:
- 기존 레이블 세트 C와 같은 크기의 무작위 영어 단어 세트 Crand를 생성하고, 입력과 이런 무작위 영어 단어를 짝지어서 실험함.
- 이를 통해 입력 텍스트의 분포와 demonstrations의 형식은 유지하면서 레이블 공간의 영향만을 평가하는 실험을 만듬.
- 실험 결과: Direct 모델과 Channel 모델이 서로 다른 패턴을 보임.
- Direct 모델의 경우:
- 레이블 공간 내의 무작위 레이블과 무작위 영어 단어 사용 간의 성능 차이가 큼 (5-16% 절대적 차이)
- 레이블 공간이 성능 향상에 크게 기여함을 시사
- 다중 선택 작업에서도 이러한 경향이 나타남
- Channel 모델의 경우:
- 레이블 공간 제거가 성능에 큰 영향을 미치지 않음 (0-2% 절대적 차이)
- Direct 모델의 경우:
- Direct Model 과 Channel 모델의 차이:
- Direct Model:
- 입력을 받아 직접 레이블을 생성(생성적 접근)
- 예시: "이 영화는 훌륭했어요" → 모델 → "긍정"
- Channel 모델:
- 입력과 가능한 레이블들이 주어졌을 때, 각 레이블의 확률을 계산(판별적 접근)
- 예시: ("이 영화는 훌륭했어요", "긍정" vs "부정") → 모델 → "긍정"의 확률이 더 높음
- Direct Model:
input-label pairing 구조가 미치는 영향:
- 데모(시연)의 형식을 변경했을 때, 특히 입력과 레이블의 쌍을 제거했을 때 언어 모델(LM)의 성능에 미치는 영향을 확인해봄.
- 실험은 데모에서 레이블을 제거하고 입력(x₁, x₂, …, xₖ)만을 연결하여 모델에 조건을 부여했음
- 이렇게 한 이유는 레이블 없이도 모델이 효과적으로 작업을 수행할 수 있는지 확인하기 위함임.
- 또 다른 실험으로 데모에서 입력을 제거하고 레이블(y₁, y₂, …, yₖ)만을 연결하여 모델에 조건을 부여함.
- 이건 레이블만 제공했을 때 모델의 성능을 평가하기 위함임.
- 레이블이 없는 예시는 예시가 없는 것보다 성능이 떨어졌다고 함. 레이블이 없으니까 모델은 입력을 보고 새로운 입력을 만들어야 하는 걸로 생각을 했나봄.
- 모델이 입력을 받았을 때 잘못된 이해를 할 수 있기 때문에 이러한 변경은 영향이 큼.
Impact of Meta-Training:
- 메타-트레이닝이 인-컨텍스트 학습에 미치는 영향을 알아보자.
- 메타-트레이닝은 다양한 감독 데이터셋을 사용한 다중 작업 학습(multi-task training)을 통해 새로운 작업에 일반화할 수 있도록 모델을 훈련시키는 방법을 말함.
- MetaICL은 인-컨텍스트 학습 목표를 가지고 훈련된 모델로, 다른 일반적인 언어 모델과는 다르게 메타-트레이닝 과정을 거침.
- 일반적인 언어 모델과 달리, MetaICL은 메타-트레이닝을 통해 인-컨텍스트 학습 능력을 향상 시킬 수 있음:
- 입력-레이블 매핑(input-label mapping) 은 덜 중요해질거고, 데모의 형식(format)은 더 중요해질거임.
- 모델이 생성하도록 훈련된 텍스트 공간(space of the text that the model is trained to generate) 은 모델이 조건을 부여받는 텍스트 공간(space of the text that the model conditions on)보다 활용하기 더 쉬울 가능성이 있음.
Does the model learn at test time?:
- 예시가 주어졌을 때 모델은 새로운 작업을 배우기 보다는 이전에 training 때 배웠던 작업을 쓰려는 경향이 생기는 걸로 봐야함.
- 하지만 예시가 주어지면 구체적인 input 과 label 의 distribution 과 예시에 주어진 format 은 잘 배운다. 그리고 결론적으로 주어진 작업의 정확도도 올라갈거임.
Capacity of LMs:
- 입력-레이블 대응 관계(input-label correspondence)에 의존하지 않고도 다운스트림 작업을 수행할 수 있는 능력에 대해 논의함.
- 데모가 작업의 위치(task location)를 지정하는 역할을 하며, 작업을 수행하는 본질적인 능력은 사전 학습(pretraining) 에 이미 획득된다고 주장함.
- 모델이 데모의 입력-레이블 대응 관계에 의존하지 않고도 작업을 수행할 수 있다는 것은, 언어 모델링 목표가 매우 강력한 제로샷 능력을 부여했음을 나타낼거임. 즉 모델이 기본적으로 많은 작업을 사전 학습을 통해 내재화하고 있을 것이라고 함.
- 인-컨텍스트 학습(In-Context Learning, ICL)이 효과적으로 작동하려면, 모델이 이미 해당 작업의 입력과 레이블 간의 대응 관계를 사전 학습 과정에서 학습했어야 한다고 함. 만약 모델이 이러한 대응 관계를 학습하지 않았다면, 인-컨텍스트 학습이 제대로 작동하지 않을 수 있다고 한다.
- 이는 언어 모델이 사전 학습 과정에서 학습하지 않은 새로운 작업이나 입력-레이블 대응 관계에 대해서는 인-컨텍스트 학습이 효과적이지 않을 수 있음을 의미함.
Conclusion:
- ICL 로 분명 작업의 정확도가 높아지긴 함. 그러나 이 논문에서 주장하는 바는 입력-레이블 대응에 따라서 새로운 작업을 학습하는 것보다는 예시에서 제공한 텍스트들, 예시의 출력 구조, 레이블 공간과 같은 작업들이 영향을 주지 입력-레이블 대응은 영향이 없다라고 함.
- 하지만 입력-레이블 대응에서 잘못된 예시를 주면 GPT-J 와 같은 모델들은 성능이 떨어지는 것으로 보아 입력-레이블이 영향이 없는 것 같지는 않음. 분명이런 올바른 대응에도 영향을 주지만 미미할 수 있다는 것.
- 그리고 논문에서는 ICL 를 통해 새로운 작업을 완벽하게 하기는 어렵고, 이걸 하려면 새롭게 ICL 기반의 사전 학습을 하거나 파인 튜닝을 해야하는 거 아니냐를 주장함. 기본적으로 모델의 작업 수행 능력은 훈련 때 내재화 되어 있을 것이라는 주장.
- 프롬프트 만으로는 새로운 능력을 주기 보다는 기존에 가지고 있었던 능력을 회복하는 것 아니냐 라는 것.
- 이 작업은 분류 작업에서만 실험을 했었음. 텍스트 생성 작업에서는 하지 않았다. 텍스트 생성 작업에서의 출력 분포는 다양하고 테스트를 하기 어령긴 함. 레이블 대로 출력을 하는 건 원하지 않고 보다 유연한 출력을 원할거임.