https://arxiv.org/pdf/2303.03846


Abstract:

  • 언어 모델에서의 문맥 학습(In-Context Learning, ICL)이 의미적 사전 지식(semantic priors)과 입력-레이블 매핑에 의해 어떻게 영향을 받는지를 연구하는 글임.
  • 저자들은 두 가지 실험 설정을 조사해서 연구를 함:
    • 레이블을 뒤집은 ICL: 여기서는 문맥 내 예시에서 레이블이 원래와 반대로 제공됨. 예를 들어, 긍정적인 문장에 부정 레이블을 붙이는 것.
    • 의미적으로 무관한 레이블 ICL(SUL-ICL): 여기서는 레이블이 입력과 의미적으로 관련이 없는 걸 제공함. 예를 들어, ‘긍정/부정’ 대신 ‘foo/bar’와 같은 임의의 레이블을 사용함.
  • 이 두 가지 설정에서 여러 모델 계열(GPT-3, InstructGPT, Codex, PaLM, Flan-PaLM)을 대상으로 실험한 결과 다음과 같은 발견을 했다고 함:
    • 모델 규모의 영향: 작은 언어 모델은 문맥 내에서 뒤집힌 레이블을 무시하고, 주로 사전 학습에서 얻은 의미적 사전 지식에 의존함. 반면에 큰 언어 모델은 더 강한 의미적 사전 지식을 가지고 있음에도 불구하고, 문맥 내 예시가 사전 지식과 모순될 때 이를 무시하고 예시에 따라 행동할 수 있다고 함. 이는 의미적 사전 지식을 무시하는 능력이 모델 규모에 따라 나타나는 현상임을 보여준다.
    • SUL-ICL에서의 학습 능력: 의미적으로 무관한 레이블을 사용하는 설정에서, 충분히 큰 언어 모델은 문맥 내 예시를 통해 입력-레이블 매핑을 학습하여 작업을 수행할 수 있다고 함. 이는 모델이 단순한 사전 지식에 의존하는 것이 아니라, 실제로 예시를 통해 새로운 매핑을 학습할 수 있음을 의미한다.
    • 명령어 튜닝의 영향: 추가로, 명령어 튜닝(instruction tuning)을 거친 모델(InstructGPT 등)을 평가한 결과, 명령어 튜닝은 의미적 사전 지식의 활용과 입력-레이블 매핑 학습 능력을 모두 강화하지만, 특히 의미적 사전 지식의 활용을 더 크게 강화한다는 것을 발견.
  • 결론적으로, 이 연구는 언어 모델의 규모가 커질수록 문맥 학습에서 사전 지식을 넘어서는 학습 능력이 향상되며, 이는 모델이 문맥 내 예시를 통해 새로운 패턴이나 매핑을 학습할 수 있음을 보여준다.

 

 

Introduction:

  • 언어 모델의 문맥 학습(In-Context Learning, ICL) 에서 의미적 사전 지식(semantic priors) 과 입력-레이블 매핑(input–label mappings) 이 어떻게 상호작용하는지를 다룸.
  • 저자들은 다음 세 가지 실험 설정을 제시함:
    • 일반적인 ICL: 여기서는 의미적 사전 지식과 입력-레이블 매핑 모두가 모델이 문맥 학습을 성공적으로 수행하는 데 기여한다.
    • 레이블을 뒤집은 ICL(Flipped-label ICL): 예시로 제공되는 모든 레이블이 원래의 것과 반대로 제공됨. 즉, 의미적 사전 지식과 입력-레이블 매핑이 상충하도록 만듬. 평가 세트의 레이블은 변경되지 않아있을거니, 이진 분류 작업에서 50% 이상의 정확도를 달성한다면 모델이 의미적 사전 지식을 무시하지 못하고 있음을 의미함. 반대로 50% 미만의 정확도를 보인다면 모델이 예시를 통해 입력-레이블 매핑을 학습하여 의미적 사전 지식을 넘어섰다는 것을 나타냄.
    • 의미적으로 무관한 레이블 ICL(Semantically-Unrelated Label ICL, SUL-ICL): 레이블이 작업과 의미적으로 관련이 없도록 한 것. 예를 들어, 감정 분석에서 ‘긍정/부정’ 대신 ‘foo/bar’와 같은 임의의 레이블을 사용함. 이 경우, 모델은 레이블의 의미에 의존할 수 없으므로 입력-레이블 매핑을 학습해야만 작업을 수행할 수 있을거임.
  • 주요 발견 내용은 다음과 같음:
    • 레이블을 뒤집은 ICL에서의 모델 규모 영향:
      • 작은 모델은 뒤집힌 레이블을 보아도 예측을 변경하지 않고, 주로 의미적 사전 지식에 의존함.
      • 그러나 큰 모델은 뒤집힌 예시를 따라 예측을 뒤집을 수 있음. 이는 모델 규모가 커질수록 입력-레이블 매핑을 활용하여 의미적 사전 지식을 무시할 수 있는 능력이 나타남을 의미한다. 특히, 더 큰 모델은 더 강한 의미적 사전 지식을 가지고 있음에도 불구하고 이를 넘어설 수 있음.
    • SUL-ICL에서의 성능 향상:
      • 작은 언어 모델은 의미적 사전 지식이 제거되면 성능이 크게 하락하지만, 큰 언어 모델은 의미적 사전 지식 없이도 작업을 잘 수행할 수 있음.
      • 일부 데이터셋에서는 무작위 수준 이상의 성능을 내기 위해 상당한 규모의 모델이 필요했음.(예: PaLM-540B만이 무작위 이상의 성능을 달성). (모델의 크기가 커야만 ICL 에서의 입력과 레이블 매핑의 작업 이해가 가능함.)
      • 이는 의미적 사전 지식 없이도 입력-레이블 매핑을 학습하는 능력이 큰 언어 모델에서 나타나는 현상임을 나타냄.
    • 명령어 튜닝의 영향:
      • 명령어 튜닝(InstructGPT 등) 을 거친 모델을 평가한 결과, 명령어 튜닝은 입력-레이블 매핑을 학습하는 능력을 향상시켰다고 함.
      • (SUL-ICL 설정에서 성능 향상). 그러나 동시에 이러한 모델은 레이블이 뒤집힌 설정에서 의미적 사전 지식을 무시하는 데 더 소극적이었음.
      • 즉, 명령어 튜닝은 모델이 의미적 사전 지식에 더욱 의존하게 만들면서도, 새로운 매핑을 학습하는 능력도 함께 향상시켰음.
      • 레이블을 뒤집은 ICL에서 성능 저하: 이진 분류 작업에서 정확도가 이전보다 높아지지만, 이 경우에는 오히려 모델이 예시를 따르지 못하고 의미적 사전 지식을 벗어나지 못했음.

 

 

예시를 포함한 명령어 튜닝은 입력-레이블 매핑 학습을 향상시키고 의미적 사전 지식을 강화한다:

  • 명령어 튜닝(Instruction Tuning): 사전 훈련된 언어 모델의 성능을 향상시키기 위해, NLP 작업을 명령어 형태로 표현하고 소수의 예시를 포함하여 모델을 미세 조정하는 기법임.
  • 명령어 튜닝이 모델의 성능을 향상시키는 이유는 입력-레이블 매핑 학습 능력의 향상 때문이기도 하고, 의미적 사전 지식의 강화 때문이기도 하다. 하지만 의미적 사전 지식의 의존도를 높여, 의미적 사전 지식과 상충하는 문맥 내 정보(예: 레이블이 뒤집힌 경우)를 따르지 못하게 되기도 함.
  • 여기서는 실험으로 PaLM 모델과 그 명령어 튜닝 버전인 Flan-PaLM 모델을 비교함.
  • SUL-ICL 설정에서는 Flan-PaLM 모델은 PaLM 모델보다 SUL-ICL 설정에서 더 높은 정확도를 보여줬음.
  • 레이블을 뒤집은 ICL 설정에서는 Flan-PaLM 모델은 레이블이 뒤집힌 상황에서도 성능이 크게 감소하지 않았음. (그러니까 성능이 감소되어야지 예시를 학습한거임.) 반면, PaLM 모델은 레이블이 뒤집힐수록 정확도가 감소하여, 최대 31% 까지 떨어졌다고 함.
  • 명령어 튜닝된 모델은 의미적 사전 지식에 더 많이 의존하게 되어, 문맥 내 예시가 의미적 사전 지식과 상충할 때 이를 무시하지 못하게 만듬.

 

 

대형 언어 모델은 선형 분류를 수행할 수 있다:

  • 이전에는 언어 모델의 자연어 추론 능력에 초점을 맞추었지만 여기서는 모델 규모가 다른 유형의 작업 수행 능력에 어떻게 영향을 미치는지를 알아보기 위함임.
  • 특히 선형 분류 작업에 주목한다. 만약 대형 모델이 입력-레이블 매핑을 학습하는 더 큰 능력을 가지고 있다면 이러한 능력이 비자연어(non-natural-language) 작업에서도 발휘될 것임. 아무래도 비자연어 작업은 사전 학습에 포함안되었을 가능성이 높기 떄문임.
  • N=16 차원의 선형 분류 작업에서 Codex 모델의 성능을 보면 가장 큰 Codex 모델은 이 작업에서 무작위 추측보다 19% 높은 성능을 보였고, 작은 모델들은 무작위 추측보다 최대 9% 높은 성능만을 보여주었다고 함.
  • 모델 규모가 커질수록 선형 분류와 같은 비자연어 작업에서도 입력-레이블 매핑을 학습하는 능력이 향상됨을 보여줌.

+ Recent posts