https://arxiv.org/pdf/2109.01652


Abstract:

  • 이 논문에서는 Instruction Tuning”이라는 기법을 통해, 사전에 학습된 대규모 언어 모델의 제로샷(Zero-Shot) 성능을 크게 향상시키는 방법을 소개함.
  • 간단히 말해, ‘자연어 형태의 지시문(instructions)을 활용해 다양한 데이터셋으로 미세 조정(fine-tuning)을 수행하면 모델이 새로운 작업(태스크)에 대해서도 별도 예시 제공 없이(제로샷) 더 잘 대응하게 된다는 것 (파인튜닝의 아이디어를 첫 소개)
  • 기존에는 특정 작업에 모델을 학습시킬 때 그 작업에 맞는 입력-출력 쌍만 사용했었다고 함. 반면, 이 논문에서는 작업 자체를 인간이 이해하는 방식—즉, “질문을 읽고 가장 적합한 답을 해라.”, “다음 문장에서 핵심 정보를 요약해라.”처럼 자연어로 된 지시문을 달아서 미세 조정을 진행함.
  • 그러니까 이런 Instruction Tuning 을 하면 모델이 여러 종류의 NLP 작업을 접할 때, “아, 지금은 이런 종류의 문제를 해결해야 하는구나”를 자연어 지시문을 통해 직관적으로 파악하게끔 도와줌.
  • 주요 성능 비교:
    • 연구팀은 137B 파라미터 규모의 사전 학습된 언어 모델을 이용해서 60개 이상의 다양한 NLP 데이터셋에 대해, 각각 ‘자연어 지시문 템플릿’을 만든 뒤 그 지시문 + 데이터셋으로 미세 조정을 진행했다고 함.
    • 그리고 이러한 파인튜닝 된 모델을 FLAN 이라고 부른다고 한다
    • FLAN 모델은 기존에 미세 조정되지 않은(지시문을 추가로 학습하지 않은) 모델보다 제로샷 환경에서 훨씬 더 높은 성능을 보였다고 함.
    • 일부 과제(ANLI, RTE, BoolQ, AI2-ARC, OpenbookQA, StoryCloze)에서는 GPT-3의 퓨샷(few-shot) 성능보다도 큰 폭으로 뛰어넘는 결과를 보여주었다고 한다.
  • Ablation Study의 발견:
    • 모델을 어떤 방식으로 미세 조정했는지 세부 요소들을 따로 떼어 실험(Ablation Study)해봤다고 함. 다음은 그 결과
    • 데이터셋의 다양성: 미세 조정에 사용되는 데이터셋(과제)의 수가 많을수록 모델이 새로운 작업을 접했을 때도 적응 능력이 좋아짐.
    • 모델 크기: 파라미터 규모가 큰 모델일수록 Instruction Tuning으로 인한 성능 향상이 더 극적으로 나타남. 모델의 크기가 작으면 지시문을 이해하는데 모델의 Capacity 를 모두 소모해서 그런거 아닌가 라고 함.
    • 자연어 형태의 지시문: 단순히 태스크를 기계적인 입출력 포맷으로 주는 것이 아니라, 인간의 언어로 작성된 지시문을 활용하는 것이 성능 향상의 핵심 요소였다고 한다.
    • 태스크 클러스터 수: 미세 조정에 사용하는 태스크 유형(클러스터)이 많을수록, 새로운 태스크를 제로샷으로 접근할 때 성능이 좋아졌다고 함.
    • 다양한 형태와 표현 방식의 지시문이 모델의 성능에도 영향을 미쳤다고 함. 지시문이 다양할수록 새로운 지시문이나 표현 방식에도 유연하게 대응할 수 있었다고.
    • 그리고 Instruction 튜닝이 끝난 이후에는 Few-shot 으로 굳이 프롬프트를 구성하지 않아도 된다고 함. Few-shot 으로 구성한게 성능이 약간 더 잘나오지만, 프롬프트 엔지니어링에 대한 민감성이 줄어들었다고 한다.

 

Introduction:

  • 이런 미세 조정된 모델인 FLAN(Finetuned Language Net) 은 제로샷 능력을 평가할 때 평가하고자 하는 해당 Task 를 제외하고 다른 Task 들만 학습해도 미세 조정되지 않았던 모델보다 높은 성능을 보였다고 함.
  • 즉 Cross-task 일반화(generalization) 가 나타났다고 함: Cross-task 일반화(generalization)란 한 종류의 과제(task)에서 학습한 능력이 다른 종류의 과제에도 적용되는 현상을 말한다.
  • 이렇게 튜닝을 하면 모델이 지시문을 따르는 법을 배우게 되고 보지 못한 새로운 작업에서도 지시문을 따를 수 있는 능력이 생기기 떄문이라고 함. 이것도 근데 어느정도 규모가 있는 모델에서 유용하다고 함.

+ Recent posts