https://arxiv.org/pdf/2210.11610


Abstract:

  • 이 논문은 대형 언어 모델(LLM)이 외부의 라벨된 데이터나 지도 학습 이외에 스스로 성능을 향상 시킬 수 있다는 걸 알려주는 논문임.
  • 기존에는 LLM을 미세 조정하기 위해 많은 양의 라벨된 데이터와 인간의 감독이 필요했지만, 이런것 없이 스스로 생각해서 만들어낸 데이터를 이용해서 성능을 향상 시키는 기법이다.
  • 이 기법은 사전 학습된 LLM을 사용하여 라벨이 없는 질문에 대해 ‘고신뢰성’의 이유가 포함된 답변을 생성한다. 이를 위해 Chain-of-Thought 프롬프트와 자기 일관성(self-consistency) 방법을 활용함. 이렇게 생성된 고신뢰성 답변을 이용해서 파인튜닝을 하는 것.
  • 이 기법으로 LLM 을 튜닝하면 추론 능력이 증가한다고 함. GSM8K에서 74.4%에서 82.1% 로, DROP에서 78.2%에서 83.0%로 성능이 개선되었으며, OpenBookQA와 ANLI-A3에서도 유의미한 성능 향상을 보였다고 한다.

 

Introduction:

  • LLM 의 추론 능력은 다양한 기법의 등장으로 발전하였음:
    • 스케일링의 효과: LLM의 파라미터 수를 수십억에서 수천억 단위로 늘림으로써, 다양한 자연어 처리(NLP) 작업에서 높은 성능을 달성함.
    • 인컨텍스트 소수샷 학습: LLM이 훈련되지 않은 작업에서도 몇 개의 예시만으로 좋은 성능을 내기도 함. \
    • Chain-of-Thought(CoT) 프롬팅: 몇 개의 예시 없이도 LLM이 좋은 추론 성능을 내기도 함.
    • 자기 일관성(self-consistency): 여러 개의 추론 경로를 통해 성능을 향상시키는 기법임.
  • LLM이 이러한 능력을 갖추었음에도 불구하고, 소수샷 학습 이상의 성능 향상을 위해서는 여전히 대량의 고품질 라벨된 데이터로의 파인 튜닝이 필요하긴 함.
  • 반면에, 인간은 메타인지를 통해 외부의 입력 없이도 자신의 추론 능력을 개선할 수 있음. 아무래도 내가 잘 모르고 있는지, 내가 잘 알고 있는지를 확인해봄으로써, 내가 잘 아는 걸 바탕으로 내가 덜 확신을 가지고 있는 것에 대해서 한번 더 생각해보고 틀렸는지 맞았는지 판단해볼 수 있으니까.
  • 여기서는 라벨된 데이터 없이 LLM이 스스로의 추론 능력을 개선할 수 있는 지를 다룬다.
  • 대략적인 방법은 다음과 같다:
    • 입력 데이터 수집: 여러 NLP 작업의 입력 시퀀스만 사용 (정답 시퀀스는 사용하지 않음).
    • 다중 예측 생성: 소수샷 CoT 프롬프트를 사용하여 여러 개의 답변을 생성
    • 고신뢰성 답변 선택: 다수결 투표를 통해 “고신뢰성” 답변을 선택
    • 모델 미세 조정: 선택된 고신뢰성 답변을 사용하여 LLM을 미세 조정
    • 이렇게 미세 조정된 모델을 LMSI(Language Model Self-Improved) 라고 한다.
  • 대략적인 실험 결과는 다음과 같다:
    • 도메인 내 성능 향상: GSM8K에서 74.4%에서 82.1%로, DROP에서 78.2%에서 83.0%로 성능이 개선
    • AQUA, StrategyQA, MNLI 등에서 성능이 향상되었음,
    • 라벨된 정답 없이도 모델의 추론 능력을 크게 향상시켰다는 점에서 주목 가능하다.
  • 추가 연구 및 기여에도 도움을 주었음:
    • 추가 질문 생성: 모델이 자체적으로 추가 질문을 생성하여 학습 데이터로 활용하는 방법도 있음.
    • CoT 프롬프트 템플릿 생성: 모델이 자체적으로 소수샷 CoT 프롬프트를 생성하여 성능을 향상 시킬 수도 있음.

+ Recent posts