https://arxiv.org/pdf/2205.11916


Abstract:

  • LLM 은 CoT 의 발견으로 중간 추론 단계를 명시하는 것으로 성능을 높일 수 있음.
  • 여기서는 이보다 더 간단한 방법으로 각 답변 앞에 단순히 "차근차근 생각해보자(Let's think step by step)"라는 문구를 추가함으로써 LLM이 제로샷 추론 능력이 우수해진다는 걸 보여줌.
  • 간단한 프롬프팅을 통해 고차원적이고 다중 과제에 걸친 인지 능력을 이끌어낼 수 있다는 걸 보여주는 논문임.
  • 이 논문의 결과는 LLM이 훌륭한 제로샷 추론자임을 강하게 시사함.

 

Introduction:

  • 이전에는 자연어 처리(NLP) 분야에서 언어 모델의 규모를 확대하는 것이 최근 혁신의 핵심 요소였음. 왜냐하면 대규모 언어 모델(LLM)의 성공은 In-Context Learning 의 발견으로 소수 예시 학습(few-shot learning)을 제공하는 것으로 가능했거든.
  • 하지만 이러한 처리 능력은 단일 단계로 해결 가능한 문제에서는 효과적이었지만 다단계 추론 작업이 필요한 작업에서는 큰 언어모델이라도 어려움을 겪었음.
  • 그래서 CoT 가 제안되었다. CoT를 사용하면 모델의 크기가 커질수록 성능이 급격히 향상되며, 이는 기존의 스케일링 법칙에 더 부합되는 경향이 있었음.
  • 여기서는 이보다 더 쉬운 기법인 차근차근 생각해보자(Let's think step by step) 라는 문구를 넣는 것만으로도 LLM 이 훌륭하게 추론을 할 수 있다고도 함.
  • 이와 같은 프롬프팅 기법을 Zero-shot-CoT라고 함. Few-shot CoT 는 예시가 실제 처리하는 작업과 관련성이 있어야 하지만 Zero-shot CoT 는 광범위하게 적용해볼 수 있다는 장점이 있다. 작업별 예시 없이도 모든 작업(산술, 기호, 상식, 논리적 추론)에서 단계별 추론을 촉진하여 표준 프롬프팅에서 실패한 문제에서도 정답에 도달할 수 있음.

Zero-shot Chain of Thought:

  • 두 단계로 구성된다:
    • 1st prompt: reasoning extraction:
      • Let's think step by step 을 이용해서 추론을 이끌어내는 프롬프트임.
    • 2nd prompt: answer extraction:
      • 추론에서 생성된 문장을 이용해서 최종 답변을 추출하는 프롬프트임.

 

Zero-shot-CoT vs. Zero-shot:

  • Zero-shot CoT 가 6개의 산술 추론 작업 중 4개(MultiArith, GSM8K, AQUA, SVAMP)에서 성능이 크게 향상되었음.
  • 예를 들어, MultiArith에서는 정확도가 17.7%에서 78.7%로, GSM8K에서는 10.4%에서 40.7%로 증가
  • 나머지 두 개의 산술 추론 작업(SingleEq와 AddSub)에서는 Zero-shot-CoT가 기존 방법과 유사한 성능을 보였음. 다단계 추론이 필요하지 않았기 때문.

 

다른 기반선과의 비교:

  • Zero-shot-CoT는 자연스럽게 Few-shot CoT보다 성능이 낮지만 작업당 8개의 예시를 사용한 표준 몇 샷 프롬프팅보다 훨씬 우수한 성능을 보여주었다고 함.

 

모델 크기가 제로샷 추론에 미치는 영향:

  • 작은 규모의 모델에서는 연쇄적 사고 추론이 효과적이지 않지만 모델이 커질수록 효과적이라고 함.

 

프롬프트 선택이 Zero-shot-CoT에 미치는 영향:

+ Recent posts