Large Language Models are Zero-Shot Reasoners

youngerjesus 2024. 10. 17. 22:39

2024. 10. 17. 22:39

https://arxiv.org/pdf/2205.11916

Abstract:

LLM 은 CoT 의 발견으로 중간 추론 단계를 명시하는 것으로 성능을 높일 수 있음.
여기서는 이보다 더 간단한 방법으로 각 답변 앞에 단순히 "차근차근 생각해보자(Let's think step by step)"라는 문구를 추가함으로써 LLM이 제로샷 추론 능력이 우수해진다는 걸 보여줌.
간단한 프롬프팅을 통해 고차원적이고 다중 과제에 걸친 인지 능력을 이끌어낼 수 있다는 걸 보여주는 논문임.
이 논문의 결과는 LLM이 훌륭한 제로샷 추론자임을 강하게 시사함.

Introduction:

이전에는 자연어 처리(NLP) 분야에서 언어 모델의 규모를 확대하는 것이 최근 혁신의 핵심 요소였음. 왜냐하면 대규모 언어 모델(LLM)의 성공은 In-Context Learning 의 발견으로 소수 예시 학습(few-shot learning)을 제공하는 것으로 가능했거든.
하지만 이러한 처리 능력은 단일 단계로 해결 가능한 문제에서는 효과적이었지만 다단계 추론 작업이 필요한 작업에서는 큰 언어모델이라도 어려움을 겪었음.
그래서 CoT 가 제안되었다. CoT를 사용하면 모델의 크기가 커질수록 성능이 급격히 향상되며, 이는 기존의 스케일링 법칙에 더 부합되는 경향이 있었음.
여기서는 이보다 더 쉬운 기법인 차근차근 생각해보자(Let's think step by step) 라는 문구를 넣는 것만으로도 LLM 이 훌륭하게 추론을 할 수 있다고도 함.
이와 같은 프롬프팅 기법을 Zero-shot-CoT라고 함. Few-shot CoT 는 예시가 실제 처리하는 작업과 관련성이 있어야 하지만 Zero-shot CoT 는 광범위하게 적용해볼 수 있다는 장점이 있다. 작업별 예시 없이도 모든 작업(산술, 기호, 상식, 논리적 추론)에서 단계별 추론을 촉진하여 표준 프롬프팅에서 실패한 문제에서도 정답에 도달할 수 있음.

Zero-shot Chain of Thought:

두 단계로 구성된다:
- 1st prompt: reasoning extraction:
  - Let's think step by step 을 이용해서 추론을 이끌어내는 프롬프트임.
- 2nd prompt: answer extraction:
  - 추론에서 생성된 문장을 이용해서 최종 답변을 추출하는 프롬프트임.

Zero-shot-CoT vs. Zero-shot:

Zero-shot CoT 가 6개의 산술 추론 작업 중 4개(MultiArith, GSM8K, AQUA, SVAMP)에서 성능이 크게 향상되었음.
예를 들어, MultiArith에서는 정확도가 17.7%에서 78.7%로, GSM8K에서는 10.4%에서 40.7%로 증가
나머지 두 개의 산술 추론 작업(SingleEq와 AddSub)에서는 Zero-shot-CoT가 기존 방법과 유사한 성능을 보였음. 다단계 추론이 필요하지 않았기 때문.

다른 기반선과의 비교:

Zero-shot-CoT는 자연스럽게 Few-shot CoT보다 성능이 낮지만 작업당 8개의 예시를 사용한 표준 몇 샷 프롬프팅보다 훨씬 우수한 성능을 보여주었다고 함.

모델 크기가 제로샷 추론에 미치는 영향:

프롬프트 선택이 Zero-shot-CoT에 미치는 영향:

저작자표시 비영리

Large Language Models as Analogical Reasoners (0)	2024.10.18
Take a Step back: Evoking Reasoning via Abstraction in Large Language Models (0)	2024.10.17
Graph of Thoughts: Solving Elaborate Problems with Large Language Models (0)	2024.10.16
Re-Reading Improves Reasoning in Large Language Models (0)	2024.10.12
ChatEval: Towards Better LLM-based Evaluators through Multi-Agent debate (0)	2024.10.10

여정민의 블로그