To CoT or Not to CoT? Chain-of-Thought Helps Mainly on Math and Symbolic Reasoning

youngerjesus 2024. 11. 17. 15:11

2024. 11. 17. 15:11

https://arxiv.org/pdf/2409.12183

Abstarct:

이 논문은 CoT 가 실제로 어떤 종류의 작업에 도움이 되는지 분석하고 있는 글임.
여기서 저자들은 100개 이상의 CoT 관련 연구를 메타분석하고, 14개의 모델을 사용하여 20개의 데이터 셋을 평가해봤다고 한다.
주요 발견은 CoT가 수학이나 논리와 같은 작업에서 강력한 성능 향상을 제공하지만, 다른 유형의 작업에서는 그 이점이 훨씬 작다는 거임. 예를 들면 MMLU(Multi-Task Language Understanding) 벤치마크에서는 CoT 연산 없이도 같은 성능을 제공할 수 있다고 함. (물론 질문이나 모델의 응답에 "=" 기호가 필요한 경우 그러니까 상징적 연산이나 추론이 필요한 경우에는 CoT 연산이 이점을 제공할 수 있다고 함.)
이러한 결과를 바탕으로, 저자들은 CoT의 작동 방식을 계획과 실행으로 분리하여 분석하고, 도구가 추가된 LLM과 비교해봤다고 함.
CoT 의 성능 개선이 많은 부분이 수학적인, 논리적인, 상징적인 기호를 이용한 계산을 사용하는 유형의 문제에서 개선이 된다고 함.
하지만 이런 CoT 마저도 문제를 해결하기 위해 전용으로 설계된 알고리즘보다는 성능이 떨어진다고도 한다.
그리고 CoT 를 문제에 대해 선택적으로 적용할 수 있다면 성능을 유지할 수 있다고도 한다.
또한, 프롬프트 기반의 CoT를 넘어 LLM 애플리케이션 전반에서 중간 계산을 더 효과적으로 활용할 수 있는 새로운 패러다임의 필요성을 강조하고 있기도 하다.

Figure 1:

Introduction:

CoT는 LLM이 문제를 해결할 때 인간처럼 단계별로 사고 과정을 거치도록 유도하는 프롬프트 기법임. 이를 통해 모델은 중간 계산 단계나 논리를 명시적으로 나타내며, 복잡한 질문에 대한 답변 능력을 향상시킬 수 있다.
현재 ChatGPT나 Llama 3.1과 같은 모델들은 추론 문제가 주어지면 기본적으로 CoT 방식을 사용함.
수학 이외의 분야에서는 CoT의 효과가 그다지 두드러지지 않거나(Kambhampati et al., 2024a), 오히려 성능을 저해하는 경우도 있다고 함.(Wang et al., 2024).
이 논문은 프롬프트 기반 CoT가 어디에서, 왜 도움이 되는지 평가하고자 한다.
논문에서 발견한 주요 내용:
- CoT는 수학적, 논리적 또는 알고리즘적 추론이 필요한 문제에서만 상당한 도움을 준다:
  - CoT가 다른 종류의 작업에서 큰 성능 향상을 보이는 경우는 드물다고 함.
  - 예를 들어, MMLU(Hendrycks et al., 2021a)와 MMLU Pro(Wang et al., 2024)에서 CoT의 효과를 분석한 결과, CoT는 데이터셋의 수학 분야에서만 이점을 제공한다고 함.
- CoT는 주로 계산과 상징적 조작을 수행하는 실행 단계에서 도움을 주지만, 도구가 보강된 LLM이 할 수 있는 것에는 미치지 못한다고 함:
  - 여기서 말하는 도구는 SymPy (파이썬 기반의 심볼릭 수학 라이브러리, 수학적 계산에 도움을 줌), Mathematica (과학적 계산과 수학적 모델링을 위한 도구), Python 코드 인터프리터 (계산을 위한 도구), Google Search API (검색을 위한 도구) 를 말함.
  - 이런 도구를 이용하면 LLM 이 CoT 를 이용하는 것보다 더 나은 대답을 하도록 만들 수 있다고 함.

CoT 의 성능 향상 결과:

상위 성능 향상 카테고리:
- 상징적 추론: 평균 성능 향상 14.2%
- 수학: 평균 성능 향상 12.3%
- 논리적 추론: 평균 성능 향상 6.9%
- BBH(BIG-bench Hard) (알고리즘적, 산술적, 논리적 추론이 필요한 문제들로 구성됨)
- Legal Argument Reasoning (법률적 논증 추론 작업으로, 상당한 추론 능력이 요구되는 과제)
기타 카테고리 성능 차이: CoT를 사용한 평균 성능은 56.8%, CoT 없이의 평균 성능은 56.1%로 큰 차이가 없었음. 그리고 저자들은 이 작은 차이가 CoT의 효과를 입증하기에는 부족하다고 판단함.
일반적인 자연어 처리 작업에서는 CoT의 성능 향상이 거의 없다라고 함:
- - 지식, 소프트 추론, 상식 영역도 초함.

CoT 를 여러가지 기법과 비교해보고 분석:

논문에서는 다섯 가지 설정을 정의하고 비교해봄:
- Few-shot Direct Answer
- Few-shot CoT
- Plan + Direct Solver (Few-shot 프롬프트를 사용하여 계회긍ㄹ 생성한 뒤, 해당 계획을 기반으로 직접 답변을 생성)
- Plan + CoT Solver (상징적 계획(Splan)을 생성한 뒤, CoT 방식으로 중간 단계를 추적하며 답변을 생성)
- Plan + Tool Solver (상징적 계획(Splan)을 생성한 뒤, 외부 도구(예: Python 인터프리터 또는 SMT Solver)를 사용하여 문제를 해결)
분석 내용:
- 많은 데이터셋과 모델에서 계획만(Plan) 사용하는 경우는 성능 향상의 대부분을 설명하지 못함.
- CoT 또는 Plan + CoT Solver를 사용해야 강력한 성능 향상을 얻을 수 있음.
- CoT 성능 향상을 주도하는 주요 요인 중 하나는 문제 해결 계획을 세울 수 있다는 거임. 그 계획을 따라 문제를 단계별로 해결하는 과정이 도움이 되는거임.
- CoT와 Plan + CoT Solver는 직접 답변과 Plan + Direct Solver보다 우수한 성능을 보였지만, 대부분의 설정에서는 Plan + Tool Solver가 이를 능가함. 언어 모델이 단계별 실행 및 추적 능력에서 문제 해결 도구 (상징적 해결기(symbolic solver)) 에 비해 제한적임을 나타냄.
- 모든 작업이 질문을 해결하기 위한 자세한 설명(예: 계획)을 통해 이점을 얻을 수 있지만, 추적과 계산이 많은 단계를 요구하는 경우에만 직접 답변보다 우수한 성능을 낼 수 있음.
- Plan + Tool Solver 의 경우에는 CoT나 Plan + CoT Solver를 사용할 때 발생할 수 있는 실행 오류나 중간 단계 누락을 방지하여 더 높은 정확도를 보장할 수 있음.

Discussion and Related Work:

CoT는 특히 수학적 및 논리적 추론과 같은 상징적 작업에서 성능을 향상시킴.
상식 질문 (CommonsenseQA), 언어 이해 (WinoGrande), 독해 (AGI LSAT, ARC) 등과 같은 비상징적 추론이 필요한 작업에서는 CoT 가 성능 영향에 주지 않음.
이러한 작업들은 형식적으로 기반을 두지 않은 문제 해결 계획으로 번역하기 어려워 CoT의 이점을 제대로 활용하지 못함.
최근 연구에서는 CoT의 중간 단계를 내부화하여 더 효과적으로 사용하는 방법들이 제안되고 있긴함. (Deng et al., 2024)

저작자표시 비영리

'Generative AI > Prompt Engineering' 카테고리의 다른 글

Stable Diffusion 3 Prompt Guide (0)	2025.01.06
Learn DSPy using Docs (0)	2024.11.28
Making Large Language Models Better Reasoners with Step-Aware Verifier (0)	2024.11.16
Answering Questions by Meta-Reasoning over Multiple Chains of Thought (0)	2024.11.16
Large Language Models Cannot Self-Correct Reasoning Yet (0)	2024.11.16

여정민의 블로그

To CoT or Not to CoT? Chain-of-Thought Helps Mainly on Math and Symbolic Reasoning

'Generative AI > Prompt Engineering' 카테고리의 다른 글

+ Recent posts

티스토리툴바