The Impact of Reasoning Step Length on Large Language Models

youngerjesus 2024. 11. 12. 18:33

2024. 11. 12. 18:33

https://arxiv.org/pdf/2401.04925

Abstract:

‘연쇄적 사고’(Chain of Thought, CoT)의 역할과, 그 프롬프트 내에서의 추론 단계 길이의 영향에 대해 탐구하는 논문임.
추론 길이를 늘려보기도 하고, 줄여보기도 하는 식으로 해서 CoT 의 성능을 측정해보는 것.
이렇게 실험을 했을 때 프롬프트에서 추론 단계를 길게 늘리면, 새로운 정보를 추가하지 않더라도, 여러 데이터셋에서 LLM의 추론 능력이 상당히 개선되었다고 함.
반대로 핵심 정보를 유지하면서도 추론 단계를 줄이면, 모델의 추론 능력이 크게 감소했다고도 한다.
놀랍게도, 올바르지 않은 논리적 근거를 사용하더라도 필요한 길이의 추론 단계를 유지하면 긍정적인 결과를 얻을 수도 있었다고 함.
추론 단계를 늘리는 이점은 과제의 복잡도에 따라 다르기도 했다고 한다고 함. 간단한 과제는 적은 단계로도 충분했지만, 복잡한 과제는 더 긴 추론 과정을 통해 성능을 크게 향상 시켰다고 함.
연구에서 사용한 코드는 다음 링크 참고: https://github.com/MingyuJ666/The-Impact-of-Reasoning-Step-Length-on-Large-Language-Models

Introduction:

이 논문은 추론 단계의 길이가 CoT 프롬프트의 효과에서 가장 중요한 요소라는 가설을 세우고 검증을 함.
그리고 이 가설을 검증해서 추론 단계가 제로샷과 퓨샷 CoT 에서 중요한 핵심 요인이라는 걸 검증했다고 한다.
연구 방법은 Zero-shot CoT 의 경우에 기존 프롬프트인 “let’s think step by step” 를 “let’s think step by step, you must think more steps” 로 변경해서 더 많은 추론을 하도록 권장했다고 한다.
Few-shot CoT 에서도 사용하는 예시에서 추론 단계를 확장하되, 다른 모든 요소는 동일하게 맞춰서 실험을 했다고 함.
이렇게 설정하고 다양한 모델들 (GPT-3.5 와 GPT-4 ) 에서 실험을 해보니 추론 단계 수와 정확도가 직접적인 선형 관계를 맺는다고 한다.
프롬프트에서 추론 단계를 늘리면 여러 데이터셋에서 LLM의 추론 능력이 크게 향상된다고 함.
반대로, 핵심 정보를 유지하면서도 추론 단계를 줄이면 모델의 추론 능력이 크게 감소한다고 함.

Experimental Results:

CoT(CoChain of Thought) 시연에서 합리적인 추론 단계와 성능 간의 관계는 무엇인가? 라는 질문에 답하기 위해서 실헝을 했다고 함:
- 실험 설정:
  - 모델 및 데이터셋:
    - GPT-3.5-turbo-1106 모델을 사용
    - 세 가지 유형의 추론 과제에서 총 8개의 데이터셋을 대상으로 실험을 진행
    - 모든 결과는 신뢰성을 높이기 위해 세 번의 무작위 실행을 평균화함.
  - 비교 대상:
    - SOTA(State-of-the-Art) 결과: 각 데이터셋별로 최적의 성능을 내는 단계 수를 기반으로 한 결과
    - 제로샷 CoT: 논문의 2.1절에 기반한 접근법
    - 추론 단계 추가 (Manual-CoT 및 Auto-CoT): 논문의 2.2절에 기반하여, 추론 단계를 수동 또는 자동으로 추가한 방법
- 주요 발견:
  - 연구자들은 추론 과정의 체계를 표준화함으로써, CoT 시연에서 추론 단계 수를 증가시킴에 따른 정확도의 상승을 정량화할 수 있었음.
  - 모든 데이터셋에서 추론 단계가 최대 6단계까지 추가됨에 따라 LLM의 추론 능력이 향상됨을 발견했다고 함.
  - 데이터 셋마다 다르지만 추론 단계가 적절하게 추가되면 성능이 향상됨이 밝혀짐. 더 추가되면 성능 향상이 떨어지기도 한다.
추론 단계 수를 압축해보는 실험도 해봤다고 함. 근데 Zero-shot CoT 수준에 머무르거나 그것보다 더 낮은 성능을 보였다고 한다. (올바른 추론 단계 수를 아는게 아니라면 가능한 단계별로 촘촘하게 늘려보려고 시도해야하나 싶기도 하고)
추론 단계가 LLM 성능에 영향을 미치는 유일한 요소인가? 라는 질문에 답하기 위해서 실험을 했다고 함:
- 실험을 위해서 프롬프트의 한 단계를 의도적으로 잘못된 답변으로 변경하여, 이것이 연쇄적 사고(CoT)에 어떤 영향을 미치는지 조사했다고 한다:
- 산술 유형 문제인 경우에는 프롬프트의 결과 중 하나에 오류가 있더라도, 추론 과정의 연쇄적 사고에 미치는 영향은 최소적이 었다고 함.
- 반면 논리 문제인 경우에는 프롬프트의 결과 중 하나에 편차나 오류가 있으면, 전체 연쇄적 사고 과정이 단절되는 경우가 많았다고 한다.
스케일링 현상을 관찰할 수 있는가? 즉, 추론 단계 수를 늘리면 LLM의 크기와 클수록 성능에 크게 관련이 있는가? 이 질문에 답하기 위해 연구자들은 실험을 설계했다고 함:
- 실험을 위해서 사용된 모델:
  - text-davinci-002
  - GPT-3.5-turbo-1106
  - GPT-4
- GSM8K: 8개의 데이터셋 중에서 모델 간 성능 차이가 가장 큰 데이터셋을 사용함.
- 실험 결과와 분석:
  - 모델이 작을수록 추론 단계 수 늘리는 전략이 효과가 커짐. 그러니까 성능 증가가 커짐.
  - 모델이 크면 성능 향상 폭이 있으나 작아짐.
  - 모델이 크면 이미 잘하니까 그런듯.
추론 과정에서의 질문이 LLM의 추론 능력에 어떤 영향을 미치는가? 이 질문에 답하기 위해 연구자들은 실험을 수행했다고 함:
- 수학 문제와 같은 데이터셋에서 질문 내용을 변경해도 모델의 성능이 크게 달라지지 않는지를 실험해본 것.
- 질문의 내용이 추론 과정 설계에 영향을 주니까 질문을 변경해봤다고 함.
- 질문의 내용이 LLM의 추론 능력에 미치는 영향이 적음을 발견했다고 한다.

저작자표시 비영리

'Generative AI > Prompt Engineering' 카테고리의 다른 글

Language Models (Mostly) Know What They Know (0)	2024.11.13
Large Language Models can self-improve (0)	2024.11.13
Code Generation with AlphaCodium: From Prompt Engineering to Flow Engineering (0)	2024.11.11
Skeleton-of-Thought: Prompting LLMS For Efficient Parallel Generation (0)	2024.11.03
Recursion of Thought: A Divide-and-Conquer Approach to Multi-Context Reasoning with Language Models (0)	2024.11.03

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

여정민의 블로그

The Impact of Reasoning Step Length on Large Language Models

'Generative AI > Prompt Engineering' 카테고리의 다른 글

+ Recent posts

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역