Abstract:
- ‘연쇄적 사고’(Chain of Thought, CoT)의 역할과, 그 프롬프트 내에서의 추론 단계 길이의 영향에 대해 탐구하는 논문임.
- 추론 길이를 늘려보기도 하고, 줄여보기도 하는 식으로 해서 CoT 의 성능을 측정해보는 것.
- 이렇게 실험을 했을 때 프롬프트에서 추론 단계를 길게 늘리면, 새로운 정보를 추가하지 않더라도, 여러 데이터셋에서 LLM의 추론 능력이 상당히 개선되었다고 함.
- 반대로 핵심 정보를 유지하면서도 추론 단계를 줄이면, 모델의 추론 능력이 크게 감소했다고도 한다.
- 놀랍게도, 올바르지 않은 논리적 근거를 사용하더라도 필요한 길이의 추론 단계를 유지하면 긍정적인 결과를 얻을 수도 있었다고 함.
- 추론 단계를 늘리는 이점은 과제의 복잡도에 따라 다르기도 했다고 한다고 함. 간단한 과제는 적은 단계로도 충분했지만, 복잡한 과제는 더 긴 추론 과정을 통해 성능을 크게 향상 시켰다고 함.
- 연구에서 사용한 코드는 다음 링크 참고: https://github.com/MingyuJ666/The-Impact-of-Reasoning-Step-Length-on-Large-Language-Models
Introduction:
- 이 논문은 추론 단계의 길이가 CoT 프롬프트의 효과에서 가장 중요한 요소라는 가설을 세우고 검증을 함.
- 그리고 이 가설을 검증해서 추론 단계가 제로샷과 퓨샷 CoT 에서 중요한 핵심 요인이라는 걸 검증했다고 한다.
- 연구 방법은 Zero-shot CoT 의 경우에 기존 프롬프트인 “let’s think step by step” 를 “let’s think step by step, you must think more steps” 로 변경해서 더 많은 추론을 하도록 권장했다고 한다.
- Few-shot CoT 에서도 사용하는 예시에서 추론 단계를 확장하되, 다른 모든 요소는 동일하게 맞춰서 실험을 했다고 함.
- 이렇게 설정하고 다양한 모델들 (GPT-3.5 와 GPT-4 ) 에서 실험을 해보니 추론 단계 수와 정확도가 직접적인 선형 관계를 맺는다고 한다.
- 프롬프트에서 추론 단계를 늘리면 여러 데이터셋에서 LLM의 추론 능력이 크게 향상된다고 함.
- 반대로, 핵심 정보를 유지하면서도 추론 단계를 줄이면 모델의 추론 능력이 크게 감소한다고 함.
Experimental Results:
- CoT(CoChain of Thought) 시연에서 합리적인 추론 단계와 성능 간의 관계는 무엇인가? 라는 질문에 답하기 위해서 실헝을 했다고 함:
- 실험 설정:
- 모델 및 데이터셋:
- GPT-3.5-turbo-1106 모델을 사용
- 세 가지 유형의 추론 과제에서 총 8개의 데이터셋을 대상으로 실험을 진행
- 모든 결과는 신뢰성을 높이기 위해 세 번의 무작위 실행을 평균화함.
- 비교 대상:
- SOTA(State-of-the-Art) 결과: 각 데이터셋별로 최적의 성능을 내는 단계 수를 기반으로 한 결과
- 제로샷 CoT: 논문의 2.1절에 기반한 접근법
- 추론 단계 추가 (Manual-CoT 및 Auto-CoT): 논문의 2.2절에 기반하여, 추론 단계를 수동 또는 자동으로 추가한 방법
- 모델 및 데이터셋:
- 주요 발견:
- 연구자들은 추론 과정의 체계를 표준화함으로써, CoT 시연에서 추론 단계 수를 증가시킴에 따른 정확도의 상승을 정량화할 수 있었음.
- 모든 데이터셋에서 추론 단계가 최대 6단계까지 추가됨에 따라 LLM의 추론 능력이 향상됨을 발견했다고 함.
- 데이터 셋마다 다르지만 추론 단계가 적절하게 추가되면 성능이 향상됨이 밝혀짐. 더 추가되면 성능 향상이 떨어지기도 한다.
- 실험 설정:
- 추론 단계 수를 압축해보는 실험도 해봤다고 함. 근데 Zero-shot CoT 수준에 머무르거나 그것보다 더 낮은 성능을 보였다고 한다. (올바른 추론 단계 수를 아는게 아니라면 가능한 단계별로 촘촘하게 늘려보려고 시도해야하나 싶기도 하고)
- 추론 단계가 LLM 성능에 영향을 미치는 유일한 요소인가? 라는 질문에 답하기 위해서 실험을 했다고 함:
- 실험을 위해서 프롬프트의 한 단계를 의도적으로 잘못된 답변으로 변경하여, 이것이 연쇄적 사고(CoT)에 어떤 영향을 미치는지 조사했다고 한다:
- 산술 유형 문제인 경우에는 프롬프트의 결과 중 하나에 오류가 있더라도, 추론 과정의 연쇄적 사고에 미치는 영향은 최소적이 었다고 함.
- 반면 논리 문제인 경우에는 프롬프트의 결과 중 하나에 편차나 오류가 있으면, 전체 연쇄적 사고 과정이 단절되는 경우가 많았다고 한다.
- 스케일링 현상을 관찰할 수 있는가? 즉, 추론 단계 수를 늘리면 LLM의 크기와 클수록 성능에 크게 관련이 있는가? 이 질문에 답하기 위해 연구자들은 실험을 설계했다고 함:
- 실험을 위해서 사용된 모델:
- text-davinci-002
- GPT-3.5-turbo-1106
- GPT-4
- GSM8K: 8개의 데이터셋 중에서 모델 간 성능 차이가 가장 큰 데이터셋을 사용함.
- 실험 결과와 분석:
- 모델이 작을수록 추론 단계 수 늘리는 전략이 효과가 커짐. 그러니까 성능 증가가 커짐.
- 모델이 크면 성능 향상 폭이 있으나 작아짐.
- 모델이 크면 이미 잘하니까 그런듯.
- 실험을 위해서 사용된 모델:
- 추론 과정에서의 질문이 LLM의 추론 능력에 어떤 영향을 미치는가? 이 질문에 답하기 위해 연구자들은 실험을 수행했다고 함:
- 수학 문제와 같은 데이터셋에서 질문 내용을 변경해도 모델의 성능이 크게 달라지지 않는지를 실험해본 것.
- 질문의 내용이 추론 과정 설계에 영향을 주니까 질문을 변경해봤다고 함.
- 질문의 내용이 LLM의 추론 능력에 미치는 영향이 적음을 발견했다고 한다.