https://arxiv.org/pdf/2401.04925


Abstract:

  • ‘연쇄적 사고’(Chain of Thought, CoT)의 역할과, 그 프롬프트 내에서의 추론 단계 길이의 영향에 대해 탐구하는 논문임.
  • 추론 길이를 늘려보기도 하고, 줄여보기도 하는 식으로 해서 CoT 의 성능을 측정해보는 것.
  • 이렇게 실험을 했을 때 프롬프트에서 추론 단계를 길게 늘리면, 새로운 정보를 추가하지 않더라도, 여러 데이터셋에서 LLM의 추론 능력이 상당히 개선되었다고 함.
  • 반대로 핵심 정보를 유지하면서도 추론 단계를 줄이면, 모델의 추론 능력이 크게 감소했다고도 한다.
  • 놀랍게도, 올바르지 않은 논리적 근거를 사용하더라도 필요한 길이의 추론 단계를 유지하면 긍정적인 결과를 얻을 수도 있었다고 함.
  • 추론 단계를 늘리는 이점은 과제의 복잡도에 따라 다르기도 했다고 한다고 함. 간단한 과제는 적은 단계로도 충분했지만, 복잡한 과제는 더 긴 추론 과정을 통해 성능을 크게 향상 시켰다고 함.
  • 연구에서 사용한 코드는 다음 링크 참고: https://github.com/MingyuJ666/The-Impact-of-Reasoning-Step-Length-on-Large-Language-Models

 

 

Introduction:

  • 이 논문은 추론 단계의 길이가 CoT 프롬프트의 효과에서 가장 중요한 요소라는 가설을 세우고 검증을 함.
  • 그리고 이 가설을 검증해서 추론 단계가 제로샷과 퓨샷 CoT 에서 중요한 핵심 요인이라는 걸 검증했다고 한다.
  • 연구 방법은 Zero-shot CoT 의 경우에 기존 프롬프트인 “let’s think step by step” 를 “let’s think step by step, you must think more steps” 로 변경해서 더 많은 추론을 하도록 권장했다고 한다.
  • Few-shot CoT 에서도 사용하는 예시에서 추론 단계를 확장하되, 다른 모든 요소는 동일하게 맞춰서 실험을 했다고 함.
  • 이렇게 설정하고 다양한 모델들 (GPT-3.5 와 GPT-4 ) 에서 실험을 해보니 추론 단계 수와 정확도가 직접적인 선형 관계를 맺는다고 한다.
  • 프롬프트에서 추론 단계를 늘리면 여러 데이터셋에서 LLM의 추론 능력이 크게 향상된다고 함.
  • 반대로, 핵심 정보를 유지하면서도 추론 단계를 줄이면 모델의 추론 능력이 크게 감소한다고 함.

 

 

Experimental Results:

  • CoT(CoChain of Thought) 시연에서 합리적인 추론 단계와 성능 간의 관계는 무엇인가? 라는 질문에 답하기 위해서 실헝을 했다고 함:
    • 실험 설정:
      • 모델 및 데이터셋:
        • GPT-3.5-turbo-1106 모델을 사용
        • 세 가지 유형의 추론 과제에서 총 8개의 데이터셋을 대상으로 실험을 진행
        • 모든 결과는 신뢰성을 높이기 위해 세 번의 무작위 실행을 평균화함.
      • 비교 대상:
        • SOTA(State-of-the-Art) 결과: 각 데이터셋별로 최적의 성능을 내는 단계 수를 기반으로 한 결과
        • 제로샷 CoT: 논문의 2.1절에 기반한 접근법
        • 추론 단계 추가 (Manual-CoT 및 Auto-CoT): 논문의 2.2절에 기반하여, 추론 단계를 수동 또는 자동으로 추가한 방법
    • 주요 발견:
      • 연구자들은 추론 과정의 체계를 표준화함으로써, CoT 시연에서 추론 단계 수를 증가시킴에 따른 정확도의 상승을 정량화할 수 있었음.
      • 모든 데이터셋에서 추론 단계가 최대 6단계까지 추가됨에 따라 LLM의 추론 능력이 향상됨을 발견했다고 함.
      • 데이터 셋마다 다르지만 추론 단계가 적절하게 추가되면 성능이 향상됨이 밝혀짐. 더 추가되면 성능 향상이 떨어지기도 한다.
  • 추론 단계 수를 압축해보는 실험도 해봤다고 함. 근데 Zero-shot CoT 수준에 머무르거나 그것보다 더 낮은 성능을 보였다고 한다. (올바른 추론 단계 수를 아는게 아니라면 가능한 단계별로 촘촘하게 늘려보려고 시도해야하나 싶기도 하고)
  • 추론 단계가 LLM 성능에 영향을 미치는 유일한 요소인가? 라는 질문에 답하기 위해서 실험을 했다고 함:
    • 실험을 위해서 프롬프트의 한 단계를 의도적으로 잘못된 답변으로 변경하여, 이것이 연쇄적 사고(CoT)에 어떤 영향을 미치는지 조사했다고 한다:
    • 산술 유형 문제인 경우에는 프롬프트의 결과 중 하나에 오류가 있더라도, 추론 과정의 연쇄적 사고에 미치는 영향은 최소적이 었다고 함.
    • 반면 논리 문제인 경우에는 프롬프트의 결과 중 하나에 편차나 오류가 있으면, 전체 연쇄적 사고 과정이 단절되는 경우가 많았다고 한다.
  • 스케일링 현상을 관찰할 수 있는가? 즉, 추론 단계 수를 늘리면 LLM의 크기와 클수록 성능에 크게 관련이 있는가? 이 질문에 답하기 위해 연구자들은 실험을 설계했다고 함:
    • 실험을 위해서 사용된 모델:
      • text-davinci-002
      • GPT-3.5-turbo-1106
      • GPT-4
    • GSM8K: 8개의 데이터셋 중에서 모델 간 성능 차이가 가장 큰 데이터셋을 사용함.
    • 실험 결과와 분석:
      • 모델이 작을수록 추론 단계 수 늘리는 전략이 효과가 커짐. 그러니까 성능 증가가 커짐.
      • 모델이 크면 성능 향상 폭이 있으나 작아짐.
      • 모델이 크면 이미 잘하니까 그런듯.
  • 추론 과정에서의 질문이 LLM의 추론 능력에 어떤 영향을 미치는가? 이 질문에 답하기 위해 연구자들은 실험을 수행했다고 함:
    • 수학 문제와 같은 데이터셋에서 질문 내용을 변경해도 모델의 성능이 크게 달라지지 않는지를 실험해본 것.
    • 질문의 내용이 추론 과정 설계에 영향을 주니까 질문을 변경해봤다고 함.
    • 질문의 내용이 LLM의 추론 능력에 미치는 영향이 적음을 발견했다고 한다.

+ Recent posts