https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf

 

불확실성 기반 Chain-of-Thought(uncertainty-routed CoT) 기법:

  • 단순한 Chain-of-Thought 방식에 불확실성을 고려한 의사결정 프로세스를 추가한 형태
  • 구체적으로, 모델은 k개의 Chain-of-Thought 샘플을 생성한 후, 만약 모델이 충분히 자신이 있을 경우(사전에 설정된 신뢰 임계값 이상인 경우), 그 샘플들 중 다수결 원칙(majority vote) 에 따라 답을 선택함.
    • 이 방법은 한 번의 추론보다 다양한 사고 경로를 탐색함으로써 불확실성을 줄이고, 보다 정확한 답변을 얻으려는 목적을 가지고 있음.
    • 이때 각각의 사고 과정은 다소 차이가 있을 수 있으며, 답변 또한 조금씩 다를 가능성이 있다.
  • 그러나 모델이 자신이 없다고 판단하면, Chain-of-Thought 없이 탐욕적(greedy) 방식 샘플링으로 답을 내게 됨. 
    • 모델의 자신감은 합의점을 바탕으로 판단됨. 32 개의 사고 과정들에서 동일한 답이 16개 이상일 때 자신있다 라고 판단되면 그 답을 선택하는 방식. 
  • 이 기법은, 모델이 여러 번의 사고 과정을 통해 논리적 추론을 수행하는 것이 항상 이점이 있는 것이 아니라, 일관되지 않은 추론을 수행할 때는 오히려 성능이 저하될 수 있다는 점에 착안한 것
  • CoT 의 장점을 강화하고, 단점을 보완하는 방법.
  • 따라서, 모델이 확신이 없으면 Chain-of-Thought 기법을 사용하지 않고 탐욕적 선택을 통해 보다 안정적인 답을 도출하도록 설계되었음.
  • 성능 비교:
    • GPT-4:
      • 탐욕적(greedy) 샘플링만을 사용했을 때 84.2%의 정확도를 기록:
        • 탐욕적(greedy) 샘플링은 CoT 를 쓰지 않는 방법임.
        • 한 번에 가장 가능성이 높은 답을 선택하는 방법
      • 불확실성 기반 CoT 기법을 사용해 32개의 샘플을 생성한 결과, 성능이 87.3%로 향상
      • 하지만, GPT-4는 이미 32개의 단순 CoT 샘플만으로도 이 성능 향상을 달성할 수 있었다고 함. 불확실성 기반 CoT의 추가 이점은 미미했다고 한다.
    • Gemini Ultra:
      • 탐욕적 샘플링으로는 84.0%의 정확도를 보였다고함.
      • 불확실성 기반 CoT를 사용했을 때 90.0%로 성능이 크게 향상되었다고 한다.
      • 단순히 32개의 CoT 샘플만을 사용했을 때는 85.0%로 약간의 성능 향상만 있었닥 ㅗ함.

+ Recent posts