Uncertainty-Routed CoT Prompting

youngerjesus 2024. 10. 18. 22:54

2024. 10. 18. 22:54

https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf

불확실성 기반 Chain-of-Thought(uncertainty-routed CoT) 기법:

단순한 Chain-of-Thought 방식에 불확실성을 고려한 의사결정 프로세스를 추가한 형태
구체적으로, 모델은 k개의 Chain-of-Thought 샘플을 생성한 후, 만약 모델이 충분히 자신이 있을 경우(사전에 설정된 신뢰 임계값 이상인 경우), 그 샘플들 중 다수결 원칙(majority vote) 에 따라 답을 선택함.
- 이 방법은 한 번의 추론보다 다양한 사고 경로를 탐색함으로써 불확실성을 줄이고, 보다 정확한 답변을 얻으려는 목적을 가지고 있음.
- 이때 각각의 사고 과정은 다소 차이가 있을 수 있으며, 답변 또한 조금씩 다를 가능성이 있다.
그러나 모델이 자신이 없다고 판단하면, Chain-of-Thought 없이 탐욕적(greedy) 방식 샘플링으로 답을 내게 됨.
- 모델의 자신감은 합의점을 바탕으로 판단됨. 32 개의 사고 과정들에서 동일한 답이 16개 이상일 때 자신있다 라고 판단되면 그 답을 선택하는 방식.
이 기법은, 모델이 여러 번의 사고 과정을 통해 논리적 추론을 수행하는 것이 항상 이점이 있는 것이 아니라, 일관되지 않은 추론을 수행할 때는 오히려 성능이 저하될 수 있다는 점에 착안한 것
CoT 의 장점을 강화하고, 단점을 보완하는 방법.
따라서, 모델이 확신이 없으면 Chain-of-Thought 기법을 사용하지 않고 탐욕적 선택을 통해 보다 안정적인 답을 도출하도록 설계되었음.
성능 비교:
- GPT-4:
  - 탐욕적(greedy) 샘플링만을 사용했을 때 84.2%의 정확도를 기록:
    - 탐욕적(greedy) 샘플링은 CoT 를 쓰지 않는 방법임.
    - 한 번에 가장 가능성이 높은 답을 선택하는 방법
  - 불확실성 기반 CoT 기법을 사용해 32개의 샘플을 생성한 결과, 성능이 87.3%로 향상
  - 하지만, GPT-4는 이미 32개의 단순 CoT 샘플만으로도 이 성능 향상을 달성할 수 있었다고 함. 불확실성 기반 CoT의 추가 이점은 미미했다고 한다.
- Gemini Ultra:
  - 탐욕적 샘플링으로는 84.0%의 정확도를 보였다고함.
  - 불확실성 기반 CoT를 사용했을 때 90.0%로 성능이 크게 향상되었다고 한다.
  - 단순히 32개의 CoT 샘플만을 사용했을 때는 85.0%로 약간의 성능 향상만 있었닥 ㅗ함.

'Generative AI > Prompt Engineering' 카테고리의 다른 글

Active Prompting with Chain-of-Thought for Large Language Models (0)	2024.10.19
Complexity-Based Prompting for Multi-step Reasoning (0)	2024.10.19
Contrastive Chain-of-Thought Prompting (0)	2024.10.18
True Detective: A Deep Abductive Reasoning BenchmarkUndoable for GPT-3 and Challenging for GPT-4 (0)	2024.10.18
Large Language Models as Analogical Reasoners (0)	2024.10.18

여정민의 블로그

Uncertainty-Routed CoT Prompting

'Generative AI > Prompt Engineering' 카테고리의 다른 글

+ Recent posts

티스토리툴바