Abstract:
- 대규모 언어 모델(LLMs)의 in-context learning (ICL) 성능에 데모(demonstration) 순서가 중요한 영향을 미친다는 건 밝혀진 사실임.
- 기존의 방법들은 높은 계산 비용이 필요하긴 했음. (엔트로픽 기반의 방법을 생각해보면 됨)
- 이 논문에서 제안하는 방법은 인간의 학습 과정에서 영감을 받아 'few-shot In-Context Curriculum Learning (ICCL)'이라는 새로운 방법을 제안함.
- ICCL은 추론 과정에서 프롬프트 데모의 복잡성을 점진적으로 증가시키는 방식임.
- 난이도는 인간 전문가나 LLM 기반 메트릭(예: perplexity)으로 평가 가능함.
- Perplexity는 모델이 텍스트를 얼마나 잘 예측하는지를 측정함.
- 낮은 perplexity는 모델이 텍스트를 더 잘 예측한다는 것을 의미하고, 높은 perplexity 는 모델이 텍스트 예측에 더 많은 '혼란'을 겪음을 의미함.
- perplexity는 데모(demonstration)의 난이도를 평가하는 데 사용될 수 있음. 높은 perplexity 를 보이는 데모는 더 어려운 것으로 간주할 수 있음.
Introduction:
- 인간 교육은 체계적이고 점진적인 방식으로 이루어진다는 점을 이용해서 기계 학습에서 커리큘럼 기반 알고리즘을 제안한 것.
- 커리큘럼 학습은 Bengio et al. (2009)에 의해 소개되었으며, 훈련 과정에서 데이터 샘플의 난이도를 점진적으로 높이는 방법을 말함.
- 기존 연구에서 커리큘럼 학습의 효과성이 다양한 모델과 태스크에서 입증되었음. 지시 튜닝된 대규모 언어 모델(LLMs)의 뛰어난 능력도 확인됨.
- 제안된 방법: In-Context Curriculum Learning (ICCL)
- 커리큘럼 생성자(인간 전문가 또는 LLMs)가 평가한 난이도에 따라 데모를 순위 지정
- 가장 쉬운 것부터 가장 어려운 것까지 난이도대로 순서대로 배열됨.
- 학습자가 점진적으로 태스크를 해결하도록 안내
Methodology - Problem Formulation
- 대규모 언어 모델(LLM) θ가 주어지고, n개의 데모 {(xi, yi)}가 특정 태스크 T를 해결하도록 LLM을 지시하는 데 사용될거임, 다른 데모 순서 D는 파라미터 θ를 활용하는 효율성이 다를거고, 파라미터 효율성 Ep는 성능 메트릭으로 측정됨
- 여기서 데모를 간단한 것부터 어려운 것 순으로 배열하면 모델의 Ep를 최대한 증가시킬 것이라는 가설을 제시
- 목표는 Ep를 최대화하는 순서 Dcurriculum을 찾는 것
- 이론적으로는 모든 가능한 순서를 시도하고 각각의 Ep를 측정하여 최적의 순서를 찾아야 하지만 이게 불가능한거고, 따라서 연구자들은 난이도 순으로 배열하는 것이 Ep를 최대화하는 좋은 근사(approximation)가 될 것이라고 가정함.
D_curriculum ≈ argmax_D Ep({(xi, yi)}^n_i=0; θ)
- 이 수식은 파라미터 효율성 Ep를 최대화하는 최적의 데모 순서 D를 찾는 것을 나타냄
Methodology - Curriculum Schedule Construction:
- 각 테스트 대상에 대해 데모 검색 알고리즘 (예: TopK)을 사용하여 적절한 샘플을 선택함.
- 난이도 평가:
- 인간의 경우:
- 5명의 전문가(학부생부터 교수까지)가 데모의 난이도를 평가하고 순위 지정
- 각 전문가의 순위를 평균 내어 최종 순서 결정
- Kendall의 일치계수를 사용하여 전문가들 간의 동의 정도 확인
- LLM 의 경우:
- Perplexity를 사용하여 LLM의 복잡성 이해도를 정량화
- 각 샘플의 복잡성을 다음 수식으로 계산:
- 수식의 의미:
- p(y_i | I_θ(x_i)): 이는 LLM θ가 입력 x_i에 대한 지시 I_θ(x_i)가 주어졌을 때, 레이블 y_i를 생성할 확률임.
- 즉, 모델이 얼마나 쉽게 정답을 예측할 수 있는지를 나타낸다.
- 모델이 레이블 y_i를 쉽게 예측할 수 있는 경우(높은 확률), 복잡성 점수는 낮아집
- 반대로, 모델이 레이블 y_i를 예측하기 어려운 경우(낮은 확률), 복잡성 점수는 높아짐.
- 인간의 경우:
Comp(x_i, y_i) = exp{-log p(y_i | I_θ(x_i))}
실험 결과:
- ICCL 방법이 KATE 와 LocalE 방법보다 순서 제시에서 효율이 좋았음.
- TopK 방법의 의미: TopK baseline that select 5 demonstrations that are semantically closest to testing samples and rank them randomly.
'Generative AI > Prompt Engineering' 카테고리의 다른 글
Many-Shot In-Context Learning (0) | 2024.10.09 |
---|---|
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models (0) | 2024.10.08 |
Unified Demonstration Retriever for In-Context Learning (0) | 2024.10.04 |
Finding Support Examples for In-Context Learning (0) | 2024.10.04 |
Self-Generated In-Context Learning: Leveraging Auto-regressive Language Models as a Demonstration Generator (0) | 2024.10.04 |