https://arxiv.org/pdf/2402.10738


Abstract:

  • 대규모 언어 모델(LLMs)의 in-context learning (ICL) 성능에 데모(demonstration) 순서가 중요한 영향을 미친다는 건 밝혀진 사실임.
  • 기존의 방법들은 높은 계산 비용이 필요하긴 했음. (엔트로픽 기반의 방법을 생각해보면 됨)
  • 이 논문에서 제안하는 방법은 인간의 학습 과정에서 영감을 받아 'few-shot In-Context Curriculum Learning (ICCL)'이라는 새로운 방법을 제안함.
  • ICCL은 추론 과정에서 프롬프트 데모의 복잡성을 점진적으로 증가시키는 방식임.
  • 난이도는 인간 전문가나 LLM 기반 메트릭(예: perplexity)으로 평가 가능함.
    • Perplexity는 모델이 텍스트를 얼마나 잘 예측하는지를 측정함.
    • 낮은 perplexity는 모델이 텍스트를 더 잘 예측한다는 것을 의미하고, 높은 perplexity 는 모델이 텍스트 예측에 더 많은 '혼란'을 겪음을 의미함.
    • perplexity는 데모(demonstration)의 난이도를 평가하는 데 사용될 수 있음. 높은 perplexity 를 보이는 데모는 더 어려운 것으로 간주할 수 있음.

 

Introduction:

  • 인간 교육은 체계적이고 점진적인 방식으로 이루어진다는 점을 이용해서 기계 학습에서 커리큘럼 기반 알고리즘을 제안한 것.
  • 커리큘럼 학습은 Bengio et al. (2009)에 의해 소개되었으며, 훈련 과정에서 데이터 샘플의 난이도를 점진적으로 높이는 방법을 말함.
  • 기존 연구에서 커리큘럼 학습의 효과성이 다양한 모델과 태스크에서 입증되었음. 지시 튜닝된 대규모 언어 모델(LLMs)의 뛰어난 능력도 확인됨.
  • 제안된 방법: In-Context Curriculum Learning (ICCL)
    • 커리큘럼 생성자(인간 전문가 또는 LLMs)가 평가한 난이도에 따라 데모를 순위 지정
    • 가장 쉬운 것부터 가장 어려운 것까지 난이도대로 순서대로 배열됨.
    • 학습자가 점진적으로 태스크를 해결하도록 안내

 

 

Methodology - Problem Formulation

  • 대규모 언어 모델(LLM) θ가 주어지고, n개의 데모 {(xi, yi)}가 특정 태스크 T를 해결하도록 LLM을 지시하는 데 사용될거임, 다른 데모 순서 D는 파라미터 θ를 활용하는 효율성이 다를거고, 파라미터 효율성 Ep는 성능 메트릭으로 측정됨
  • 여기서 데모를 간단한 것부터 어려운 것 순으로 배열하면 모델의 Ep를 최대한 증가시킬 것이라는 가설을 제시
  • 목표는 Ep를 최대화하는 순서 Dcurriculum을 찾는 것
  • 이론적으로는 모든 가능한 순서를 시도하고 각각의 Ep를 측정하여 최적의 순서를 찾아야 하지만 이게 불가능한거고, 따라서 연구자들은 난이도 순으로 배열하는 것이 Ep를 최대화하는 좋은 근사(approximation)가 될 것이라고 가정함.
D_curriculum ≈ argmax_D Ep({(xi, yi)}^n_i=0; θ)
  • 이 수식은 파라미터 효율성 Ep를 최대화하는 최적의 데모 순서 D를 찾는 것을 나타냄

 

 

Methodology - Curriculum Schedule Construction:

  • 각 테스트 대상에 대해 데모 검색 알고리즘 (예: TopK)을 사용하여 적절한 샘플을 선택함.
  • 난이도 평가:
    • 인간의 경우:
      • 5명의 전문가(학부생부터 교수까지)가 데모의 난이도를 평가하고 순위 지정
      • 각 전문가의 순위를 평균 내어 최종 순서 결정
      • Kendall의 일치계수를 사용하여 전문가들 간의 동의 정도 확인
    • LLM 의 경우:
      • Perplexity를 사용하여 LLM의 복잡성 이해도를 정량화
      • 각 샘플의 복잡성을 다음 수식으로 계산:
      • 수식의 의미:
        • p(y_i | I_θ(x_i)): 이는 LLM θ가 입력 x_i에 대한 지시 I_θ(x_i)가 주어졌을 때, 레이블 y_i를 생성할 확률임.
        • 즉, 모델이 얼마나 쉽게 정답을 예측할 수 있는지를 나타낸다.
        • 모델이 레이블 y_i를 쉽게 예측할 수 있는 경우(높은 확률), 복잡성 점수는 낮아집
        • 반대로, 모델이 레이블 y_i를 예측하기 어려운 경우(낮은 확률), 복잡성 점수는 높아짐.
Comp(x_i, y_i) = exp{-log p(y_i | I_θ(x_i))}

 

 

실험 결과:

  • ICCL 방법이 KATE 와 LocalE 방법보다 순서 제시에서 효율이 좋았음.
  • TopK 방법의 의미: TopK baseline that select 5 demonstrations that are semantically closest to testing samples and rank them randomly.

+ Recent posts