https://aclanthology.org/2022.naacl-main.191.pdf
Abstract:
- In-context learning 은 알다시피 대규모 사전 훈련된 언어 모델이 테스트 인스턴스와 소수의 훈련 예제를 입력으로 작업을 일반화해서 작업을 수행하도록 하는 패러다임임.
- In-context learning 의 성능은 예시에 크게 의존한다는 점이 있음.
- 이 논문에서는 주석이 달린 데이터와 언어 모델을 사용하여 In-Context Learning 을 위해 좋은 예시를 검색하는 방법을 제안함.
- 예시 검색을 위한 대략적인 방법:
- 입력-출력 쌍에 대해, 입력과 후보 훈련 예제를 프롬프트로 사용했을 때 출력의 확률을 추정함.
- 이 확률을 기반으로 훈련 예제가 적절한지 (긍정) 또는 적절하지 않은지 (부정) 으로 레이블링함.
- 여기서의 확률은 모델의 확신을 말함. 모델이 확신을 가지고 말하는건 좋은 응답이라고 추정
- 이렇게 레이블링 된 데이터를 바탕으로 dense retriever 를 훈련시킴.
- 테스트에서는 dense retriever 를 바탕으로 예시를 검색하는 것.
Introduction:
- 기존에는 비지도 유사성 메트릭을 사용하거나 표면적 유사성을 기반으로 프롬프트 검색기를 훈련시켜서 사용했었음:
- 비지도 유사성 메트릭이라 함은 TF-IDF, 코사인 유사도, 자카드 유사도 등을 이용해서 텍스트 간의 유사성을 측정해서 예시를 검색한 것.
- 표면적 유사성을 기반으로 한 프롬프트 검색기라 함은 텍스트의 겉으로 드러나는 특징을 기반으로 유사성을 판단하는 방법이었음. 주로 단어의 중복, 문장 구조의 유사헝, n-gram 등을 이용한 것.
- 여기서는 제안하는 방법으로 언어 모델 자체를 사용하여 좋은 프롬프트가 될 수 있는 예제를 레이블링하고, 이 정보를 바탕으로 Retriever 를 훈련시키는 것.
- 제안 방법의 훈련 과정:
- a) 입력-출력 쌍의 훈련 세트와 점수 매기는 언어 모델을 사용
- b) 각 훈련 세트에 입력으로 올 수 있는 여러 예시들을 검토. 그러니까 출력이 얼마나 잘 나오는지 평가
- c) 수 매기는 언어 모델 사용해서 입력(x)과 후보 프롬프트가 주어졌을 때 출력(y)의 조건부 확률을 추어
- d) 높은 확률을 보이는 후보 예제는 "긍정적" 프롬프트로, 낮은 확률을 보이는 예제는 "부정적" 프롬프트로 레이블링
- 언어 모델을 사용한 레이블링이 표면적 유사성 휴리스틱보다 더 나은 방법이라고 주장함.