Unified Demonstration Retriever for In-Context Learning

youngerjesus 2024. 10. 4. 15:28

2024. 10. 4. 15:28

https://arxiv.org/pdf/2305.04320

Abstract:

In-Context Learning 는 제공되는 데모의 품질과 관련성에 크게 의존하는 경향이 있음. 이러한 특징 때문에 주어진 테스트 입력에 대해 가장 적합한 예시를 훈련 데이터에서 찾아내는 데모 검색(demonstration retrieval) 연구가 활발해지고 있다.
기존 연구에서는 주어진 task 에 맞는 Retriever 를 훈련시켜서 활용하는 연구가 소개되었는데 이 방법은 각 작업마다 별도의 검색기를 훈련해야 하므로, 다양한 작업에 적용하기 어렵고, 효율적이지 않다라는 문제가 있었음.
이러한 문제를 해결하기 위해서 이 논문에서는 Unified Demonstration Retriever(UDR) 라는 단일 모델 Retriever 를 이용해서 다양한 작업에서돗 사용할 수 있는 예시 검색기를 도입한 걸 소개하는 글.
UDR을 훈련하기 위해, 저자들은 다양한 작업의 훈련 신호를 언어 모델의 피드백을 활용한 통합된 리스트 랭킹(listwise ranking) 형태로 변환했다고 함:
- 언어 모델의 피드백 활용:
  - 언어 모델에 입력과 출력 쌍(즉, 데모)을 제공하고, 모델이 얼마나 잘 예측하는지를 나타냄 이 예측 결과로부터 모델이 어떤 데모가 더 관련성이 높은지에 대한 피드백을 얻을 수 있음.
- 리스트 랭킹(listwise ranking):
  - 리스트 랭킹은 여러 개의 후보 예시들이 있을 때, 테스트 입력과 얼마나 관련성이 높은지에 따라 순위를 매기는 방식임.
  - 이전의 방식에서는 한 번에 하나씩 비교해서 점수를 매겼다면, 리스트 랭킹은 여러 후보를 한꺼번에 보고 전체적인 순서를 정하는 방식이다.
  - 이 과정에서 언어 모델의 피드백을 사용하여, 더 나은 순위를 가진 예시가 무엇인지 학습하게 될 것.
- 통합된 리스트 랭킹:
  - 통합된”이라는 표현은 여러 작업에 걸쳐서 일관된 방식으로 데모를 랭킹한다는 걸로, 하나의 작업에서만 랭킹을 매기는게 아니라, 여러 작업에 걸친 랭킹을 적용하는 걸 말함.

Introduction:

Abstarct 에서 데모 검색기 (Demenstration Retriever) 이 필요한 이유에 대해서 나눴었음.
기존에는 이런 검색기를 다음과 같이 사용했었다:
- 기존 검색기(off-the-shelf retrievers) 활용:
  - BM25, Sentence-BERT 등.
  - 텍스트적 또는 의미적으로 테스트 입력과 유사한 데모를 검색함.
  - 다양한 NLP 작업에 적용할 수 있는 범용성이 있지만 최적의 성능을 내지는 않음.
- 작업별 특화된 검색기 훈련:
  - 각 작업에 맞게 특별히 설계된 훈련 신호(training signal) 를 사용하여 검색기를 훈련하는 것.
  - Das et al. (2021): 지식 기반 질의응답에서 논리 형태(logic form) 의 표면 유사성을 기반으로 검색기를 훈련.
  - Hu et al. (2022): 대화 상태 추적(dialogue state tracking)에서 대화 상태 간의 유사성을 검색기의 훈련 신호로 사용
  - Rubin et al. (2022), Shi et al. (2022): 언어 모델의 피드백을 활용하여 영어 및 다국어 시나리오에서 시맨틱 파싱(semantic parsing) 을 위한 데모 검색기를 훈련.
  - 작업 특화된 방식으로, 앞선 범용 검색기보다 더 나은 성능을 보임.
  - 작업 수가 증가함에 따라 검색기 수도 늘어나는 문제점이 있음. 각 작업마다 특별한 훈련 신호를 설계해야하기도 함.
  - 작업별 특화된 검색기는 개별 작업에서는 좋은 성능을 보이지만, 확장성과 범용성 측면에서 한계가 있음.
이전 방법들의 한계를 극복하기 위해 저자들은 Unified Demonstration Retriever (UDR) 에 대해 제안함:
- UDR은 다양한 작업에 대한 데모 검색을 수행하는 단일 멀티태스크 모델임.
- 여러 작업에서 하나의 모델로 데모를 효율적으로 검색할 수 있도록 설계한 것.
UDR의 훈련 방법:
- 통합된 리스트-와이즈 랭킹(list-wise ranking)으로 변환:
  - 리스트-와이즈 랭킹이란: 여러 후보를 한 번에 보고 순위를 매기는 방식임. 이는 개별 쌍을 비교하는 것(pair-wise ranking)보다 더 포괄적인 방법이다.
- 훈련 신호의 변환:
  - 훈련 신호 (training signal) 은 기계 학습에서 모델이 학습할 수 있도록 제공되는 정보를 의미한다. 구체적으로 말하자면, 훈련 데이터를 기반으로 모델이 어떻게 예측을 해야 하는지, 어떤 방향으로 개선되어야 하는지를 알려주는 신호 레이블링 된 데이터가 대표적임.
  - 언어 모델의 응답도 훈련 신호가 될 수 있음. 언어 모델의 피드백 그러니까 모델이 주어진 입력에 대해서 예측을 잘헀는가? 도 중요한 훈련 신호가 될 수 있다.
  - 여기서는 각 작업 T에서, 후보 예시들의 리스트를 작업 T의 훈련 세트로 사용하고, 언어 모델이 각 후보에 대해 얼마나 잘 예측하는지를 측정하여 랭킹을 매김.
- 멀티태스크 리스트-와이즈 랭킹 훈련 프레임워크:
  - 여러 작업의 데이터를 동시에 사용하여 UDR을 훈련시킴.
  - 모델이 순위 매긴 결과를 바탕으로 고품질의 긍정적인 예시와 어려운 부정적인 예시를 구분하고, 모델은 긍정적인 예시를 더욱 강조하고, 부정적인 예시를 피하는 방향으로 학습하게 될거임. 이걸 반복적 마이닝 전략이라고 핟다.
    - 마이닝은 데이터를 탐색하고, 모델의 성능을 높일 수 있는 유용한 데이터나 고품질의 예시를 찾는 과정을 말함.
기존 방법(EPR)과의 비교:
- EPR(Rubin et al., 2022) 은 언어 모델의 피드백에서 나온 이진 레이블(binary label) 을 사용하여 retriever 를 훈련시킴.
저자들은 코드와 모델 체크포인트를 다음의 깃허브 리포지토리에 공개했음: https://github.com/KaiLv69/UDR

저작자표시 비영리

'Generative AI > Prompt Engineering' 카테고리의 다른 글

Chain-of-Thought Prompting Elicits Reasoning in Large Language Models (0)	2024.10.08
Let’s Learn Step by Step: Enhancing In-Context Learning Ability withCurriculum Learning (0)	2024.10.07
Finding Support Examples for In-Context Learning (0)	2024.10.04
Self-Generated In-Context Learning: Leveraging Auto-regressive Language Models as a Demonstration Generator (0)	2024.10.04
Selective Annotation makes Large Language Models Better Few-shot Learners (0)	2024.10.03

여정민의 블로그

Unified Demonstration Retriever for In-Context Learning

'Generative AI > Prompt Engineering' 카테고리의 다른 글

+ Recent posts

티스토리툴바