Abstract:
- In-Context Learning 는 제공되는 데모의 품질과 관련성에 크게 의존하는 경향이 있음. 이러한 특징 때문에 주어진 테스트 입력에 대해 가장 적합한 예시를 훈련 데이터에서 찾아내는 데모 검색(demonstration retrieval) 연구가 활발해지고 있다.
- 기존 연구에서는 주어진 task 에 맞는 Retriever 를 훈련시켜서 활용하는 연구가 소개되었는데 이 방법은 각 작업마다 별도의 검색기를 훈련해야 하므로, 다양한 작업에 적용하기 어렵고, 효율적이지 않다라는 문제가 있었음.
- 이러한 문제를 해결하기 위해서 이 논문에서는 Unified Demonstration Retriever(UDR) 라는 단일 모델 Retriever 를 이용해서 다양한 작업에서돗 사용할 수 있는 예시 검색기를 도입한 걸 소개하는 글.
- UDR을 훈련하기 위해, 저자들은 다양한 작업의 훈련 신호를 언어 모델의 피드백을 활용한 통합된 리스트 랭킹(listwise ranking) 형태로 변환했다고 함:
- 언어 모델의 피드백 활용:
- 언어 모델에 입력과 출력 쌍(즉, 데모)을 제공하고, 모델이 얼마나 잘 예측하는지를 나타냄 이 예측 결과로부터 모델이 어떤 데모가 더 관련성이 높은지에 대한 피드백을 얻을 수 있음.
- 리스트 랭킹(listwise ranking):
- 리스트 랭킹은 여러 개의 후보 예시들이 있을 때, 테스트 입력과 얼마나 관련성이 높은지에 따라 순위를 매기는 방식임.
- 이전의 방식에서는 한 번에 하나씩 비교해서 점수를 매겼다면, 리스트 랭킹은 여러 후보를 한꺼번에 보고 전체적인 순서를 정하는 방식이다.
- 이 과정에서 언어 모델의 피드백을 사용하여, 더 나은 순위를 가진 예시가 무엇인지 학습하게 될 것.
- 통합된 리스트 랭킹:
- 통합된”이라는 표현은 여러 작업에 걸쳐서 일관된 방식으로 데모를 랭킹한다는 걸로, 하나의 작업에서만 랭킹을 매기는게 아니라, 여러 작업에 걸친 랭킹을 적용하는 걸 말함.
- 언어 모델의 피드백 활용:
Introduction:
- Abstarct 에서 데모 검색기 (Demenstration Retriever) 이 필요한 이유에 대해서 나눴었음.
- 기존에는 이런 검색기를 다음과 같이 사용했었다:
- 기존 검색기(off-the-shelf retrievers) 활용:
- BM25, Sentence-BERT 등.
- 텍스트적 또는 의미적으로 테스트 입력과 유사한 데모를 검색함.
- 다양한 NLP 작업에 적용할 수 있는 범용성이 있지만 최적의 성능을 내지는 않음.
- 작업별 특화된 검색기 훈련:
- 각 작업에 맞게 특별히 설계된 훈련 신호(training signal) 를 사용하여 검색기를 훈련하는 것.
- Das et al. (2021): 지식 기반 질의응답에서 논리 형태(logic form) 의 표면 유사성을 기반으로 검색기를 훈련.
- Hu et al. (2022): 대화 상태 추적(dialogue state tracking)에서 대화 상태 간의 유사성을 검색기의 훈련 신호로 사용
- Rubin et al. (2022), Shi et al. (2022): 언어 모델의 피드백을 활용하여 영어 및 다국어 시나리오에서 시맨틱 파싱(semantic parsing) 을 위한 데모 검색기를 훈련.
- 작업 특화된 방식으로, 앞선 범용 검색기보다 더 나은 성능을 보임.
- 작업 수가 증가함에 따라 검색기 수도 늘어나는 문제점이 있음. 각 작업마다 특별한 훈련 신호를 설계해야하기도 함.
- 작업별 특화된 검색기는 개별 작업에서는 좋은 성능을 보이지만, 확장성과 범용성 측면에서 한계가 있음.
- 기존 검색기(off-the-shelf retrievers) 활용:
- 이전 방법들의 한계를 극복하기 위해 저자들은 Unified Demonstration Retriever (UDR) 에 대해 제안함:
- UDR은 다양한 작업에 대한 데모 검색을 수행하는 단일 멀티태스크 모델임.
- 여러 작업에서 하나의 모델로 데모를 효율적으로 검색할 수 있도록 설계한 것.
- UDR의 훈련 방법:
- 통합된 리스트-와이즈 랭킹(list-wise ranking)으로 변환:
- 리스트-와이즈 랭킹이란: 여러 후보를 한 번에 보고 순위를 매기는 방식임. 이는 개별 쌍을 비교하는 것(pair-wise ranking)보다 더 포괄적인 방법이다.
- 훈련 신호의 변환:
- 훈련 신호 (training signal) 은 기계 학습에서 모델이 학습할 수 있도록 제공되는 정보를 의미한다. 구체적으로 말하자면, 훈련 데이터를 기반으로 모델이 어떻게 예측을 해야 하는지, 어떤 방향으로 개선되어야 하는지를 알려주는 신호 레이블링 된 데이터가 대표적임.
- 언어 모델의 응답도 훈련 신호가 될 수 있음. 언어 모델의 피드백 그러니까 모델이 주어진 입력에 대해서 예측을 잘헀는가? 도 중요한 훈련 신호가 될 수 있다.
- 여기서는 각 작업 T에서, 후보 예시들의 리스트를 작업 T의 훈련 세트로 사용하고, 언어 모델이 각 후보에 대해 얼마나 잘 예측하는지를 측정하여 랭킹을 매김.
- 멀티태스크 리스트-와이즈 랭킹 훈련 프레임워크:
- 여러 작업의 데이터를 동시에 사용하여 UDR을 훈련시킴.
- 모델이 순위 매긴 결과를 바탕으로 고품질의 긍정적인 예시와 어려운 부정적인 예시를 구분하고, 모델은 긍정적인 예시를 더욱 강조하고, 부정적인 예시를 피하는 방향으로 학습하게 될거임. 이걸 반복적 마이닝 전략이라고 핟다.
- 마이닝은 데이터를 탐색하고, 모델의 성능을 높일 수 있는 유용한 데이터나 고품질의 예시를 찾는 과정을 말함.
- 통합된 리스트-와이즈 랭킹(list-wise ranking)으로 변환:
- 기존 방법(EPR)과의 비교:
- EPR(Rubin et al., 2022) 은 언어 모델의 피드백에서 나온 이진 레이블(binary label) 을 사용하여 retriever 를 훈련시킴.
- 저자들은 코드와 모델 체크포인트를 다음의 깃허브 리포지토리에 공개했음: https://github.com/KaiLv69/UDR