https://arxiv.org/pdf/2205.12685
Abstract:
- ICL 에서 정답 레이블 (ground-truth labels) 이 그렇게 중요하지 않다라는 논문이 이전에 나왔는데, 이 논문에서는 정답 레이블의 중요성에 대해서 다시금 재평가하기 위한 논문.
- 직관적으로 보면, ICL에서도 정답 레이블은 기존의 지도 학습 (supervised learning) 에서와 비슷한 중요성을 가질 것이라고 생각했지만, 최근 연구는 입력-레이블 간의 대응관계가 그리 중요하지 않다는 결과를 보여주었음.
- 이 연구는 이러한 반직관적인 결과를 검증하기 위해 정답 레이블의 중요성을 다시 분석하려는 시도를 함.
- 이를 위해 연구진은 두 가지 새로운 메트릭을 제시한다:
- Label-Correctness Sensitivity: 레이블의 정확성이 ICL 성능에 얼마나 민감하게 반응하는지 측정하는 지표
- Ground-truth Label Effect Ratio (GLER): 정답 레이블이 ICL에 미치는 영향을 정량적으로 분석하는 비율
- 입력-레이블 매핑의 중요성은 실험 설정에 따라 ICL 성능에 다양한 영향을 미칠 수 있음을 발견했다고 함.
- 또 프롬프트 템플릿의 길이나 언어 모델의 크기와 같은 요소가 ICL의 잡음 내성 (noise-resilience) 을 결정하는 주요 요인이라는 걸 밝힘.
- 잡음 내성이라는 건 학습 데이터에 포함된 잡음(noise), 즉 불완전하거나 오류가 섞인 데이터에 대해서 얼마나 잘 견디고 올바른 예측을 할 수 있는지를 말함.
- 프롬프트 템플릿의 길이가 길면 잡음을 분산시켜 모델이 중요한 정보를 더 잘 파악할 수 있어 잡음 내성이 향상됨.
- 언어 모델의 크기가 클수록 복잡한 문맥을 이해하고 잡음에 대해 더 견고하게 대응할 수 있어, 모델이 잡음 내성이 높아짐.
- 그러니까 이전 논문인 입력-레이블 대응이 중요하지 않음은, 레이블에서 잡음이 생겨도 모델이 견뎌냈기 때문이라는 거임. 중요하지 않다라는게 아니라.
Introduction:
- ICL의 발견 이후, 많은 연구가 이 메커니즘을 설명하고 활용하려는 시도를 해왔지만, 여전히 그 정확한 작동 원리는 명확하게 밝혀지지 않았음.
- Min et al. (2022b) 의 연구는 ICL에서 입력-레이블 대응(input-label correspondence) 의 역할을 재평가함. 이 연구에 따르면, 정확한 입력과 레이블 간의 매핑은 우리가 생각했던 것보다 ICL 성능에 덜 기여한다는 결과를 보여주었음. 이는 ICL의 다른 요소, 예를 들어 프롬프트 형식이나 입력 및 레이블 공간에 대한 인식이 더 중요한 역할을 할 수 있음을 시사했었다.
- 이전 연구들은 ICL에서 예시의 순서가 중요한 역할을 한다고 밝혔음. 예를 들어, Zhao et al. (2021) 은 프롬프트 내에서 예시의 순서가 성능에 큰 영향을 미친다고 언급했었음. 레이블의 정확성이 덜 중요한 상황에서도 ICL이 여전히 강력한 성능을 보이는 이유기도 할거임.
- 다양한 데이터 셋에서 적용해본 결과 정확한 레이블 데모를 사용한 경우와 완전히 잘못된 레이블을 사용한 경우에 성능 차이가 많이 났다고 함. 즉 다양한 설정에서 일반화될 수 있는지에 대한 의문을 제기한 것.
입력-레이블 둔감성(input-label insensitivity):
- 레이블의 정확도에 따라서 성능이 변동하는 이런 민감성은 데이터 셋에 따라서 달라진다:
- 17개의 분류 데이터셋에서 민감도를 측정했더니 모든 구성에서 집계된 민감도가 0.81~0.86 범위로 상당히 높았으며, 적합도(good fit)가 높았다고 함.
- 특정 설정에서: 민감도가 0.309 만큼 되었다고도 한다. 이는 레이블 정확성이 1% 감소할 때마다 정확도가 평균적으로 0.309% 감소함을 의미함.
- 민감도는 작은 음수 값부터 (레이블 손상이 증가함에 따라 성능이 증가함을 의미) 0.815까지 다양하다고 함 (혐오 발언 데이터셋의 경우).
- 채널 방법(Channel method) 에서는 민감도가 더 낮게 나타났다고도 함.
- 민감도와 작업 난이도에도 연관이 있다고 함:
- 작업 난이도가 높은 경우에는 민감도가 낮고, 이는 의미있는 성능을 달성하기 어렵다고 함.
- 작업 난이도가 높을수록 모델이 데모에서 패턴을 학습하고 이를 활용하기 어려워지며, 이에 따라 민감도가 낮아진다고 한다.
입력 레이블 민감도에 영향을 미치는 요인들 정리:
- 예시의 순서: 예시의 순서에 따라서 전체적인 성능에 영향을 끼침. 성능이 낮게 나오는 경우에는 레이블 민감도가 없게 되겠지.
- 데이터 셋의 종류: 여러 분류 데이터셋을 실험해보니 민감도가 다름. 모든 작업과 데이터셋에 대해 일관된 패턴을 보여주지 않음. 일부 데이터셋에서는 작은 음수 값의 민감도를 보여주기도 함. 이건 레이블 정확도가 떨어지니까 성능이 향상된다는 거임.
- 작업의 난이도가 증가하면 예시 자체를 보다 활용하기 어렵기 떄문에 레이블 민감도가 적게 나옴. 민감도가 낮은 작업(예: 0.1 미만)은 성능이 낮게 나온다는 점도 있음.
- ICL 방법의 선택:
- Direct Method(직접 방법):
- 가장 기본적인 ICL 접근법으로, 데모를 포함한 프롬프트를 그대로 언어 모델에 입력하여 출력을 생성하는 방법
- 추가적인 조정이나 보정 없이 언어 모델의 출력 확률에 의존하며, 레이블 민감도가 있음.
- Noisy Channel Method(노이즈 채널 방법):
- 입력 데이터와 레이블 간의 조건부 확률을 계산하여 판별 작업(discriminative tasks) 에 적용하는 방법
- Calibrate Before Use (CBU) 기법:
- 가능도 보정(likelihood calibration) 을 통해서 레이블 토큰의 출력 확률을 조정
- 레이블에 대한 편향(bias)을 줄이고 성능을 향상 시키며 레이블 민감도를 낮출 수 있음.
- Direct Method(직접 방법):
- 모델 크기: 모델이 클수록 레이블 민감도가 증가하는 경향이 있음.
- 인컨텍스트 예시의 수가 많을수록 ICL 성능이 향상되지만, 동시에 레이블 민감도도 증가함. 더 많은 예시로 인해 모델이 정답 레이블의 영향을 더 크게 받기 때문
- 상세한 작업 설명을 포함하면 레이블 데모의 영향력이 줄어들어 레이블 민감도가 감소함.