Ground-Truth Labels Matter: A Deeper Look into Input-Label Demonstrations

youngerjesus 2024. 10. 3. 14:17

2024. 10. 3. 14:17

https://arxiv.org/pdf/2205.12685

Abstract:

ICL 에서 정답 레이블 (ground-truth labels) 이 그렇게 중요하지 않다라는 논문이 이전에 나왔는데, 이 논문에서는 정답 레이블의 중요성에 대해서 다시금 재평가하기 위한 논문.
직관적으로 보면, ICL에서도 정답 레이블은 기존의 지도 학습 (supervised learning) 에서와 비슷한 중요성을 가질 것이라고 생각했지만, 최근 연구는 입력-레이블 간의 대응관계가 그리 중요하지 않다는 결과를 보여주었음.
이 연구는 이러한 반직관적인 결과를 검증하기 위해 정답 레이블의 중요성을 다시 분석하려는 시도를 함.
이를 위해 연구진은 두 가지 새로운 메트릭을 제시한다:
- Label-Correctness Sensitivity: 레이블의 정확성이 ICL 성능에 얼마나 민감하게 반응하는지 측정하는 지표
- Ground-truth Label Effect Ratio (GLER): 정답 레이블이 ICL에 미치는 영향을 정량적으로 분석하는 비율
입력-레이블 매핑의 중요성은 실험 설정에 따라 ICL 성능에 다양한 영향을 미칠 수 있음을 발견했다고 함.
또 프롬프트 템플릿의 길이나 언어 모델의 크기와 같은 요소가 ICL의 잡음 내성 (noise-resilience) 을 결정하는 주요 요인이라는 걸 밝힘.
- 잡음 내성이라는 건 학습 데이터에 포함된 잡음(noise), 즉 불완전하거나 오류가 섞인 데이터에 대해서 얼마나 잘 견디고 올바른 예측을 할 수 있는지를 말함.
- 프롬프트 템플릿의 길이가 길면 잡음을 분산시켜 모델이 중요한 정보를 더 잘 파악할 수 있어 잡음 내성이 향상됨.
- 언어 모델의 크기가 클수록 복잡한 문맥을 이해하고 잡음에 대해 더 견고하게 대응할 수 있어, 모델이 잡음 내성이 높아짐.
- 그러니까 이전 논문인 입력-레이블 대응이 중요하지 않음은, 레이블에서 잡음이 생겨도 모델이 견뎌냈기 때문이라는 거임. 중요하지 않다라는게 아니라.

Introduction:

ICL의 발견 이후, 많은 연구가 이 메커니즘을 설명하고 활용하려는 시도를 해왔지만, 여전히 그 정확한 작동 원리는 명확하게 밝혀지지 않았음.
Min et al. (2022b) 의 연구는 ICL에서 입력-레이블 대응(input-label correspondence) 의 역할을 재평가함. 이 연구에 따르면, 정확한 입력과 레이블 간의 매핑은 우리가 생각했던 것보다 ICL 성능에 덜 기여한다는 결과를 보여주었음. 이는 ICL의 다른 요소, 예를 들어 프롬프트 형식이나 입력 및 레이블 공간에 대한 인식이 더 중요한 역할을 할 수 있음을 시사했었다.
이전 연구들은 ICL에서 예시의 순서가 중요한 역할을 한다고 밝혔음. 예를 들어, Zhao et al. (2021) 은 프롬프트 내에서 예시의 순서가 성능에 큰 영향을 미친다고 언급했었음. 레이블의 정확성이 덜 중요한 상황에서도 ICL이 여전히 강력한 성능을 보이는 이유기도 할거임.
다양한 데이터 셋에서 적용해본 결과 정확한 레이블 데모를 사용한 경우와 완전히 잘못된 레이블을 사용한 경우에 성능 차이가 많이 났다고 함. 즉 다양한 설정에서 일반화될 수 있는지에 대한 의문을 제기한 것.

입력-레이블 둔감성(input-label insensitivity):

레이블의 정확도에 따라서 성능이 변동하는 이런 민감성은 데이터 셋에 따라서 달라진다:
- 17개의 분류 데이터셋에서 민감도를 측정했더니 모든 구성에서 집계된 민감도가 0.81~0.86 범위로 상당히 높았으며, 적합도(good fit)가 높았다고 함.
- 특정 설정에서: 민감도가 0.309 만큼 되었다고도 한다. 이는 레이블 정확성이 1% 감소할 때마다 정확도가 평균적으로 0.309% 감소함을 의미함.
- 민감도는 작은 음수 값부터 (레이블 손상이 증가함에 따라 성능이 증가함을 의미) 0.815까지 다양하다고 함 (혐오 발언 데이터셋의 경우).
- 채널 방법(Channel method) 에서는 민감도가 더 낮게 나타났다고도 함.
민감도와 작업 난이도에도 연관이 있다고 함:
- 작업 난이도가 높은 경우에는 민감도가 낮고, 이는 의미있는 성능을 달성하기 어렵다고 함.
- 작업 난이도가 높을수록 모델이 데모에서 패턴을 학습하고 이를 활용하기 어려워지며, 이에 따라 민감도가 낮아진다고 한다.

입력 레이블 민감도에 영향을 미치는 요인들 정리:

예시의 순서: 예시의 순서에 따라서 전체적인 성능에 영향을 끼침. 성능이 낮게 나오는 경우에는 레이블 민감도가 없게 되겠지.
데이터 셋의 종류: 여러 분류 데이터셋을 실험해보니 민감도가 다름. 모든 작업과 데이터셋에 대해 일관된 패턴을 보여주지 않음. 일부 데이터셋에서는 작은 음수 값의 민감도를 보여주기도 함. 이건 레이블 정확도가 떨어지니까 성능이 향상된다는 거임.
작업의 난이도가 증가하면 예시 자체를 보다 활용하기 어렵기 떄문에 레이블 민감도가 적게 나옴. 민감도가 낮은 작업(예: 0.1 미만)은 성능이 낮게 나온다는 점도 있음.
ICL 방법의 선택:
- Direct Method(직접 방법):
  - 가장 기본적인 ICL 접근법으로, 데모를 포함한 프롬프트를 그대로 언어 모델에 입력하여 출력을 생성하는 방법
  - 추가적인 조정이나 보정 없이 언어 모델의 출력 확률에 의존하며, 레이블 민감도가 있음.
- Noisy Channel Method(노이즈 채널 방법):
  - 입력 데이터와 레이블 간의 조건부 확률을 계산하여 판별 작업(discriminative tasks) 에 적용하는 방법
- Calibrate Before Use (CBU) 기법:
  - 가능도 보정(likelihood calibration) 을 통해서 레이블 토큰의 출력 확률을 조정
  - 레이블에 대한 편향(bias)을 줄이고 성능을 향상 시키며 레이블 민감도를 낮출 수 있음.
모델 크기: 모델이 클수록 레이블 민감도가 증가하는 경향이 있음.
인컨텍스트 예시의 수가 많을수록 ICL 성능이 향상되지만, 동시에 레이블 민감도도 증가함. 더 많은 예시로 인해 모델이 정답 레이블의 영향을 더 크게 받기 때문
상세한 작업 설명을 포함하면 레이블 데모의 영향력이 줄어들어 레이블 민감도가 감소함.

저작자표시 비영리

'Generative AI > Prompt Engineering' 카테고리의 다른 글

Selective Annotation makes Large Language Models Better Few-shot Learners (0)	2024.10.03
Large Language Models do In-Context Learning Differently (0)	2024.10.03
Rethinking the Role of Demonstrations: What Makes In-Context Learning Work? (0)	2024.10.03
Learning To Retrieve Prompts for In-Context Learning (0)	2024.10.02
Reordering Examples Helps during Priming-based Few-Shot Learning (0)	2024.10.02

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

여정민의 블로그

Ground-Truth Labels Matter: A Deeper Look into Input-Label Demonstrations

'Generative AI > Prompt Engineering' 카테고리의 다른 글

+ Recent posts

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역