Abstract:
- 이 논문은 언어 모델이 자신이 제공한 답변의 정확성을 스스로 평가할 수 있는지, 그리고 어떤 질문에 올바르게 답변할 수 있을지를 예측할 수 있는지를 연구하는 논문임.
- 연구진은 먼저, 적절한 형식으로 제공된 다양한 객관식 및 참/거짓 질문에 대해 대형 언어 모델이 잘 보정(calibrated)되어 있음을 보여줌. 즉 모델이 열린 형태의 생성 작업에서 먼저 답변을 제시한 다음, 그 답변이 정확할 확률인 “P(True)“를 평가하도록 함으로써 자기 평가를 수행할 수 있음을 발견함.
- 연구진은 모델이 특정한 제안된 답변과 관계없이 어떤 질문에 대해 “내가 그 답을 알고 있을” 확률인 “P(IK)“를 예측하도록 훈련될 수 있는지를 조사했다고 한다.
- 모델은 P(IK)를 예측하는 데에 좋은 성능을 보였으며, 여러 과제에 걸쳐 부분적으로 일반화되는 모습을 보였다고 함. 그러나 새로운 과제에 대해서는 P(IK)의 보정에 어려움을 겪었다고 함. 다만 P(IK) 를 예측하는데 도움을 줄 수 있는 맥락 정보를 제공해준다면 이것도 향상되는 걸 발견했다고 함.
- 이 글에서 언급하는 모델의 보정은 모델이 자신의 답변이 정확할 확률을 스스로 평가할 수 있는 메타인지 능력을 의미하는듯. 크게 두 가지 분야에서:
- 자기 답변의 정확성 평가 (P(True)):
- 모델이 어떤 질문에 답변을 제시한 후, 해당 답변이 정확할 확률을 예측하는 능력을 의미함.
- 질문에 대한 지식 여부 평가 (P(IK)):
- 모델이 어떤 질문에 답변을 제시한 후, 해당 답변이 정확할 확률을 예측하는 능력을 의미함.
- 자기 답변의 정확성 평가 (P(True)):
Introduction:
- 이 논문은 AI 시스템의 정직성(honesty) (= 자신의 지식과 추론에 대한 신뢰도를 정확하고 충실하게 평가하는 능력) 을 향상 시키기 위한 연구 방향을 제시하고 있음.
- 이를 위해 먼저 연구지은 보정(calibration) 에 주목한다. calibration 은 언어 모델의 확률적 예측이 실제 결과의 빈도와 일치하는지를 의미함. 예를 들어, 어떤 답변에 대해 70%의 확률로 정확하다고 예측했다면, 실제로도 그 답변이 70% 정도의 빈도로 정확해야한다.
- 이 논문에서는 대형 언어 모델이 적절한 형식으로 제공된 다양한 객관식 질문에서도 잘 보정된 예측을 할 수 있음을 보여준다.
- 그리고 모델의 크기가 커질수록 그리고 소수의 예시(few-shot prompting) 를 사용하면 보정 성능이 향상된다는 것을 발견했다.
- 자기 평가(Self-Evaluation)의 가능성:
- 보정이 잘 된 모델은 자신의 출력에 대한 정확성을 평가할 수 있는 자기 평가의 가능성을 제공한다.
- 예를 들어, 어떤 열린 질문에 대해 모델이 답변을 생성한 후, 그 답변이 정확할 확률인 P(True) 를 모델이 스스로 평가할 수 있다고 한다.
- 그리고 모델의 크기와 능력이 증가함에 따라 자기 평가 능력도 향상되었다고 함. 검증 능력이 생성 능력보다 더 빠르게 개선될 수 있음도 나타냄.
Self Evaluation 능력:
- 모델은 여러 선택지 간의 확률 분포를 비교하고, 가장 높은 확률을 가진 답을 선택하는 능력인 상대적인 판단 능력은 뛰어난 반면에, "none of the above (모든 답변이 틀림)" 판단과 같이 모든 선택지를 독립적으로 판단해서 확실한지 판단하는 메타인지 능력은 약간 떨어짐을 보임.
- 이건 실험을 통해서 "none of the above" 라는 선택지를 넣은 이후에 모델의 성능이 떨어짐을 통해서 발견함.
- 모델은 언어 모델이 참/거짓(True/False) 형식의 질문에 대해서는 잘 보정된(calibrated) 응답을 생성할 수 있음을 보여준다고 함. 이전에는 “none of the above” 옵션을 이용해서 전체 선택지를 모두 평가하는 옵션이있더만 이번에는 각 선택지에 대해서 참 or 거짓으로 평가를 해보려고 했다는데 이 경우에는 잘 평가한다고 함. 이를 기반으로 평가 매커니즘을 만들면 될 듯.
- RLHF 튜닝을 할 경우 보정을 할 수 있는데 특정 선택지를 위주로 답변을 선택하는 편향을 만들어 낼 수 있다고도 함. 이는 Temperature 값을 2.5 정도로 주면 이런 보상 문제는 해결할 수 있다고 한다. 아무래도 RLHF 튜닝을 하면 델이 특정 행동(답변)에 대해 높은 보상을 받는 경향이 생기고, 모델은 특정 답변을 더 빈번하게 생성하도록 훈련이 될 수 있음. 여기서 온도를 높여(T = 2.5로 설정) 분포를 평탄하게 만들면 모델이 답변 간의 확률을 덜 극단적으로 예측하게 되어, 모든 선택지에 대해 더 균등한 신뢰도를 가질 수 있게 된다고 함.
- 모델 크기가 커질수록 자기 평가 성능이 크게 향상된다고 함.
- 모델에게 동일한 질문에 대해 여러 T = 1(확률이 낮아진 분포) 샘플을 보여주면 각 샘플의 정확성을 평가하는 능력이 향상된다고 함. self-consistency 매커니즘이 Evaluation 에도 도움을 준다고 한다. 다만, 여기서는 모델이 스스로 생성한 샘플을 보고 일관성을 판단하는 것이 특징임.
- 이번에는 모델이 자신이 생성한 답변을 평가하는 과정을 True/False 로 판단해보게 해서 평가 능력을 확인해봤다고 함. 모델이 직접 생성한 샘플을 평가하는 것은 어려운 과제라고 한다. 왜냐하면 모델은 자신이 생성한 답변에 대해 과도한 자신감을 가질 가능성이 있다고 함. 모델은 외부에서 주어진 정보를 판단하는 능력이 자기의 답변을 평가하는 능력보다 더 잘한다고 함. 자신의 답변은 이미 자신의 최선의 답블 내놓은 것이니 명확하게 판단하기 어려울 수 있기 때문.
- 여러 개의 T = 1 샘플을 모델에게 보여줌으로써 자기 평가(self-evaluation) 성능을 향상시키는 방법도 있음. T = 1은 샘플이 생성될 때 확률 분포가 평탄해지는 온도 설정을 의미하며, 이를 통해 모델이 다른 답변들을 비교하면서 더 신중하게 자기 평가를 하도록 유도하는 것. 다중 샘플 비교 방식은 특히 짧은 형태의 답변을 요구하는 과제에서 유의미한 성능 향상을 보여준다고 함. 반면 긴 형태의 답변이 필요한 과제에서는 이 방법의 효과가 상대적으로 적었다고 함. 답변의 복잡성과 맥락 때문에 다중 샘플 비교 방식이 큰 도움이 되지 않기 때문임.