AI 모델의 학습 기법이 어떻게 진화되어왔는지 정리하는 글임. 현 시점 방향은 SFT, RLHF 를 넘어서 자기 개선(self-improving) 방향으로 나아가고 있고, 각각의 문제를 해결하기위해 여러 기법이 제시되고 발견됨 (이게 제시된 이유는 인간 피드백 데이터의 한계. 더 나은 성능을 위해서 최고 지능을 가진 인간이 라벨링할 수 없는 문제 때문임)

 

첫번째로 제안된 기법이 Self-Rewarding. Self-Rewarding 기법은 스스로 지시 데이터에 대해서 답변을 생성해보고, 평가해보고 선호도 쌍 데이터를 구축해서 스스로 발전하는거임. DPO 방법과 크게 다를 거 없다라고 생각할 수 있는데 반복적인 위 과정을 거치면서 스스로 성능이 발전할 수 있다는 점이 다름. 계속 더 똑똑한 모델이 평가하고, 응답을 생성하는 과정을 반복함으로써 더 발전함.

 

자기 개선 기법에서 중요한 발견은 정확한 피드백(또는 검증 가능한 피드백임) 이라는 걸 발견함. Self-Rewariding 기법은 수학과 추론같은 분야에서 약했는데 이런 피드백이 정확하기 힘들었기 때문이라고 보임. 여기서 소개하는 Iterative Reasoning Preference Optimization 기법은 응답을 생성해낼 때 추론과정과 정답을 같이 만듬. 그리고 정답이 맞는지 틀린지 맞춰보고 정답인 응답과 틀린 응답을 가지고 선호도 데이터 셋을 만들고 학습을 통해 더 나은 추론을 생성하도록 해서 더 나은 성능을 달성할 수 있다고 함. (이렇게 선호도 데이터셋에 CoT 와 같은 추론 과정을 생성해보는게 언어 모델의 성능에 도움이 된다는 것도 TPO 기법에서 이후에 발견됨)

 

이후 학습 기법에서는 Meta Rewarding(평가를 잘하고 있는지 평가하는 기법) 을 통해 좋은 평가, 나쁜 평가 또한 선호도 데이터셋을 구축해서 훈련함으로써 더 나은 모델의 성능을 낼 수 있다고 함. 평가 자체를 더 잘하는게 언어 모델의 성능을 내는데 핵심이니. 이와 비슷한 맥락으로 좋은 평가와 원래의 질문을 약간 변형시켜 만든 별로인 평가를 만들어보고 왜 이게 좋은 평가인지, 별로인 평가인지 추론해보고 학습하도록 해서 LLM 의 평가 능력을 향상시키는 기법도 있었음.

+ Recent posts