Overview:
- 이 논문은 대규모 언어 모델(LLM)들이 수학적 추론(Mathematical Reasoning) 문제를 학습할 때, 모델의 성능이 어떻게 달라지는지를 다양한 각도에서 분석한 연구임.
- 주요 내용은 다음과 같다:
- 파라미터 수 vs. Pre-training Loss:
- 일반적으로 모델 규모(파라미터 수)가 커질수록 성능이 좋아지리라고 기대하지만, 이 논문에서는 단순한 파라미터 수보다 사전 학습 손실 값이 모델의 추론 성능을 예측하는 데 더 적합하다는 결과를 제시
- 즉, 같은 파라미터 크기라도 사전 학습에서 손실을 더 낮추어 “더 잘 학습된” 모델이 수학 문제 풀이 성능이 더 좋다는 의미
- 지도 학습(SFT) 데이터 증량 효과:
- 모델에 주어진 지도 학습 데이터의 양이 증가할수록 로그-선형적으로 성능이 향상되는 양상을 보였다고 함.
- 다만, 이미 성능이 높은 모델일수록, 추가 데이터가 늘어나도 성능 개선의 여지가 작아지는 경향이 있다고 함. (즉, “작은 모델”은 데이터가 추가될 때 빠른 개선을 보이지만, “큰 모델” 혹은 “이미 잘 학습된 모델”은 같은 양을 늘려도 개선 폭이 작음)
- Rejection sampling Fine-Tuning (RFT) 제안:
- 사람이 직접 레이블링한(정답을 달아준) 지도 데이터만으로는 충분한 성능 향상을 얻기 어렵기 때문에, 모델이 만들어 낸(샘플링) 추론 경로 중에서 “정답에 이른 경로만” 선별(=rejection sampling)하여 추가 학습 데이터로 사용하는 RFT 기법을 제안함.
- RFT로 생성된 데이터에는 서로 다른(보다 다양한) 정답 추론 경로를 많이 포함할수록, 모델의 수학적 추론 성능 향상에 크게 기여한다는 점을 발견했음.
- 특히 초기 성능이 낮은 모델일수록 RFT가 더 큰 개선 효과를 가져왔음.
- 단순하게 데이터를 새로 합성하는건 성능 향상으로 이끌지 못했다고 함.
- 구현 디테일로는 100개의 샘플링을 temperature 0.7 정도로 했다고 함.
- RFT 의 결과 및 성능 지표:
- 논문에서는 GSM8K(초등 ~ 중학교 수준의 수학 문제로 구성된 대표적인 벤치마크)에서 LLaMA-7B 모델을 대상으로 한 실험 결과를 깅조.
- 기존의 지도 학습(SFT)만 적용했을 때는 35.9%의 정답률을 기록하였으나, 여러 모델로부터 추론 경로를 모아 만든 RFT 기법을 적용했을 때 49.3% 까지 끌어올렸다고 보고합니다
- 이는 RFT가 지도 데이터 증량 효과 이상으로 모델 성능을 유의미하게 향상시킨다는 증거로, “정답을 맞힌 추론 경로”를 지속적으로 축적하여 모델을 재학습하는 전략이 매우 효과적임을 보여줌.
- 파라미터 수 vs. Pre-training Loss:
'Generative AI > Fine-tuning' 카테고리의 다른 글
LLM Twin 프로젝트로 설명하는 SFT (Supervised FIne-tuning) (0) | 2025.02.18 |
---|---|
LIMA: Less Is More for Alignment (0) | 2025.01.22 |
Beyond Human Data: Scaling Self-Training forProblem-Solving with Language Models (0) | 2025.01.22 |
Reinforced Self-Training (ReST) for Language Modeling (0) | 2025.01.22 |
Magicoder: Empowering Code Generation with OSS-INSTRUCT (0) | 2025.01.22 |