https://arxiv.org/pdf/2504.20571


Reinforcement Learning for Reasoning in Large Language Models with One Training Example

개요:

  • 방대한 양의 데이터는 정말로 필요할까?
  • 한 개의 예제가 모델에게 제공한 것들
  • 훈련 과정에서 발견된 기묘하고 경이로운 현상들
  • 왜 이런 현상이 발생했는가?
  • 이 결과로 알 수 있는 통찰들

 

방대한 양의 데이터는 정말로 필요할까?

LLM 을 발전시키는데 지시 데이터 생성 비용이라는 한계점 때문에 강화학습이 주목받아왔고, 그 중에서도 검증 가능한 보상을 기반으로 한 강화학습이 수학과 같은 추론 분야에서 대세가 되었음.

 

그리고 이런 학습을 일으키는 과정에서 우리는 대규모 데이터가 필요하다고 생각해왔음.

 

이후에는 고품질의 1~3K 정도의 데이터만 있어도 된다라고 여겨졌으며 데이터의 양보다는 품질이 중요하다는 연구 결과가 나왔엇음.

 

여기서 제안하는 연구는 데이터의 양, 품질 보다는 모델을 얼마나 올바르게 ‘자극’ 을 주느냐가 중요하다고 함.

정리하자면 단 하나의 일반적인 예제만으로도 모델의 성능을 훨씬 이끌어낼 수 있다는거임.

 

 

한 개의 예제가 모델에게 제공한 것들

모델이 가진 잠재적신 추론 지식을 활성화, 정답에 대한 확신을 줄 수 있었음.

 

확신을 줄 수 있었다는 것으로의 이유는 모델은 수학 문제에 대해서 대부분의 과정에서 올바른 경우가 많았는데 계산 영역에서 틀리는 경우가 있었다고 함.

 

 

훈련 과정에서 발견된 기묘하고 경이로운 현상들

훈련 과정에서 발생한 현상들이 어떤 순서로 발견되었는지 정리해보자.

  • (1) 포화 후 일반화 (Post-saturation Generalization)
    • 포화 상태에 도달한 것은 훈련 데이터에 대한 정확도로 평가한 것 같고, 테스트 데이터 셋에 대한 모델의 일반화 능력은 점점 더 올라갔다.
    • 그 공식을 곱씹어보면서 내부적인 추론 능력은 점점 더 올라갔음.
  • (2) 뒤틀린 과적합 (Overfitting with a Twist)
    • 훈련이 1,400 스텝 이상 극단적으로 진행되자 예상대로 '과적합(overfitting)' 현상이 나타났다고 함.
    • 여러 국가와 기호 언어들을 섞어서 출력하기 시작했지만 테스트 결과에서 다양한 해결 방법등을 사용하기 시작했다고 함. 테스트 결과도 더욱 발전했고.
  • (3) 일반화:
    • 여러 분야에 걸친 교차 영역 일반화까지 생겨났다고 함.
    • 기하학 문제 하나로 훈련시킨 모델이 대수학, 정수론, 등 다른 모든 수학 분야에서도 전반적인 성능 향상
    • 그 문제를 풀기 위한 전략보다는 논리적으로 사고하는 법, 단계적으로 생각하는 법등 보편적인 추론들을 익힌 것으로 보임.
  • 또 다른 변화 자기성찰:
    • 테스트 문제에 대해 다시 생각해보자(rethink), 재확인해보자(recheck), 재계산하자(recalcuate) 등에 대한 표현 사용이 더 강화되었음.

 

왜 이런 현상이 발생했는가?

먼저 선행지식부터 학습하자.

  • GRPO(GRPO(Group-normalized Reward Policy Optimization) 알고리즘, 정책 경사 손실, KL 발산 손실, 엔트로피 손실이 무엇일까?
  • GRPO 는 LLM 에게 피드백을 줄 때 세가지 손실 지표를 가지고 주는거임. 여기서 정책 경사, KL 발산, 엔트로피 손실 등이 사용됨.
  • 정책 경사 손실: 정답을 맞힌 행동(정책)을 강화해줌.
  • KL 발산 손실: 기준 모델과 너무 달라지지 않도록 만들어줌. 안전장치 역할. (치팅을 사용하지 않도록, 수학 분야에 최적화되면서 국어 능력을 잃어버리지 않도록)
  • 엔트로피 손실: 더 다양하고 창의적인 답변을 내놓도록 해주는 것.

정리해보자.

  • 정책 경사 손실은 정답에 대해 가중치를 부과하며 올바른 추론 경로를 강화하는 역할을 함.
  • 엔트로피 손실은 다양한 해결책을 탐험하도록 해준다고 함. 경사 손실에 엔트로피 손실까지 추가하니까 성능이 더 향상되었다고 함. 엔트로피 손실이 없었더라면 포화 후 일반화 이후 정확도가 올라가지 않았을 것. 엔트로피 손실 때문에 다양한 해결 전략에 대한 탐험을 계속하고, 그 과정에서 정답이 안되게 되면 정책 경사 손실이 정답을 이끌어내겠금 손실을 줌.
  • 추가로 발견한 것으로 정답이라는 명확한 보상 없이 엔트로피 손실으로 다양한 탐색만하도록 해도 추론 능력이 향상된다고 함. (왜그렇지?)

 

결과적으로 알 수 있는 통찰들

  • 사전 훈련 때 모델이 가진 잠재적인 추론 지식은 들어가있다. 이걸 추가적인 사후 처리 훈련에서 활성화 시키는 것이 중요하다.
  • GRPO 알고리즘을 통해 다양한 탐색 + 정확한 보상 + 많은 훈련 + 일반적인 데이터 조합으로 모델에게 올바른 자극을 줘서 성능을 높일 수 있다.
  • 데이터 큐레이팅의 중요성: 선택한 에제에 따라서 성능 폭이 달라졌다고 한다. 쉬운 에제를 아무리 선택한다 해도, 도움이 되지 않을 것이며, 이전까지의 논문들을 종합해보면 중복되지 않은 다양성 + 어려운 에제가 분명 도움이 될 것. 이러한 데이터를 직접적으로 선별하는 것도 중요하지 않을까.

+ Recent posts