RLVR 은 실제로 효과적인가? with Random rewards

youngerjesus 2025. 8. 2. 15:44

2025. 8. 2. 15:44

https://www.interconnects.ai/p/reinforcement-learning-with-random

RLVR 방식이 실제로 효과적인가에 대한 의문 with Random rewards

언어 모델의 후처리 학습에서 정확한 보상을 주도록 하는 방법인 RLVR 은 수학과 추론 분야에서 높은 성능 향상을 불러왔음. 이 근간인 매커니즘은 “정확한 보상” 때문임. 근데 정답이 틀린 것에 대한 보상을 줘도 언어 모델의 성능 또한 향상되었다고 함. 그래서 우리가 기존에 알고 있던 진리를 부수는 의견을 이 글에소 소개함.

정답 보상 (Ground truth): +24.6점 (표준적인 RLVR 방식)
오답 보상 (Incorrect labels): +21.2점 (오직 틀린 답에만 보상을 줌)
무작위 보상 (Random rewards): +15.8점 (일정 확률로 무작위 보상을 줌

성능 향상의 원인은 뭔데?

왜 오답인 보상/무작위 보상을 줘도 언어 모델의 성능은 향상될까? 그 이유로는 이런 후처리 학습을 통해서 언어 모델은 새로운 학습을 하는게 아니라 자신의 잠재적인 추론 능력을 “유도” 하기 때문이라고 함.

이런 방식의 성능 향상의 이유로는 코드 추론이라는 방식(정답을 맞추는데 효과적이라고 함)으로 답변을 생성하는 비율이 높아졌기 때문이라고 함. 언어 모델이 추가 학습 과정에서 기존에는 이런 코드 추론 방식을 사용하지 않다가 점점 사용 빈도수가 높아졌다라고 함. 이렇게 된 이유는 RLVR 의 학습 알고리즘인 GRPO 의 클리프 기능 떄문이라고 함. 클리프는 학습 안정성을 높히기 위해서 너무 급격한 변화를 하지 않도록 제한을 하는 기능이기도 한데 부작용으로서 기존에는 확률이 낮았던 행동을 높히는 경향이 있다라고 함. 즉 추가적인 학습을 통해 내재되어있는 “코드 작성으로의 추론” 방식을 끄집어 낸 것.

클리핑과 그 부작용 대해 알아보자

클리핑 알고리즘 개요:

클리핑은 확률 비율의 값 (새로 업데이트 될 정책/업데이트 되기 전의 기존 정책) 의 비율로 결정됨.
그리고값이 너무 크면 강제로 잘라내서 정책 업데이트 폭을 제한한다. (즉 좋은 방법을 찾아내더라도, 천천히 가게끔 하게 만들어서 학습 안정성을 높힘)

부작용이 일어나는 이유:

오답 보상과 무작위 보상은 학습 방향을 잃어버리게 만들어줌. 오답 보상의 경우에도 정답을 내도 틀리니 어떻게 하든 틀리면 보상을 주는 것이니 무작위 보상과 크게 다르지 않음. 중요한 건 학습 방향을 잃어버렸을 경우라는 것. 이걸 기억하자.
클리핑의 부작용은 이렇게 학습 방향을 잃어버렸을 경우 저확률 행동을 한계치까지 업데이트 계속 업데이트 할 확률이 높기 때문임. 예시로 생각해보자.
- A 행동이 인기가 많아서 50%의 확률로 행동할 수 있음. (고확률 행동)
- B 행동은 인기가 없어서 1% 의 확률로 행동함. (저확률 행동)
- 무작위 보상으로 인해 업데이트가 되서 정책으로 1% 확률을 올린다고 생각해보자.
- 확률 비율의 값은 50% → 51% 로 1.02(2% 증가) 개선, 1% → 2% 로 2.0(100%증가) 개선임.
- 클리핑의 제한 때문에 B 행동은 한계치까지 업데이트가 될 것이긴 하지만 고확률 행동에 비해서 저확률 행동은 행동의 확률이 높아지는 효과를 낳는다.

결론적으로 RL 으로 인한 학습은 새롭게 무엇인가를 배우기 보다는 내재되어 있는 추론 방향을 활성화하는 것이기 때문에 오답이나 무작위 보상에서도 학습이 되었다라고 결론지을 수 있음.

더 많은 컴퓨팅 자원이 중요하다 (스케일이 중요하다)

근데 후처리 학습이 “유도” 만 할 수 있는 건 아님. 중요한 건 컴퓨팅 자원을 얼마나 많이 투입을 했느냐라고 저자는 주장함. 컴퓨팅 자원을 조금만 넣었을 때는 이런 유도까지만 할 수 있지만 더 많은 대규모 자원을 투입해서 후처리 학습을 한다면 새로운 것을 배울 수 있다라고 한다.

근거로는 여러개가 있음:

Transformer 에서의 Grokking 발견.
RLVR with 1-shot 학습에서 보면 학습에서의 컴퓨팅 투입양을 더 늘릴수록 과적합을 넘어서서 새로운 방향의 추론, 자기 성찰적인 사고, cross task 일반화 등이 일어났다고 함.

중요한 건 스케일에 따라서 학습이냐 유도냐가 결정된다는 것.

저작자표시 비영리 (새창열림)

'Generative AI > Post-training' 카테고리의 다른 글

RLVR with One Training Example (0)	2025.08.02
LLM Twin 프로젝트로 설명하는 Fine-Tuning with Preference Alignment (0)	2025.06.16
LLM Twin 프로젝트로 설명하는 SFT (Supervised FIne-tuning) (0)	2025.02.18
LIMA: Less Is More for Alignment (0)	2025.01.22
Scaling Relationship On Learning Mathematical Reasoning with Large Language Models (0)	2025.01.22

여정민의 블로그