Understanding and Effectively Using AI Reasoning Models

youngerjesus 2025. 1. 24. 20:31

2025. 1. 24. 20:31

https://www.youtube.com/watch?v=f0RbwrBcFmc

현재의 스케일링 패러다임: 다음 단어 예측

다음 단어 예측(Next Word Prediction)" 기반의 스케일링 패러다임을 개괄적으로 설명
언어 모델(LM)이 문장에서 다음 토큰(단어)을 예측하는 단순한 목표를 통해 다양한 능력을 학습할 수 있다고 함:
- 다음 단어 예측은 단순한 작업이 아닌 "다중 과제 학습(Multitask Learning)" 문제로 재해석
- 모델은 예측 과정에서 문법, 세계 지식, 감정 분석, 번역, 공간 추론, 수학 등 다양한 하위 작업을 동시에 습득할 수 있음.
- 즉 단일 목표로 다양한 능력을 획득할 수 있다는 점에서 "단순함의 힘" 을 증명한거임.
다음 단어 예측은 복잡한 목적 함수 대신 단일 학습 목표(Next Token Prediction) 로 설계되어 모델 구조와 학습 프로세스가 간단함.
그리고 대규모 데이터와 컴퓨팅 자원을 투입해 규모의 경제(Scaling Laws) 를 실현할 수 있음.

스케일링과 등장(emergence) 개념:

"다음 단어 예측" 기반의 스케일링 패러다임이 대규모 확장을 통해 어떻게 예측 불가능한 능력(등장, emergence) 을 발현하게함.
스케일링 법칙에서 설명한대로 모델 크기, 데이터셋 규모, 학습 컴퓨팅 자원이 지난 수년 간 약 7배수(seven orders of magnitude) 로 증가했습니다.
근데 모델 규모가 임계점을 넘을 때 명시적으로 학습되지 않은 능력 (= Emergence) 가 등장하기 시작함.
- GPT-2/3은 수학적 추론이 취약했으나, GPT-4는 대규모 스케일링을 통해 수학 능력이 급격히 개선되었다고.
- 능력 향상이 단순히 선형적이지 않고, 특정 규모에서 비약적 도약을 보였다는게 특징임.
- 즉 특정 능력(예: 수학, 추론)은 규모 확장에 따른 임계점 도달 시점까지 저조하다가 갑자기 활성화가 되었다고 함.

다음 단어 예측의 한계:

이 섹션에서는 "다음 단어 예측" 패러다임의 본질적 한계를 인간의 사고 체계와 비교하며 설명:
- 시스템 1 사고 vs. 시스템 2 사고
- 시스템 1은 빠르고 직관적인 처리 방식을 의미함.
- 시스템 2는 느리고 체계적인 사고가 필요한 복잡한 문제(예: 수학, 논리적 분석)를 해결하는 방식임.
- 현재 언어 모델(다음 단어 예측을 기반)은 시스템 1 방식에 의존해 시스템 2 수준의 문제를 처리하려고 시도함.
- 즉 쉬운 문제이던 어려운 문제이던 같은 계산량을 투여해서 문제를 해결하려고 함. 하지만 일반적으로 교수가 풀만한 복잡한 문제는 풀이 과정에 몇장씩 넘어가는 경우가 많음. 복잡한 문제에는 더 많은 계산량이 투여되야함.
현재의 모델은 복잡한 문제에서도 빠른 사고를 통해 곧바로 정답으로 가려고 하는 경향이 있음.
이러한 한계를 극복하기 위해서 CoT(Chain of Thought) 기법이 등장한거임.
이건 모델에 단계별 사고 과정을 명시적으로 출력하도록 유도하는 프롬프팅 기법임. 단순한 다음 단어 예측(System 1 사고)을 넘어, 체계적 추론(System 2 사고) 을 강제하여 복잡한 문제 해결 능력을 향상시킬 수 있음.
계산 관점에서 본다면 CoT 의 작동 원리는 일반 프롬프트와 달리 중간 추론 단계에서 더 많은 계산을 부여하는 방식임.
하여튼 CoT는 가 다단계 수학 문제, 논리적 퍼즐에서 성능을 크게 향상시킨다는 것을 실험으로 입증했음.

새로운 스케일링 패러다임: Chain of Thought 기반 강화 학습:

CoT 기반의 강화학습은 모델이 단계별 추론 과정(CoT) 을 생성하도록 유도하면서, 정답으로 이어지는 경로를 강화 학습으로 최적화합니다.
단순히 답을 맞추는 것뿐만 아니라 올바른 추론 단계를 학습해 일반화 능력을 향상시키는 것임.
작동 매커니즘은 다음과 같음:
- 검증 가능한 정답 데이터셋:
  - 수학 문제, 코딩 문제 등 명확히 정답이 확인된 데이터를 사용합니다.
  - 예: LeetCode 알고리즘 문제, 수학적 증명 문제.
- 모델의 다중 추론 경로 생성:
  - 모델은 각 문제에 대해 다양한 추론 경로(궤적) 를 생성합니다.
  - 예: 동일한 수학 문제를 풀기 위한 서로 다른 단계별 접근 방식.
- 평가자(Grader)의 검증:
  - 생성된 추론 경로의 정답 여부와 논리적 일관성을 자동 또는 수동으로 평가합니다.
  - 예: 코드 실행을 통한 결과 검증, 수학적 정답 매칭.
- 강화 학습을 통한 최적화:
  - 정답으로 이어진 추론 경로에 높은 보상(Reward) 을 부여합니다.
  - RL 알고리즘(예: PPO)이 모델의 정책(Policy)을 조정해 고보상 경로 생성 확률을 높입니다.
  - 결과: 모델은 점차 효율적이고 정확한 CoT를 학습합니다.
즉 이러한 방식은 프롬프트 엔지니어링에 의존하지 않고, 모델 내재적 추론 능력을 강화하는거임.
이 패러다임은 OpenAI의 새로운 추론 모델(01, 03)의 핵심 훈련 전략으로 활용됨.
시스템 사고 측면에서 본다면 모델에게 시스템 2 사고 방식을 훈련시키는거임.
이렇게 학습된 o1, o3 모델은 모든 벤치마크에서 기존의 것을 뛰어넘었음.

o1 모델에 대한 오해와 올바른 사용법:

사용자가 01을 채팅 모델(GPT-3.5/4 등)과 동일한 방식으로 사용하려 시도할 떄 성능이 떨어진 것 같은 체감을 할 수 있음.
이는 프롬프트에 What (작업의 명시적인 목표) 에 집중하기 보다는 How (어떻게 생각하면 되는지 알려주는) 것에 집중해서 프롬프트를 설계하기 때문임.
- 어떻게 생각하는지 알려주면 생각을 하는데에 방해가 된다고 함. 모델이 불필요한 토큰을 생성하게 되는거.
이미 추론 능력을 가진 모델에는 명시적인 목표를 알려주면 잘함.
o1 을 사용할 때 구현해야 할 프롬프트 목표는 다음과 같음:
- 명시적 목표: 해결해야 할 문제를 구체적이고 측정 가능하게 기술합니다
- 출력 형식 지정: JSON, CSV, Markdown 등 구조화된 형식을 요구해 모델의 집중도를 높입니다.
- 맥락과 제약 조건: 관련 데이터, 제외할 요소, 참고 자료 등을 한 번에 제공합니다. (이 이유는?)
- 경고 사항: 피해야 할 오류 유형(예: "환율 계산 시 2023년 데이터 사용 금지")을 명시합니다.

o1 모델과 일반 채팅 모델:

작업마다 다르겠지만 일반 작업에서 지연시간은 일반 채팅 모델보다 3~5배 더 길고, 사용하는 토큰량은 1.5배 정도 더 많음.
하지만 더 정확도가 높은 답을 낼거임. 그래서 구조화된 출력을 강제하거나, Tool Use 에서도 더 나은 정확도를 내긴함.

o1 모델 활용 - Agent 에서 전략적 Planning:

01 및 03 모델이 에이전트 기반 워크플로우에서 핵심적인 "계획(Planning)" 단계를 혁신하는 방식을 설명.
에이전트에서 Planning 이 왜 중요한지에 대한 설명은 생략.
기존 Agent 에서 일반 모델을 사용했을 때 문제점은 게획 능력 부족 + 맥락 상실임.
- ReAct 를 생각해보면 Planning 이후 작업을 하나씩 하다보면 이전에 세웠던 계획을 까먹게 될 것. (물론 그래서 Memory 가 등장한거긴함)
o1 과 같은 추론이 강화된 모델에서는 문제를 해결하기 위한 최적의 실행 경로, replanning 에 특히 강할 것.
이렇게 o1 모델이 전략을 설계하면, 이후의 각 작업은 일반 모델로 하면 되는거 아닌가? 라는 방법론을 제안함. (일반 모델은 주어진 일만 처리하면 되고, 상대적으로 o1 계열 모덻보다 빠르게 처리를 할거니까)

o1 모델의 활용 - Information Reflection (정보 반영):

o1 모델은 방대한 비정형 데이터에서 핵심 통찰력을 추출하고, 숨겨진 패턴을 식별하는 과정도 잘할 것이라고 함.
- 사용 사례:
  - "최근 6개월간의 회의록을 분석해 누구도 주목하지 않은 핵심 리스크는 무엇인가?"
  - "100편의 AI 논문을 종합해 2024년 주요 트렌드 예측".
이는 Nat Freeman의 프롬프트 전략으로 알려져있음. 접근법은 모델에 개방형 질문을 던져 데이터 전체를 관통하는 통찰을 유도하는 거임.
- 예: "다음 회의록을 분석해 팀이 간과한 전략적 기회 3가지를 제시하시오." (맥락과 출력 형식도 지정하고 주고)
o1 모델은 입력 컨텍스트 윈도우로 200,000 토큰으로 gpt-4o 보다 70,000 토큰 더 많음.
deepseek r1 모델은 64K 컨택스트 윈도우를 지원함. 이는 장문의 문서를 맥락으로 취하기 적합.
또 다른 실험에서 o1 모델에게 대량의 뉴스 및 소셜 미디어 데이터를 제공했을 때 핵심 트렌드를 잘 추출했다고 함.

o1 모델의 활용 - LLM as Evaluator:

01 모델을 다른 AI 모델의 출력 또는 인간의 연구 결과를 평가하는 도구로 사용해도 잘 할 것이라는거임.
평가를 심층적으로 할거니까.

저작자표시 비영리

'Generative AI > LLM' 카테고리의 다른 글

How Scaling Laws Will Determine AI's Future (0)	2025.01.24
DSPy (0)	2024.09.04
Key Features of LLMs (0)	2024.08.29
생성AI로 똑똑하게 일하는 법 리뷰 (0)	2024.08.28
Open Source Models with Hugging Face (0)	2024.08.26

여정민의 블로그

Understanding and Effectively Using AI Reasoning Models

'Generative AI > LLM' 카테고리의 다른 글

+ Recent posts

티스토리툴바