https://www.youtube.com/watch?v=f0RbwrBcFmc


현재의 스케일링 패러다임: 다음 단어 예측

  • 다음 단어 예측(Next Word Prediction)" 기반의 스케일링 패러다임을 개괄적으로 설명
  • 언어 모델(LM)이 문장에서 다음 토큰(단어)을 예측하는 단순한 목표를 통해 다양한 능력을 학습할 수 있다고 함:
    • 다음 단어 예측은 단순한 작업이 아닌 "다중 과제 학습(Multitask Learning)" 문제로 재해석
    • 모델은 예측 과정에서 문법, 세계 지식, 감정 분석, 번역, 공간 추론, 수학 등 다양한 하위 작업을 동시에 습득할 수 있음.
    • 즉 단일 목표로 다양한 능력을 획득할 수 있다는 점에서 "단순함의 힘" 을 증명한거임.
  • 다음 단어 예측은 복잡한 목적 함수 대신 단일 학습 목표(Next Token Prediction) 로 설계되어 모델 구조와 학습 프로세스가 간단함.
  • 그리고 대규모 데이터와 컴퓨팅 자원을 투입해 규모의 경제(Scaling Laws) 를 실현할 수 있음.

 

스케일링과 등장(emergence) 개념:

  • "다음 단어 예측" 기반의 스케일링 패러다임이 대규모 확장을 통해 어떻게 예측 불가능한 능력(등장, emergence) 을 발현하게함.
  • 스케일링 법칙에서 설명한대로 모델 크기, 데이터셋 규모, 학습 컴퓨팅 자원이 지난 수년 간 약 7배수(seven orders of magnitude) 로 증가했습니다.
  • 근데 모델 규모가 임계점을 넘을 때 명시적으로 학습되지 않은 능력 (= Emergence) 가 등장하기 시작함.
    • GPT-2/3은 수학적 추론이 취약했으나, GPT-4는 대규모 스케일링을 통해 수학 능력이 급격히 개선되었다고.
    • 능력 향상이 단순히 선형적이지 않고, 특정 규모에서 비약적 도약을 보였다는게 특징임.
    • 즉 특정 능력(예: 수학, 추론)은 규모 확장에 따른 임계점 도달 시점까지 저조하다가 갑자기 활성화가 되었다고 함.

 

다음 단어 예측의 한계:

  • 이 섹션에서는 "다음 단어 예측" 패러다임의 본질적 한계를 인간의 사고 체계와 비교하며 설명:
    • 시스템 1 사고 vs. 시스템 2 사고
    • 시스템 1은 빠르고 직관적인 처리 방식을 의미함.
    • 시스템 2는 느리고 체계적인 사고가 필요한 복잡한 문제(예: 수학, 논리적 분석)를 해결하는 방식임.
    • 현재 언어 모델(다음 단어 예측을 기반)은 시스템 1 방식에 의존해 시스템 2 수준의 문제를 처리하려고 시도함.
    • 즉 쉬운 문제이던 어려운 문제이던 같은 계산량을 투여해서 문제를 해결하려고 함. 하지만 일반적으로 교수가 풀만한 복잡한 문제는 풀이 과정에 몇장씩 넘어가는 경우가 많음. 복잡한 문제에는 더 많은 계산량이 투여되야함.
  • 현재의 모델은 복잡한 문제에서도 빠른 사고를 통해 곧바로 정답으로 가려고 하는 경향이 있음.
  • 이러한 한계를 극복하기 위해서 CoT(Chain of Thought) 기법이 등장한거임.
  • 이건 모델에 단계별 사고 과정을 명시적으로 출력하도록 유도하는 프롬프팅 기법임. 단순한 다음 단어 예측(System 1 사고)을 넘어, 체계적 추론(System 2 사고) 을 강제하여 복잡한 문제 해결 능력을 향상시킬 수 있음.
  • 계산 관점에서 본다면 CoT 의 작동 원리는 일반 프롬프트와 달리 중간 추론 단계에서 더 많은 계산을 부여하는 방식임.
  • 하여튼 CoT는 가 다단계 수학 문제, 논리적 퍼즐에서 성능을 크게 향상시킨다는 것을 실험으로 입증했음.

 

새로운 스케일링 패러다임: Chain of Thought 기반 강화 학습:

  • CoT 기반의 강화학습은 모델이 단계별 추론 과정(CoT) 을 생성하도록 유도하면서, 정답으로 이어지는 경로를 강화 학습으로 최적화합니다.
  • 단순히 답을 맞추는 것뿐만 아니라 올바른 추론 단계를 학습해 일반화 능력을 향상시키는 것임.
  • 작동 매커니즘은 다음과 같음:
    • 검증 가능한 정답 데이터셋:
      • 수학 문제, 코딩 문제 등 명확히 정답이 확인된 데이터를 사용합니다.
      • 예: LeetCode 알고리즘 문제, 수학적 증명 문제.
    • 모델의 다중 추론 경로 생성:
      • 모델은 각 문제에 대해 다양한 추론 경로(궤적) 를 생성합니다.
      • 예: 동일한 수학 문제를 풀기 위한 서로 다른 단계별 접근 방식.
    • 평가자(Grader)의 검증:
      • 생성된 추론 경로의 정답 여부와 논리적 일관성을 자동 또는 수동으로 평가합니다.
      • 예: 코드 실행을 통한 결과 검증, 수학적 정답 매칭.
    • 강화 학습을 통한 최적화:
      • 정답으로 이어진 추론 경로에 높은 보상(Reward) 을 부여합니다.
      • RL 알고리즘(예: PPO)이 모델의 정책(Policy)을 조정해 고보상 경로 생성 확률을 높입니다.
      • 결과: 모델은 점차 효율적이고 정확한 CoT를 학습합니다.
  • 즉 이러한 방식은 프롬프트 엔지니어링에 의존하지 않고, 모델 내재적 추론 능력을 강화하는거임.
  • 이 패러다임은 OpenAI의 새로운 추론 모델(01, 03)의 핵심 훈련 전략으로 활용됨.
  • 시스템 사고 측면에서 본다면 모델에게 시스템 2 사고 방식을 훈련시키는거임.
  • 이렇게 학습된 o1, o3 모델은 모든 벤치마크에서 기존의 것을 뛰어넘었음.

 

o1 모델에 대한 오해와 올바른 사용법:

  • 사용자가 01을 채팅 모델(GPT-3.5/4 등)과 동일한 방식으로 사용하려 시도할 떄 성능이 떨어진 것 같은 체감을 할 수 있음.
  • 이는 프롬프트에 What (작업의 명시적인 목표) 에 집중하기 보다는 How (어떻게 생각하면 되는지 알려주는) 것에 집중해서 프롬프트를 설계하기 때문임.
    • 어떻게 생각하는지 알려주면 생각을 하는데에 방해가 된다고 함. 모델이 불필요한 토큰을 생성하게 되는거.
  • 이미 추론 능력을 가진 모델에는 명시적인 목표를 알려주면 잘함.
  • o1 을 사용할 때 구현해야 할 프롬프트 목표는 다음과 같음:
    • 명시적 목표: 해결해야 할 문제를 구체적이고 측정 가능하게 기술합니다
    • 출력 형식 지정: JSON, CSV, Markdown 등 구조화된 형식을 요구해 모델의 집중도를 높입니다.
    • 맥락과 제약 조건: 관련 데이터, 제외할 요소, 참고 자료 등을 한 번에 제공합니다. (이 이유는?)
    • 경고 사항: 피해야 할 오류 유형(예: "환율 계산 시 2023년 데이터 사용 금지")을 명시합니다.

 

o1 모델과 일반 채팅 모델:

  • 작업마다 다르겠지만 일반 작업에서 지연시간은 일반 채팅 모델보다 3~5배 더 길고, 사용하는 토큰량은 1.5배 정도 더 많음.
  • 하지만 더 정확도가 높은 답을 낼거임. 그래서 구조화된 출력을 강제하거나, Tool Use 에서도 더 나은 정확도를 내긴함.

 

o1 모델 활용 - Agent 에서 전략적 Planning:

  • 01 및 03 모델이 에이전트 기반 워크플로우에서 핵심적인 "계획(Planning)" 단계를 혁신하는 방식을 설명.
  • 에이전트에서 Planning 이 왜 중요한지에 대한 설명은 생략.
  • 기존 Agent 에서 일반 모델을 사용했을 때 문제점은 게획 능력 부족 + 맥락 상실임.
    • ReAct 를 생각해보면 Planning 이후 작업을 하나씩 하다보면 이전에 세웠던 계획을 까먹게 될 것. (물론 그래서 Memory 가 등장한거긴함)
  • o1 과 같은 추론이 강화된 모델에서는 문제를 해결하기 위한 최적의 실행 경로, replanning 에 특히 강할 것.
  • 이렇게 o1 모델이 전략을 설계하면, 이후의 각 작업은 일반 모델로 하면 되는거 아닌가? 라는 방법론을 제안함. (일반 모델은 주어진 일만 처리하면 되고, 상대적으로 o1 계열 모덻보다 빠르게 처리를 할거니까)

 

o1 모델의 활용 - Information Reflection (정보 반영):

  • o1 모델은 방대한 비정형 데이터에서 핵심 통찰력을 추출하고, 숨겨진 패턴을 식별하는 과정도 잘할 것이라고 함.
    • 사용 사례:
      • "최근 6개월간의 회의록을 분석해 누구도 주목하지 않은 핵심 리스크는 무엇인가?"
      • "100편의 AI 논문을 종합해 2024년 주요 트렌드 예측".
  • 이는 Nat Freeman의 프롬프트 전략으로 알려져있음. 접근법은 모델에 개방형 질문을 던져 데이터 전체를 관통하는 통찰을 유도하는 거임.
    • 예: "다음 회의록을 분석해 팀이 간과한 전략적 기회 3가지를 제시하시오." (맥락과 출력 형식도 지정하고 주고)
  • o1 모델은 입력 컨텍스트 윈도우로 200,000 토큰으로 gpt-4o 보다 70,000 토큰 더 많음.
  • deepseek r1 모델은 64K 컨택스트 윈도우를 지원함. 이는 장문의 문서를 맥락으로 취하기 적합.
  • 또 다른 실험에서 o1 모델에게 대량의 뉴스 및 소셜 미디어 데이터를 제공했을 때 핵심 트렌드를 잘 추출했다고 함.

 

o1 모델의 활용 - LLM as Evaluator:

  • 01 모델을 다른 AI 모델의 출력 또는 인간의 연구 결과를 평가하는 도구로 사용해도 잘 할 것이라는거임.
  • 평가를 심층적으로 할거니까.

'Generative AI > LLM' 카테고리의 다른 글

How Scaling Laws Will Determine AI's Future  (0) 2025.01.24
DSPy  (0) 2024.09.04
Key Features of LLMs  (0) 2024.08.29
생성AI로 똑똑하게 일하는 법 리뷰  (0) 2024.08.28
Open Source Models with Hugging Face  (0) 2024.08.26

+ Recent posts