https://www.youtube.com/watch?v=d6Ed5bZAtrM&list=LL&index=2&t=11s


Scaling of Large Language Models:

  • "모델 크기 ↑ + 데이터 ↑ + 컴퓨팅 파워 ↑ = 성능 ↑" 는 공식이었음.
  • OpenAI 의 Scaling Laws for Neural Language Models 에서는 모델 크기와 성능의 멱법칙 관계를 공식화 함.
    • 수식: 성능 ∝ (파라미터)^0.073 × (데이터)^0.35 × (컴퓨팅)^0.15
    • 대략 이런 비율로 기여를 함.
  • 이 논문의 결과에서는 알고리즘 개선보다 규모 확장이 성능 향상에 더 결정적이라고 밝힘.

 

구글 DeepMind의 Chinchilla: 데이터 균형의 중요성 재발견:

  • 2022년 DeepMind 에서 GPT-3 보다 60% 작지만 4배 더 많은 데이터를 넣었을 때 성능적 우위를 발견함.
  • 즉 GPT-3 는 과소적합(underfitting) 되었다고 밝혔고, 모델 크기와 데이터양의 균형이 중요하다고 함.
  • 여기서의 수식은 최적 데이터량 = 20 × (파라미터 수) 로 밝혀짐.

 

미래 전망: Scaling의 한계 vs. 새로운 가능성:

  • 현재 상황:
    • 데이터 고갈: 현재 인터넷에 있는 모든 데이터는 고갈됨 + 이러한 데이터의 품질 문제도 있음.
    • 비용 문제: 그리고 GPT-4 같은 경우는 한번 학습하는데 1억 달러가 들어감.
  • OpenAI o1 의 등장 - 새로운 패러다임 제시:
    • CoT 기반의 강화학습으로 추론 능력을 향상시킴. 모델 자체가 추론 또는 깊은 사고를 통해 답변을 내놓음 -> 정확도 향상
    • 이를 테스트 단계의 컴퓨팅 자원을 더 할당한다고 함. (추론 단계의 컴퓨팅 자원이라고도 함)
  • 데이터 품질의 중요성:
    • 구글 Gemini 에서는 데이터 품질 관리 강화 → 학습 비용 30% 절감.
    • Anthropic 에서는 전문가 검수 데이터 비중 34% ↑ → 성능 22% 향상.
  • 미래 전망:
    • 현재는 단순 확장의 한계를 넘어 테스트 단계 컴퓨팅, 다중 모달 학습, 인간-AI 협업(HLHF), 데이터 품질 최적화, 에너지 효율적 아키텍처(예: 슈퍼컨덕팅 칩) 접근법이 등장하며 새로운 장이 열리고 있다고 함.

'Generative AI > LLM' 카테고리의 다른 글

Understanding and Effectively Using AI Reasoning Models  (0) 2025.01.24
DSPy  (0) 2024.09.04
Key Features of LLMs  (0) 2024.08.29
생성AI로 똑똑하게 일하는 법 리뷰  (0) 2024.08.28
Open Source Models with Hugging Face  (0) 2024.08.26

+ Recent posts