https://www.youtube.com/watch?v=d6Ed5bZAtrM&list=LL&index=2&t=11s
Scaling of Large Language Models:
- "모델 크기 ↑ + 데이터 ↑ + 컴퓨팅 파워 ↑ = 성능 ↑" 는 공식이었음.
- OpenAI 의 Scaling Laws for Neural Language Models 에서는 모델 크기와 성능의 멱법칙 관계를 공식화 함.
- 수식: 성능 ∝ (파라미터)^0.073 × (데이터)^0.35 × (컴퓨팅)^0.15
- 대략 이런 비율로 기여를 함.
- 이 논문의 결과에서는 알고리즘 개선보다 규모 확장이 성능 향상에 더 결정적이라고 밝힘.
구글 DeepMind의 Chinchilla: 데이터 균형의 중요성 재발견:
- 2022년 DeepMind 에서 GPT-3 보다 60% 작지만 4배 더 많은 데이터를 넣었을 때 성능적 우위를 발견함.
- 즉 GPT-3 는 과소적합(underfitting) 되었다고 밝혔고, 모델 크기와 데이터양의 균형이 중요하다고 함.
- 여기서의 수식은 최적 데이터량 = 20 × (파라미터 수) 로 밝혀짐.
미래 전망: Scaling의 한계 vs. 새로운 가능성:
- 현재 상황:
- 데이터 고갈: 현재 인터넷에 있는 모든 데이터는 고갈됨 + 이러한 데이터의 품질 문제도 있음.
- 비용 문제: 그리고 GPT-4 같은 경우는 한번 학습하는데 1억 달러가 들어감.
- OpenAI o1 의 등장 - 새로운 패러다임 제시:
- CoT 기반의 강화학습으로 추론 능력을 향상시킴. 모델 자체가 추론 또는 깊은 사고를 통해 답변을 내놓음 -> 정확도 향상
- 이를 테스트 단계의 컴퓨팅 자원을 더 할당한다고 함. (추론 단계의 컴퓨팅 자원이라고도 함)
- 데이터 품질의 중요성:
- 구글 Gemini 에서는 데이터 품질 관리 강화 → 학습 비용 30% 절감.
- Anthropic 에서는 전문가 검수 데이터 비중 34% ↑ → 성능 22% 향상.
- 미래 전망:
- 현재는 단순 확장의 한계를 넘어 테스트 단계 컴퓨팅, 다중 모달 학습, 인간-AI 협업(HLHF), 데이터 품질 최적화, 에너지 효율적 아키텍처(예: 슈퍼컨덕팅 칩) 접근법이 등장하며 새로운 장이 열리고 있다고 함.
'Generative AI > LLM' 카테고리의 다른 글
Understanding and Effectively Using AI Reasoning Models (0) | 2025.01.24 |
---|---|
DSPy (0) | 2024.09.04 |
Key Features of LLMs (0) | 2024.08.29 |
생성AI로 똑똑하게 일하는 법 리뷰 (0) | 2024.08.28 |
Open Source Models with Hugging Face (0) | 2024.08.26 |