Where are we headed?:
Trend 1: The obvious: AI is moving so much faster:
- ML 시절과는 다르게 LLM 의 등장으로 만들어야 하는 모델이 줄어듬. 필요한 데이터의 수도 줄어들고 시간도 줄어들고 있음.
- 이제는 누구나 AI 를 이용해서 앱을 만들 수 있음.
Trend 2: Technical Trend:
(AS-IS) Separate Models for different task -> (TO-BE) Single model taht can generalize across millions of tasks:
- 하나의 대규모 모델(파운데이션 모델)을 만들어서 다양한 과제에 두루 활용하고, 필요하다면 모델을 파인튜닝 하는 방식으로의 발전을 말함.
- 일반적인 파인튜닝은 LLM 에서 효과적이지 않음. 그래서 파라미터 효율적 미세조정(Parameter-Efficient Fine-Tuning, 모델 전체 파라미터를 다 학습하는 대신, 추가/보조 파라미터만 학습해도 큰 효과를 낼 수 있는 방법), 프롬프트 엔지니어링, 압축 및 최적화 기법 (양자화(Quantization), 지식 증류(Knowledge Distillation)) 등을 사용함.
(AS-IS) Dense Models -> (TO-BE) Efficient Sparse models:
- Dense Models 이란?
- 딥러닝에서 ‘Dense’ 모델은 보통 모든 파라미터가 전부 활성화(활용)된 상태로, 입력이 들어올 때 네트워크 전체를 통해 연산이 이뤄지는 형태를 말함.
- 예: GPT-3, BERT 등 거의 모든 전통적인 대규모 언어 모델(LLM)은 Dense 구조임.
- Sparse Models 이란?
- Sparse 모델은, 네트워크 전체 파라미터 중 일부(혹은 특정 부분)만 실제 연산에 참여하게 하는 모델 구조를 말함.
- 훨씬 가볍게 만들 수 있고, Dense 와 같은 개수의 모델 파라미터를 가진 모델과 비교해보면 훨씬 추론 시간이 짧음.
- 이런 특징 때문에 모델을 더 크게 만드는데도 효과적임.
- 현재의 Sparse Models 한계점.
- Sparse 연산을 효율적으로 처리할 수 있는 최적화된 하드웨어나 소프트웨어 지원이 아직은 부족.
- GPU 는 대규모 행렬 처리에 강함. 그래서 Dense Model 연산에 최적화가 잘되어 있음. 하지만 GPU 는 Sparse Model 에는 아직 적합하진 않음. Sparse Model 의 행렬은 대부분 0이므로, 0이 아닌 부분만 찾아서 계산해야하는데 이런 식별하는 로직이 GPU 에겐 아직.
- 하지만 Structured Sparsity 등 GPU에서도 Sparse 연산을 어느 정도 지원하기 위한 시도가 있음. (NVIDIA Ampere부터 제한적으로 지원)
- Dense Models 이란?
(AS-IS) SIngle Modality models -> Models that deal with many modality
- 현재는 텍스트, 이미지, 음성 등 한 가지(Modality) 만 처리하던 모델들이 많았는데, 이제는 여러 모달리티를 동시에 다룰 수 있는 멀티모달(Multimodal) 모델이 중요한 흐름으로 자리로 발전하고 있음.
- 현실 세계의 정보는 텍스트뿐 아니라 이미지, 음성, 영상 등으로 다양하게 표현되니까.
- 멀티모달 모델을 쓰면 여러 소스에서 얻은 정보를 결합해 더 풍부하고 정확한 이해와 응답을 할 수 있음.
- 응용 예시:
- 이미지 설명(Image Captioning):
- 이미지 인코더가 추출한 비주얼 특징을 텍스트 디코더(Transformer)에 넘겨주어, 사람이 읽을 수 있는 문장(캡션)을 생성
- 이미지 기반 검색(Image-Text Retrieval):
- 텍스트에 맞는 이미지를 찾거나(텍스트 -> 이미지), 이미지와 매칭되는 텍스트 설명을 찾는(이미지 -> 텍스트) 작업.
- 비디오 파일 처리:
- 영상 임베딩, 오디오 임베딩, (필요 시) 텍스트 임베딩을 Cross-Attention, Concat 후 Self-Attention, Late Fusion 등 다양한 방식으로 결합해서 처리할 수 있음.
- 그래서 비디오 캡셔닝(Video Captioning, 영상을 보고 요약하는 문장을 생성) 하는게 가능.
- 이미지 설명(Image Captioning):
Trend 3 - It is the choice of the platform that matter
- AI를 성공적으로 도입하고 운영하기 위해서는 플랫폼과 모델 활용 전략을 어떻게 가져가느냐가 핵심 요인
- 폭넓은 모델 접근성 (Access to a broad set of Models):
- 다양한 모델 풀(예: GPT 시리즈, Llama, Claude, Bard 등)에 대한 접근이 가능해야 함.
- 이렇게 폭넓은 선택지가 있어야, 업무 목적과 예산에 맞춰 가장 적합한 모델을 골라 쓸 수 있음.
- 운영 단계에서의 모델 관리 플랫폼 (A platform for managing models in production):
- 모델은 단순히 PoC(개념검증)를 넘어 실제 업무 환경(프로덕션)에 배포될 때 확장성(Scalability) 과 지속적 관리가 중요해짐.
- 모델 버전 관리, 자동 확장/배포, 모니터링, 리소스 최적화 등 운영 전반을 지원해 주는 플랫폼이 필요함.
- 예시: 쿠버네티스(Kubernetes) 기반으로 모델 서빙
- 사용자 데이터로 모델 맞춤화 (Ability to customize models with your data):
- 이미 만들어진 기본 모델(Base Model)을 그대로 쓰는 것보다, 자신의 데이터로 모델을 미세 조정(Fine-tuning) 하면 정확도, 응답 속도(지연 시간, Latency), 성능을 크게 끌어올릴 수 있음.
- 이를 위해 모델의 추가 학습(Fine-tuning), 프롬프트 엔지니어링, LoRA 같은 경량화된 튜닝 기법 등을 지원하는 플랫폼이 필요
- 예) 사내 문서로 파인튜닝하여, 사내 전문 지식을 더 잘 이해하고 답변하는 모델을 만드는 식.
- 전 계층에서의 선택 및 유연성 (Choice and flexibility at every level):
- 특정 벤더나 솔루션에만 의존하면 벤더 락인(Vendor Lock-in) 문제가 발생할 수 있음.
- 인프라(클라우드, 온프레미스, 엣지 등), 모델, 라이브러리(프레임워크), 데이터 처리 툴 등 모든 계층에서 자유로운 선택이 가능해야함.
- Trend 4 - Cost of API Calls is approaching 0:
- Trend 5 - Search:
- LLM and Search need to come together
- RAG 와 같은 기법, Compound AI System 을 생각해보면 됨.
- Trend 6 - Enterprise Search/Assitant:
'Generative AI > Agent' 카테고리의 다른 글
StateFlow: Enhancing LLM Task-Solving through State- Driven Workflows (0) | 2024.12.29 |
---|---|
AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation (0) | 2024.12.29 |
The Shift from Models to Compound AI Systems (0) | 2024.12.27 |
LLM Agent Course (3) Agentic AI Frameworks (0) | 2024.12.27 |
WebShop: Towards Scalable Real-World Web Interaction with Grounded Language Agents (0) | 2024.12.27 |