NVIDIA: Synthetic Data Generation

youngerjesus 2025. 1. 25. 22:22

2025. 1. 25. 22:22

https://www.youtube.com/watch?v=NCzXok_sD-0&t=6s

NVIDIA 가 만든 합성 데이터 프로세스는 크게 다음과 같음:

데이터 생성:
- LLM NIM(Large Language Model NVIDIA Inference Microservice)을 활용해 원시 데이터를 생성함.
- 다양한 유형의 프롬프트(질문-답변, 코드 생성, 대화 시나리오 등)를 LLM NIM에 입력하여 대량의 원시 데이터를 생성함.
- NIM은 NVIDIA의 최적화된 하드웨어(예: H100 GPU)와 소프트웨어 스택(예: TensorRT)을 활용해 초고속 추론을 지원한다고 함. 분당 120만 토큰 생성이 가능하다고
- 그리고 다양한 도메인에서 데이터 생성이 가능하다고 함.
- 생성된 데이터 100만 건 중 92%가 미세 조정에 직접 활용 가능 (NVIDIA 내부 테스트 기준).
피드백 루프:
- 데이터를 생성하고, 검증하는 단계가 엮인 구조를 말함.
- 여러 LLM 과 보상 모델을 이용해서 평가를 함.
- 다중 필터를 통합해 검증하는 것도 가능. (점수 기반 필터, 중복 데이터 필터 등)
- 파이프라인을 이용해서 검증을 하는거임.
반복:
- 주어진 목표를 달성할 때까지 반복함.
NVIDIA 의 데이터 합성 파이프라인에 데이터 생성/검증에 사용자가 가지고 있는 특화된 모델을 사용하는 것도 가능하다고. 그래서 품질 평가 계층확가 가능하다고 함:
- 1차: 사용자 소유 보상 모델이 정확도 평가 (예: 의학 용어 정합성).
- 2차: LLM Judge가 문맥 일관성 분석.
- 3차: NVIDIA 필터 적용 (중복 제거, 민감 정보 마스킹).

데이터 합성 파이프라인 예시:

pipeline = Curator()                                                                                        
pipeline.add_step(LLM_NIM("생성 모델"))                                                                     
pipeline.add_step(RewardModel_NIM("품질 평가"))                                                             
pipeline.add_step(CustomFilter("금융용어 필터"))                                                            
pipeline.run(iterations=5)

보상 모델(Reward) 와 LLM 모두 평가에 사용하는 이유:

보상 모델은 데이터의 객관적 측면, 표면적 측면을 검사함:
- 데이터의 정확도 (예: 의료 데이터의 경우에 코드가 정확한 일치를 하는지)
- 문법 오류
- 논리적 일관성
반면 LLM 은 주관적 측면 데이터의 내재적인 측면을 검사함:
- 예: 창의성, 의료 도메인에서 암 진단 보고서의 경우에 환자에게 전달 가능한 수준의 명확성이 있는지
보상 모델은 학습된 작은 모델로 보다 빠르게 평가가 가능해서 1차 필터링 역할을 할거임.
실제 적용 사례 - 금융 리포터:
- 보상 모델은 금융 용어 정확성, 규정 준수 등을 이용해 평가한다면 LLM 은 리포트의 논리적 흐름과 투자자에게 전달 가능한 명확성으로 평가할거임.

저작자표시 비영리

'Generative AI > Data' 카테고리의 다른 글

파인튜닝을 위한 데이터 합성 방법 정리 (0)	2025.02.04
NVIDIA: Curating Trillion-Token Datasets: Introducing NVIDIA NeMo Data Curator (0)	2025.01.26
What Makes Good Data For Alignment? A Comprehensive Study of Automatic Data Selection In Instruction Tuning (0)	2025.01.25
Alpagasus: Traning A better Alpaca with Fewer Data (0)	2025.01.23
Code Less, Align More: Efficient LLM Fine-tuning for Code Generationwith Data Pruning (0)	2025.01.21

여정민의 블로그

NVIDIA: Synthetic Data Generation

'Generative AI > Data' 카테고리의 다른 글

+ Recent posts

티스토리툴바