Data Engineering

데이터 파이프라인 핵심 가이드

youngerjesus 2025. 6. 18. 22:24

질문 위주로 정리


(1) 데이터 파이프라인 설계에 주는 고려사항 5가지(Hint: 소스 시스템, 증분, 데이터 유효성, 사이즈, 소유권)

 

(2) When) 데이터를 가져오기 위해 파이프라인 구축보다는 CDC 를 소스 시스템에 붙혀서 당겨오는 경우는 언제가 적합?

 

(3) ETL(Schema on Write) vs ELT(Schema on Read) 의 차이

 

(4) when) Schema-on Read 는 언제 쓰는게 좋음?

 

(5) 데이터 웨어하우스 행기반 vs 열기반

 

(6) EtLT 기법이란?

 

(7) 데이터배이스에서 증분 추출하는 대표적인 쿼리 예시.

 

(8) 증분 처리에서 문제점 2가지 (Hint: DELETE, update 를 잊는 것)

 

(9) 캐시를 통해 증분 처리를 빠르게 하는 법은?

 

(10) 증분 처리 말고 전체 데이터 처리를 하는 방법 쿼리 예시(Hint: truncate, insert or rename)

 

(11) 이진 로그(Mysql Binlog 기준) 으로 데이터를 수집할 때 해야하는 작업사항(Hint: 파일 형식, 활성화 유무, 오픈소스 도구, 이벤트, 파일 위치, dump)

 

(12) 데이터배이스에서 데이터를 가져올 땐 기본 3가지

 

(13) API 에서 데이터를 가져올 때 Paging -> File Writing -> DW 에 Load 하는 방식의 이유는?

 

(14) When) 데이터를 보관할 때 각 상태에따라 여러개의 데이터를 보관하는 경우(예: 같은 orderId 지만 업데이트 될때마다 레코드를 추가하는 경우) 는 언제? (증분 처리에서 이 방법을 구현할 수 있음)

 

(15) 데이터 변환 - 비문맥적 변환은 머고, 어느 경우에 해야하는가? 그리고 어떻게 해야하는가?

 

(16) 데이터 검증은 왜 하고, 대원칙이 무엇?

 

(17) 파이프라인 유지 관리 모범사례 3가지

 

(18) 데이터 카탈로그와 데이터 거버넌스란

 

(19) 중요 파이프라인 지표란?