ADP(데이터분석 전문가)/스터디노트

[2과목] ETL 개요

bonanza 2021. 2. 1. 21:36

1. ETL의 개념 및 특징

  • ETL(Extraciton, Transformation and Load)은 데이터의 이동 및 변환 절차와 관련된 업계 표준 용어이다.
  • 다양한 데이터 원천으로부터 데이터를 추출 및 변환하여 운영 데이터 스토어(ODS, Operation Data Store), 데이터 웨어하우스(DW, Data Warehouse), 데이터 마트(DM, Data Mart)등에 데이터를 적재하는 작업의 핵심 구성요소이다.
  • MPP(Massive Parallel Processing)을 지원

 

2. ETL의 작업 단계

3. ODS 구성단계

Layered ODC Architecture(계층화된 ODS 아키텍처)

 

  • 인터페이스 단계: 다양한 데이터 원천(Source)으로 부터 데이터를 획득하는 단계
  • 스테이징 단계: 데이터 원천들로부터 트랜잭션 데이터들이 추출되어 하나 또는 그 이상의 스테이징 테이블들에 저장되는 단계
  • 프로파일링 단계: 범위, 도메인, 유일성 확보 등의 규칙을 기준으로 데이터 품질 점검을 하는 단계
  • 클렌징 단계: 데이터 프로파일링 단계에서 식별된 오류 데이터들을 수정하는 단계
  • 인티그레이션 단계: 수정 완료된 데이터를 ODS 내의 단일 통합 테이블에 적재하는 단계
  • 익스포트 단계: 익스포트 테이블을 생성하여 적재
반응형