본문 바로가기
데이터 분석 개념 정리

ADP 2. 데이터 처리 기술 이해

by 코드챌린지 2022. 1. 21.

■ETL(Extraction, Transformation, Load)

 : 데이터 이름과 변환이 주목적, 다수 시스템들간 데이터 교환

 

운영데이터 분석을 위한 데이터 웨어하우스 구분

대용량 데이터 일괄작업을 통한 정형데이터 통합

ETL은 DW,ODS,DM에 대한 적재작업의 핵심요소!

 

데이터 통합, 이동, 변환, 마스터데이터 관리에 걸쳐 폭넓게 사용중

 

1. Extraction(추출) : 하나 or 그 이상의 데이터 원천들로부터 데이터 획득

2. Transformation(변형) : 데이터클렌징 / 형식변환 / 표준화

3. Loading(적재) : 완료된 데이터를 특정목표 시스템에 적재

 

  1. Interface : 다양한 이기종 dbms&스프레시트 등 데이터원천으로부터 데이터를 획득하기 위한 인터페이스 메커니즘 구현
  2. StagingETL : 수립된 일정에 따라 데이터원천으로부터 트랜잭션 데이터 획득 작업 수행 후, 획득된 데이터를 스테이징 테이블에 저장
  3. Profiling ETL : 스테이징테이블에서 데이터 특징을 식별하고 품질을 측정
  4. Cleasing ETL : 데이터 보정 작업
  5. Integration ETL : (이름, 값, 구조)데이터 충돌을 해소하고, 클렌징한 데이터를 통합
  6. De-normalizing ETL : 운영보고서 생성, 데이터웨어하우스 or 데이터마트 데이터 적재를 위해 데이터 비정규화 수행

  • ODS

: 다양한 데이터 원천(Source)들로부터 데이터를 추출, 통합한 데이터 베이스

ODS내의 데이터는, 타정보시스템으로 이관 or 데이터웨어하우스로 이관

ODS는 데이터무결성 점검 등의 작업이 포함되며, 

실시간/실시간근접트랜잭션/가격 등 개별성을 지닌 하위 수준 데이터들을 저장하기 위해 설계된다

 

■ETL vs ODS

ETL은 다양한 DBMS로부터 데이터획득이 목적이였다면,

ODS는 통합된 데이터를 익스포트 규칙과 보안규칙을 반영한 익스포트 DTL기능을 수행해 

익스포트 테이블을 생성한 후, 다양한 전용 DBMS클라이언트 or DM, DW에 적재

 

 

 

■데이터웨어하우스 

ODS를 통해 정제&통합된 데이터는 데이터분석과 보고서 생성을 위해 데이터웨어하우스에 적재

 

★※특징

 

1. 주제중심

2. 영속성 : 읽기전용 속성, 삭제X

3. 통합성 : 데이터를 통합본

4. 시계열성 : 시간순에 의한 이력데이터 보유

 

  • CDC (Change Data Capture)

 : 운영정보시스템 내 정형데이터 변경을 실시간/근접실시간 식별하여 

  데이터전송 등의 필요한 후속처리를 자동화하는 기법

 : 테이블의 데이터 변경을 알 고 싶을때, 데이터의 일관성이 보장되어야 하는 데이터의 경우에 사용

 

-방식

 1. push방식 - 데이터원천에서 변경식별, 대상시스템에 변경데이터 적재

 2. pull방식 - 대상시스템에서 데이터원천을 정시적으로 살펴보아, 필요시 데이터 다운로드 

 

-구현기법

1. 변경시점기록(TimeStamp On Rows)

2. 버전 

3. 컬럼상태값

4. 변경시점 + 버전 + 컬럼상태값

5. 데이터베이스 트리거(사전에 등록된 다수대상 시스템에 변경데이터 배포)

6. 어플리케이션 구현

7. Log Scanner On DB (DBMS제공기능 이용) 

 

 

  • 데이터웨어하우스를 위한 데이터 모델링 기법

1. 스타스키마

- 사실테이블 : 3정규형으로 모델링

- 차원테이블 : 비정규화된 2정규형으로 모델링

장) 복잡도↓ 이해↑ 쿼리작성 쉬움, 조인테이블 갯수↓

단) 차원테이블들의 비정규화에 따른 테이블중복으로, 데이터적재 시 시간소요↑

 

2. 스노우플레이크 스키마

 - 차원테이블 : 3정규화

장) 데이터중복제거로 적재시간소요↓

단) 복잡도↑ 이해↓, 스키마구조 복잡으로 조인테이블갯수↑ 쿼리작성 어려움

 

  • 인터페이스 단계 프로토콜

 - 정기적인 ETL : OLEDB, ODBC, FTP

 - 실시간 데이터 획득방식 : 실시간, 근접실시간, OLAP

댓글