본문 바로가기
데이터 분석 개념 정리

ADP 필기 2. 데이터 처리 기술 이해 2

by 코드챌린지 2022. 1. 21.

EAI (Enterprise Application Integration)

 : 기업 또는 기업간 이질적 정보시스템들의 데이터를 연계함으로써 상호융화 내지 동기화

(기대효과

 : 본사와 공장이 별도의 정보시스템을 보유한 상태에서, 글로벌하게 지역적으로 분리돼 있고

  해당 정보 시스템들 간 데이터동기화가 필요한 경우나 

 그룹&지주회사 계열사들간 상호관련 데이터 동기화가 필요한 경우 

 

(연계방식)

1. Point to Point (ETL / CDC 방식

      - 필요에 따라 정보시스템들간 데이터 연계로 복잡성 발생 /표준화 불가능 / 유지보수성 저하

2. 허브앤스포크 아키텍처 

 

데이터 연계&통합유형(동기화 기준)

 - 일괄(배치)작업

- 비동기식 실시간 통합

 - 동기식 실시간 통합(데이터 동기화 시점을 기준)



대용량 비정형 데이터 처리

1. 고용량 로그데이터(비정형) 수집  ex.플럼(오픈소스데이터 수집시스템)

1) 초고속 수집 성능과 확장성

 2) 데이터 전송 보장 메커니증

 3) 다양한 수집과 저장 플러그인

 4) 인터페이스 상속을 통한 어플리케이션 기능 확장

 

2. 대규모 분산 병렬 처리 ex)맵리듀스(분산병렬처리), HDFS(분산파일시스템)

 1) 선형적인 성능과 용량 확장

 2) 고장 감내성

 3) 핵심 비즈니스 로직에 집중

 4) 풍부한 에코 시스템 형성

 

3. 데이터 연동(비/정형 데이터간 연계 분석, 데이터를 하둡에 복사, 병렬처리) ex) 스쿱

4. 대용량 질의 기술 ex) 하이브, 임팔라, SQL on 하둡..

 

전통적 데이터 처리기법

분산데이터 저장기술

 (분류기준 : 저장데이터 정형와여부와 데이터 모델)</span></p><!-- } 

 

  • 분산파일시스템

GFS

하둡DFS : 네임노드, 데이터노드로 구성

러스터 : 메타데이터서버, 객체저장서버, 클라이언트, 파일시스템

 

  • 클러스터 데이터 베이스

OracleRAC : 공유(4노드 RAC구성모델)(가용성/확장성/비용절감)  OracleRAC데이터베이스 서버는 클러스터의 모든 노드에서 실행되며, 데이터는 공유 스토리지에 저장

데이터 파티셔닝 할 필요X, 성능향상 위해 파티셔닝됨.

RAC는 클러스터의 모든 노드에 로드를 고르게 분산

 

IBM DB2 ICE

무공유(CPU 메모리 디스크를 파티션별로 독립적 운영)

에플리케이션은 여러 파티션에 분산된 데이터베이스를 하나의 데이터베이스로 보게됨. 

 

마이크로소프트 SOL Server

무공유, 독립된 서버에서 실행되는 서로 다른 DB간 논리적 결합이며, 네트워크로 연결

각 노드의 데이터베이스 인스턴스 사이에 링크 구성 후, 모든 파티션에 대해 UNION ALL을 이용해 논리적인 VIEW구성

(단)파티셔닝 정책에 맞게 테이블과 뷰 생성, 모든 노드 엑세스

 

MySQL

무공유

메모리 기반 데이터베이스, 클러스터링 지원



  • Key-Value저장소

구글빅테이블

multi-dimension sorted hash map을 파티션하여 분산 저장하는 저장소. 

테이블의 파티션은 row-key를 이용하며, 분리된 파티션은 분산된 노드에서 서비스. 분리된 파티션을 

이라고 함.

 

아마존SimpleDB

데이터 실시간 처리, 표준SQL이 아닌 전용쿼리언어

Domain, Item, Attribute(컬럼), Value로 구성, 스키마 없음

 

MS SSDS

컨테이너(테이블), 엔티티(레코드)로 구성

ex. 고객별로 컨테이너(테이블)존재

 


#무공유 : 데이터파일을 자신 로컬디스크에 저장(노드간 공유x) 

장) 노드확장제한X

단) 노드장애발생 시, 별도 포트톨러린스 구성

 

#공유: 데이터파일을 논리적으로 모든데이터베이스 인스턴스 노드들과 공유

장) 장애대비

단) 디스크 영역 병목현상

 

#NoSQL

key와 Value형태로 자료저장, 빠르게 조회, 확장성 지원


분산컴퓨팅 기술

맵리듀스(구글)→하둡(야후, 픈소스)→SQLon하둡(실시간)

 

- mapreduce : 구글맵리듀스, 하둡맵리듀스

- 병렬쿼리시스템 : 구글Sazwall, 아파치pig, 아파치Hive

- SQL on hadoop : 임팔라

댓글