본문 바로가기
데이터 분석 개념 정리

ADP 필기 1과목 요약

by 코드챌린지 2022. 1. 20.

데이터의 이해

1. 데이터

1) 정성적 데이터 : 언어, 문자 (예 : sns에 올린 글 등)

2) 정량적 데이터 : 수치, 도형, 기호 (예 : 나이, 몸무게, 온도 등)

 

2. 지식경영

1) 암묵지

  - 학습과 경험을 통해 개인에게 축적된 내면화된 지식

  - 개인에게 습득되어 있지만 겉으로 드러나지 않는 지식

  - 오랜 경험을 통해 개인에게 습득된 무형의 지식

  - 조직의 지식으로 공통화

  - 외부에 표출되어 다른 사람에게 공유되기 어려움

2) 형식지

  - 문서나 메뉴얼처럼 형상화된 지식

  - 언어, 기호, 숫자로 표출화된 지식

  - 개인의 지식으로 연결화

  - 전달과 공유가 용이하다.

 

3. DIKW

1) 데이터(Data)

  - 가공하기 전의 순수한 데이터

  - 객관적인 사실

2) 정보(Information)

  - 데이터를 가공, 상관관계간 이해를 통해 패턴을 인식하고 의미를 부여한 데이터

  - 데이터 간의 관계 및 현상의 분석

3) 지식(Knowledge)

  - 상호 연결된 패턴을 이해하여 이를 토대로 예측한 결과물

  - 데이터를 통해 도출된 다양한 정보를 구조화하여 유의미한 정보를 분류하고 개인적인 경험을 결합시켜 고유의 지식으로 내재화한 것

  - 적용

4) 지혜(wisdom)

  - 근본 원리에 대한 깊은 이해를 바탕으로 도출되는 창의적 아이디어

 

데이터베이스

- 데이터의 기지

- 대량의 데이터를 축적하는 기지

- 데이터를 받아들이고 저장, 공급하기 위하여 일정한 구조에 따라서 편성된 데이터의 집합

- 체계적으로 정렬된 데이터 집합

- 데이터량과 이용이 늘어나면서 데이터를 저장/관리/검색/이용할 수 있는 컴퓨터 기반의 데이터베이스로 진화

- 정보의 집합체

 

1. 데이터베이스의 특징

- 통합된 데이터 : 중복 x

- 저장된 데이터 : 저장매체에 저장

- 공용데이터 : 서로 다른 목적, 공동 데이터 이용

- 변화되는 데이터 : 계속 변화하면서도 항상 현재의 정확한 데이터 유지

 

2. 데이터베이스의 특성

- 정보의 축적 및 전달 : 기계가독성, 검색가능성, 원격조작성 = 원거리에서도 즉시 온라인으로 이용

- 정보 이용 : 이용자의 정보 요구에 따라 다양한 정보를 신속하게 획득, 원하는 정보를 정확하고 경제적으로 찾아낼 수 있다.

- 정보 관리 : 정보를 체계적으로 축적하고 새로운 내용 추가나 갱신이 용이하다.

- 정보기술 발전 : 정보처리, 검색/관리 소프트웨어, 하드웨어, 정보 전송을 위한 네트워크 기술 등의 발전을 견인할 수 있다.

- 경제/산업 : 다양한 정보를 필요에 따라 신속하게 제공/이용할 수 있는 인프라로서 특성을 가지고 있어 경제, 산업, 사회 활동의 효율성을 제고하고 국민의 편의를 증진하는 수단으로서 의미를 갖는다.

 

3. 데이터베이스 활용

1) OLTP(Online Transaction Processing)

  - 단순한 정보의 '수집'

  - 단순 자동화

  - 데이터베이스의 데이터를 수시로 갱신하는 프로세싱

  - 데이터 갱신 위주

2) OLAP(Online Analytical Processing)

  - 정보 위주의 분석 처리

  -  OLTP에서 처리된 트랜잭션 데이터를 분석해 제품의 판매 추이, 구매 성향 파악 등을 프로세싱

  - 데이터 조회 위주

  - 쉽고 빠르게 다차원적인 데이터에 접근하여 의사 결정에 활용할 수 있는 정보를 얻게 해준다.

3) CRM(Consumer Relationship Management)

  - 고객관계관리

  - 고객별 구매이력 데이터베이스를 분석하여 고객에 대한 이해를 돕고 이를 바탕으로 각종 마케팅 전략을 펼치는 것

4) SCM(Supply Chain Management)

  - 공급망 관리

  - 기업이 외부 공급업체 또는 제휴업체와 통합된 정보시스템으로 연계하여 시간과 비용을 최적화시키기 위한 것

5) ERP(Enterprise Resource Planning) : 전사적 자원관리, 경영자원을 하나의 통합 시스템으로 재구축

6) RTE(Real Time Enterprise)

  - 회사의 주요 경영정보를 통합관리하는 실시간 기업의 새로운 기업경영시스템

  - 회사 전 부문의 정보를 하나로 통합

7) BI(Business Intelligence)

  - 기업이 보유하고 있는 수많은 데이터를 정리하고 분석해 기업의 의사결정에 활용하는 프로세스

  - 질의(query), 보고(reporting), 온라인 분석처리(OLAP), 통계분석, 예측, 데이터마이닝 등의 결합

8) EAI(Enterprise Application Integration)

  - 기업 내 상호 연관된 모든 애플리케이션을 유기적으로 연동하여 필요한 정보를 중앙 집중적으로 통합, 관리, 사용할 수 있는 환경을 구현하는 것

  - 손쉬운 확장 : 새로운 애플리케이션 도입 시 어댑터(Adapter)만 필요

9) KMS(Knowledge Management System)

  - 기업 경영을 지식이라는 관점에서 새롭게 조명하는 접근방식

 

- 객체지향 DBMS : 멀티미디어 등 복잡한 데이터 구조를 관리하는 DBMS

- 데이터웨어하우스 : 방대한 조직내 분산된 데이터베이스 관리시스템을 통합, 운영 시간성을 가지는 비휘발성 데이터의 집합

- SQL : 데이터베이스와 통신을 위해 고안된 언어

 

2장. 데이터의 가치와 미래

빅데이터

- Mckinsey(2011) : 일반적인 데이터베이스 소프트웨어로 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터

- IDC(2011) : 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍처

- Mayer-Schonberger&Cukier(2013) : 대용량 데이터를 활용해 작은 용량에서는 얻을 수 없었던 새로운 통찰이나 가치를 추출해내는 일이다. 나아가 이를 활용해 시장, 기업 및 시민과 정부의 관계 등 많은 분야에 변화를 가져오는 일이다.

- 기존의 작은 데이터 처리 분석으로는 얻을 수 없었던 통찰과 가치를 창출하는 새로운 방식

- 3V : Volume(양), Variety(다양성), Velocity(속도)

 

1. 출현 배경

- 산업계 : 양질 전환 법칙, 고객 데이터 축적

- 학계 : 거대 데이터 활용 과학 확산

- 관련 기술 발전 : 디지털화, 저장 기술, 인터넷 보급, 모바일 혁명, 클라우드 컴퓨팅

 

2. 기능

- 산업혁명의 석탄과 철 : 생산성을 획기적으로 끌어올려 사회/경제/문화 생활 전반에 혁명적 변화를 가져올 것

- 21세기의 원유 : 산업 전반의 생산성을 한 단계 향상시키고 기존에 없던 새로운 범주의 산업을 만들어낼 것으로 전망된다.

- 렌즈 : 현미경이 생물학 발전에 미쳤던 영향만큼이나 데이터가 산업 전반에 영향을 미칠 것. Ngram Viewer

- 플랫폼 : 그 자체로 플랫폼 역할

 

3. 빅데이터가 만들어낸 변화

- 사전처리 → 사후처리

- 표본조사 → 전수조사

- 질 → 양

- 인과관계 → 상관관계

 

4. 위기요인과 통제 방안

- 사생활침해 → 동의에서 책임으로

- 책임 원칙 훼손 → 결과 기반 책임 원칙 고수

- 데이터 오용 → 알고리즘 접근 허용

 

5. 데이터 활용의 3요소

1) 데이터 : 모든것의 데이터화

  - 센서로부터 수집되는 데이터는 기존 비즈니스 모델 자체를 바꾸기도 한다.

  - 제조업에서 서비스업으로

2) 기술: 알고리즘, 인공지능

3) 인력 : 데이터사이언티스트, 알고리즈미스트

  - 데이터사이언티스트 : 빅데이터의 가치를 실현하기 위해 필요

  - 알고리즈미스트 : 데이터사이언티스트가 한 일로 인해 부당하게 피해가 발생하는 것을 막기 위해 필요

 

6. 빅데이터 활용 기본 테크닉

- 연관규칙 학습 : 상관관계

- 유형분석 : 분류

- 유전 알고리즘 : 최적화, 점진적으로 진화

- 기계학습 : 훈련 데이터로부터 학습한 알려진 특성을 활용해 '예측'

- 회귀분석 : 두 변인(독립변수~종속변수)의 관계 파악

- 감정분석

- 소셜네트워크(사회관계망) 분석 : 오피니언 리더(영향력 있는 사람)를 찾아낼 수 있다. 고객들 간 관계 파악​

 

3장. 가치 창조를 위한 데이터 사이언스와 전략 인사이트

1. 빅데이터 회의론의 원인

- 부정적 학습효과 : 과거의 고객관계관리(CRM) ~ 공포마케팅, 투자대비 효과 미흡

- 부적절한 성공사례 : 빅데이터가 필요없는 분석사례, 기존 CRM 분석 성과

 

2. 왜 싸이월드는 페이스북이 되지 못했나?

- 데이터 분석 기반 경영 문화의 부재

- 데이터 분석에 기초해 전략적 통찰을 얻고, 효과적인 의사결정을 내리고, 구체적인 성과를 만들어 내는 체계가 없었다.

- 싸이월드 : 직관에 근거해 의사결정. 중요한 의사결정이 데이터 분석에 기초하지 않음

- OLAP와 같은 분석 인프라를 갖추고 있었지만 직관을 토대로 내린 의사결정을 보조하는 수준에 그쳤다.

- 성공적인 인터넷 기업 : 데이터 분석과 함께 시작되고 분석이 내부 의사결정에 결정적 정보를 제공

 

3. 'Big'데이터

- 직관에 기초한 의사결정보다 데이터에 기초한 의사결정이 중요하다.

- 데이터의 양 대신 다양성에 초점. 새롭고 다양한 정보 원천의 활용

- 무작정 빅데이터를 찾는 것이 아닌, 비즈니스의 핵심에 대해 보다 객관적이고 종합적인 통찰을 줄 수 있는 데이터를 찾는 것이 중요하다.

- 전략과 비즈니스의 핵심 가치에 집중하고 이와 관련된 분석 평가지표를 개발하고 이를 통해 효과적으로 시장과 고객 변화에 대응할 수 있을 때 빅데이터 분석은 가치를 줄 수 있다.

 

 

데이터사이언스

1. 데이터사이언스

- 과학과 인문의 교차로

- 데이터로부터 의미있는 정보를 추출(분석)하고 효과적으로 구현하고 전달

- 정형/비정형의 다양한 데이터를 대상

- 총체적 접근법

- 전략적 통찰 ~ Soft Skill

 

2. 데이터 사이언티스트의 역량

- 강력한 호기심

- 인문학적 통찰에 근거한 합리적 추론

- Analytics(분석) & IT 전문성 & 비즈니스 컨설팅(커뮤니케이션, 프레젠테이션, 스토리텔링, 시각화 등)

- Hard Skill + Soft Skill

  1) Hard Skill

     - 빅데이터에 대한 이론적 지시 : 관련 기법에 대한 이해와 방법론 습득

     - 분석 기술에 대한 숙련 : 최적의 분석 설계 및 노하우 축적

  2) Soft Skill

     - 통찰력 있는 분석 : 창의적 사고, 호기심, 논리적 비판

     - 설득력 있는 전달 : 스토리텔링, 비주얼라이제이션

     - 다분야간 협력 : 커뮤니케이션

 

3. 인문학 열풍의 이유

1) 컨버전스 → 디버전스

  - 단순 세계화/표준화/이성화 → 복잡한 세계화/다양성/관계/연결성/창조성

2) 제품생산 → 서비스

  - 효용경제 → 체험경제

3) 생산 → 시장창조

  - 공급자 중심의 기술 경쟁 → 암묵적이고 함축적 지식인 무형 자산

  - 산출물 → 창조과정

 

4. 가치 패러다임의 변화

1) 1단계 : 디지털화(Digitalization)

  - 가치를 형상화, 표준화

  - 아날로그 세상을 어떻게 효과적으로 디지털화하는가

2) 2단계 : 연결(Connection)

  - 다양한 디지털 정보를 필요한 사람에게 연결해서 효과적이고 효율적으로 정보를 연결 및 제공

  - 디지털 정보와 대상들의 연결을 얼마나 효과적이고 효율적으로 제공해 주는가

3) 3단계 : 에이전시(Agency)

  - 개인과 기기, 사물에 이르는 방대한 정보를 하이퍼 연결을 통해 필요한 정보를 효과적으로 제공하고 관리할 수 있는 시대로 발전

  - 복잡한 연결을 얼마나 효과적이고 믿을 수 있게 관리해주는가

 

5. 한계

- 인간의 해석이 개입 → 사람에 따라 전혀 다른 해석과 결론.

- 모든 분석은 가정에 근거

 

 

< Data 관련 기술 >

1. 개인정보 비식별 기술

1) 데이터 마스킹

  - 데이터의 속성을 유치한 채, 새롭고 읽기 쉬운 데이터를 익명으로 생성. 데이터 변조

  - 개인의 사생활 침해 방지, 응답자의 비밀사항 보호하면서 통계자료의 유용성을 최대한 확보.

2) 가명처리

3) 총계처리

4) 데이터 값 삭제

5) 데이터 범주화

 

2. 무결성과 레이크

1) 데이터 무결성

  - 데이터베이스 내의 데이터에 대한 정확한 일관성, 유효성, 신뢰성을 보장하기 위해 데이터 변경/수정 시 여러가지 제한을 두어 데이터의 정확성을 보증

  - 개체 무결성, 참조 무결성, 범위 무결성

2) 데이터 레이크 : 수 많은 정보 속에서 의미 있는 내용을 찾기 위해 방식에 상관 없이 데이터를 저장

 

 

   

 

 

   

 

 

 

댓글