본문 바로가기
데이터 분석 개념 정리

ADP필기 1. 데이터의 이해 요약 2

by 코드챌린지 2022. 1. 19.

 

데이터의 이해 요약

2장. 데이터의치와 미래

  • 빅데이터

- Mckinsey(2011) : 일반적인 데이터베이스 소프트웨어로 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터

- IDC(2011) : 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍처

- Mayer-Schonberger&Cukier(2013) : 대용량 데이터를 활용해 작은 용량에서는 얻을 수 없었던 새로운 통찰이나 가치를 추출해내는 일이다. 나아가 이를 활용해 시장, 기업 및 시민과 정부의 관계 등 많은 분야에 변화를 가져오는 일이다.

- 기존의 작은 데이터 처리 분석으로는 얻을 수 없었던 통찰과 가치를 창출하는 새로운 방식

- 3V : Volume(양), Variety(다양성), Velocity(속도)

 

 

 

  • 출현 배경

- 산업계 : 양질 전환 법칙, 고객 데이터 축적

- 학계 : 거대 데이터 활용 과학 확산

- 관련 기술 발전 : 디지털화, 저장 기술, 인터넷 보급, 모바일 혁명, 클라우드 컴퓨팅

 

 

  • 기능

- 산업혁명의 석탄과 철 : 생산성을 획기적으로 끌어올려 사회/경제/문화 생활 전반에 혁명적 변화를 가져올 것

- 21세기의 원유 : 산업 전반의 생산성을 한 단계 향상시키고 기존에 없던 새로운 범주의 산업을 만들어낼 것으로 전망된다.

- 렌즈 : 현미경이 생물학 발전에 미쳤던 영향만큼이나 데이터가 산업 전반에 영향을 미칠 것. Ngram Viewer

- 플랫폼 : 그 자체로 플랫폼 역할

 

 

  • 빅데이터가 만들어낸 변화

- 사전처리 → 사후처리

- 표본조사 → 전수조사

- 질 → 양

- 인과관계 → 상관관계

 

 

  • 위기요인과 통제 방안

- 사생활침해 → 동의에서 책임으로

- 책임 원칙 훼손 → 결과 기반 책임 원칙 고수

- 데이터 오용 → 알고리즘 접근 허용

 

  •  데이터 활용의 3요소

1) 데이터 : 모든것의 데이터화

  - 센서로부터 수집되는 데이터는 기존 비즈니스 모델 자체를 바꾸기도 한다.

  - 제조업에서 서비스업으로

2) 기술: 알고리즘, 인공지능

3) 인력 : 데이터사이언티스트, 알고리즈미스트

  - 데이터사이언티스트 : 빅데이터의 가치를 실현하기 위해 필요

  - 알고리즈미스트 : 데이터사이언티스트가 한 일로 인해 부당하게 피해가 발생하는 것을 막기 위해 필요

 

 

빅데이터 이해

  • 빅데이터 활용 기본 테크닉

- 연관규칙 학습 : 상관관계

- 유형분석 : 분류

- 유전 알고리즘 : 최적화, 점진적으로 진화

- 기계학습 : 훈련 데이터로부터 학습한 알려진 특성을 활용해 '예측'

- 회귀분석 : 두 변인(독립변수~종속변수)의 관계 파악

- 감정분석

- 소셜네트워크(사회관계망) 분석 : 오피니언 리더(영향력 있는 사람)를 찾아낼 수 있다. 고객들 간 관계 파악​

 

 

  •  빅데이터의 이해 

 ①  데이터 변화 에 따른 좁은 관점의 정의 ( 3V , 가트너) 

  Volumn  (규모) : 데이터의 규모 측면, 예) 센싱데이터, 비정형 데이터 

  Variety  (형태) : 데이터의 유형과 소스 측면, 예) 정형, 비정형 데이터 (영상, 사진) 

  Velocity  (속도) : 데이터의 수집과 처리 측면, 예) 원하는 데이터의 추출 및 분석 속도 

 

 ② 처리, 분석과 같은  기술적 변화 를 포함하는 중간 관점의 정의 

  데이터 처리, 저장, 분석 기술 및 아키텍처 

  클라우드 컴퓨팅 활용 

 

  ③  인재, 조직 변화 까지 포함하는 넓은 관점의 정의 

  Data Scientist 같은 새로운 인재 필요 

 

 

  •  데이터 중심 조직 

  ※ 변화에 따른 효과 

 기존 방식으로는 얻을 수 없는 통찰 및 가치 창출 

 사업방식, 시장, 사회, 정부 등에서 변화와 혁신 주도 

 

 

  •  출현 배경과 변화 

 - 산업계 : 고객 데이터 축적  - 고객 데이터를 추적하여, 데이터에 숨어 있는 가치를 발굴해 새로운 성장동력원로서의 기술 확보 

 - 학계 : 거대 데이터 활용, 과학 확산  - 거대 데이터를 다루는 학문 분야가 늘어나면서 필요한 기술 아키텍처 및 통계 도구들이 발전 

 -  기술발전 : 관련 기술의 발달  - 디지털화, 저장 기술의 발달, 인터넷 보급, 모바일 혁명, 클라우드 컴퓨팅 

 - ICT의 발전 

 

 

  •  데이터 규모 : EB(Exa Byte) - ZB(Zetta Byte) 진입 - ZB 본격화 시대 

  데이터 유형 : 정형 데이터(데이터베이스, 사무정보) - 비정형 데이터(이메일, 멀티미디어, SNS) - 사물정보, 인지정보(RFID, Sensor, 사물통신) 

 데이터 특성 : 구조화 - 다양성, 복합성, 소셜 - 현실성, 실시간성 

 

 

 

  •  빅데이터의 기능 (비유) 

   산업혁명의 석탄, 철  : 제조업 뿐 아니라 서비스 분야의 생산성을 획기적으로 끌어올려, 사회/경제/문화/생활 전반에 혁명적 변화를 가져올 것으로 기대됨 

  21세기의 원유  : 경제 성장에 필요한 정보를 제공함으로써 산업 전반의 생산성을 한 단계 향상 시키고, 기존에 없던 새로운 범주의 산업을 만들어낼 것으로 전망됨 

 

  렌즈  : 렌즈를 통해 현미경이 생물학 발전에 미쳤던 영향만큼이나 데이터가 산업 발전에 영향을 미칠 것으로 기대됨 (Ngram Viewer) 

 

  플랫폼  : '공동 활용의 목적으로 구축된 유무형의 구조물'로써의 다양한 서드파트 비즈니스에 활용되면서 플랫폼 역할을 할 것으로 전망됨 (카카오톡, 페이스북) 

 

 

  •  빅데이터로 인한 본질적인 변화 

  사전처리 사후처리 - 필요한 정보만 수집하고 필요하지 않은 정보를 버리는 시스템에서 가능한 한 많은 데이터를 모으고 그 데이터를 다양한 방식으로 조합해 숨은 정보를 찾아냄 

 

 

  표본조사  전수조사  - 데이터 수집 비용의 감소와 클라우드 컴퓨팅 기술의 발전으로 데이터 처리비용이 감소하게 됨 - 이로 인해 표본을 조사하는 기존의 지식 발견 방식에서 전수 조사를 통하여 샘플링이 주지 못한 패턴이나 정보를 발견할 수 있게 됨으로써 데이터 활용 방법이 변화됨 

 

 

  질 양 - "데이터가 지속적으로 추가될 경우 양질의 정보가 오류 정보보다 많아 전체적으로 좋은 결과 산출에 긍정적인 영향을 미친다는 추론"에 바탕을 둔 변화가 나타남 

 

 

  인과관계 상관관계 - 상관관계를 통해 특정 현상의 발생 가능성이 포착되고, 이에 상응하는 행동을 하도록 추천되는 일이 점점 늘어나고 있음 - 데이터의 기반의 상관관계 분석이 주는 인사이트가 인과관계에 의해 미래 예측을 점점 더 압도해 가는 시대가 도래하게 될 것을 전망 

 

댓글