데이터의 이해 요약
2장. 데이터의 가치와 미래
- 빅데이터
- Mckinsey(2011) : 일반적인 데이터베이스 소프트웨어로 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터
- IDC(2011) : 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍처
- Mayer-Schonberger&Cukier(2013) : 대용량 데이터를 활용해 작은 용량에서는 얻을 수 없었던 새로운 통찰이나 가치를 추출해내는 일이다. 나아가 이를 활용해 시장, 기업 및 시민과 정부의 관계 등 많은 분야에 변화를 가져오는 일이다.
- 기존의 작은 데이터 처리 분석으로는 얻을 수 없었던 통찰과 가치를 창출하는 새로운 방식
- 3V : Volume(양), Variety(다양성), Velocity(속도)
- 출현 배경
- 산업계 : 양질 전환 법칙, 고객 데이터 축적
- 학계 : 거대 데이터 활용 과학 확산
- 관련 기술 발전 : 디지털화, 저장 기술, 인터넷 보급, 모바일 혁명, 클라우드 컴퓨팅
- 기능
- 산업혁명의 석탄과 철 : 생산성을 획기적으로 끌어올려 사회/경제/문화 생활 전반에 혁명적 변화를 가져올 것
- 21세기의 원유 : 산업 전반의 생산성을 한 단계 향상시키고 기존에 없던 새로운 범주의 산업을 만들어낼 것으로 전망된다.
- 렌즈 : 현미경이 생물학 발전에 미쳤던 영향만큼이나 데이터가 산업 전반에 영향을 미칠 것. Ngram Viewer
- 플랫폼 : 그 자체로 플랫폼 역할
- 빅데이터가 만들어낸 변화
- 사전처리 → 사후처리
- 표본조사 → 전수조사
- 질 → 양
- 인과관계 → 상관관계
- 위기요인과 통제 방안
- 사생활침해 → 동의에서 책임으로
- 책임 원칙 훼손 → 결과 기반 책임 원칙 고수
- 데이터 오용 → 알고리즘 접근 허용
- 데이터 활용의 3요소
1) 데이터 : 모든것의 데이터화
- 센서로부터 수집되는 데이터는 기존 비즈니스 모델 자체를 바꾸기도 한다.
- 제조업에서 서비스업으로
2) 기술: 알고리즘, 인공지능
3) 인력 : 데이터사이언티스트, 알고리즈미스트
- 데이터사이언티스트 : 빅데이터의 가치를 실현하기 위해 필요
- 알고리즈미스트 : 데이터사이언티스트가 한 일로 인해 부당하게 피해가 발생하는 것을 막기 위해 필요
빅데이터 이해
- 빅데이터 활용 기본 테크닉
- 연관규칙 학습 : 상관관계
- 유형분석 : 분류
- 유전 알고리즘 : 최적화, 점진적으로 진화
- 기계학습 : 훈련 데이터로부터 학습한 알려진 특성을 활용해 '예측'
- 회귀분석 : 두 변인(독립변수~종속변수)의 관계 파악
- 감정분석
- 소셜네트워크(사회관계망) 분석 : 오피니언 리더(영향력 있는 사람)를 찾아낼 수 있다. 고객들 간 관계 파악
- 빅데이터의 이해
① 데이터 변화 에 따른 좁은 관점의 정의 ( 3V , 가트너)
Volumn (규모) : 데이터의 규모 측면, 예) 센싱데이터, 비정형 데이터
Variety (형태) : 데이터의 유형과 소스 측면, 예) 정형, 비정형 데이터 (영상, 사진)
Velocity (속도) : 데이터의 수집과 처리 측면, 예) 원하는 데이터의 추출 및 분석 속도
② 처리, 분석과 같은 기술적 변화 를 포함하는 중간 관점의 정의
데이터 처리, 저장, 분석 기술 및 아키텍처
클라우드 컴퓨팅 활용
③ 인재, 조직 변화 까지 포함하는 넓은 관점의 정의
Data Scientist 같은 새로운 인재 필요
- 데이터 중심 조직
※ 변화에 따른 효과
기존 방식으로는 얻을 수 없는 통찰 및 가치 창출
사업방식, 시장, 사회, 정부 등에서 변화와 혁신 주도
- 출현 배경과 변화
- 산업계 : 고객 데이터 축적 - 고객 데이터를 추적하여, 데이터에 숨어 있는 가치를 발굴해 새로운 성장동력원로서의 기술 확보
- 학계 : 거대 데이터 활용, 과학 확산 - 거대 데이터를 다루는 학문 분야가 늘어나면서 필요한 기술 아키텍처 및 통계 도구들이 발전
- 기술발전 : 관련 기술의 발달 - 디지털화, 저장 기술의 발달, 인터넷 보급, 모바일 혁명, 클라우드 컴퓨팅
- ICT의 발전
- 데이터 규모 : EB(Exa Byte) - ZB(Zetta Byte) 진입 - ZB 본격화 시대
데이터 유형 : 정형 데이터(데이터베이스, 사무정보) - 비정형 데이터(이메일, 멀티미디어, SNS) - 사물정보, 인지정보(RFID, Sensor, 사물통신)
데이터 특성 : 구조화 - 다양성, 복합성, 소셜 - 현실성, 실시간성
- 빅데이터의 기능 (비유)
산업혁명의 석탄, 철 : 제조업 뿐 아니라 서비스 분야의 생산성을 획기적으로 끌어올려, 사회/경제/문화/생활 전반에 혁명적 변화를 가져올 것으로 기대됨
21세기의 원유 : 경제 성장에 필요한 정보를 제공함으로써 산업 전반의 생산성을 한 단계 향상 시키고, 기존에 없던 새로운 범주의 산업을 만들어낼 것으로 전망됨
렌즈 : 렌즈를 통해 현미경이 생물학 발전에 미쳤던 영향만큼이나 데이터가 산업 발전에 영향을 미칠 것으로 기대됨 (Ngram Viewer)
플랫폼 : '공동 활용의 목적으로 구축된 유무형의 구조물'로써의 다양한 서드파트 비즈니스에 활용되면서 플랫폼 역할을 할 것으로 전망됨 (카카오톡, 페이스북)
- 빅데이터로 인한 본질적인 변화
사전처리 사후처리 - 필요한 정보만 수집하고 필요하지 않은 정보를 버리는 시스템에서 가능한 한 많은 데이터를 모으고 그 데이터를 다양한 방식으로 조합해 숨은 정보를 찾아냄
표본조사 전수조사 - 데이터 수집 비용의 감소와 클라우드 컴퓨팅 기술의 발전으로 데이터 처리비용이 감소하게 됨 - 이로 인해 표본을 조사하는 기존의 지식 발견 방식에서 전수 조사를 통하여 샘플링이 주지 못한 패턴이나 정보를 발견할 수 있게 됨으로써 데이터 활용 방법이 변화됨
질 양 - "데이터가 지속적으로 추가될 경우 양질의 정보가 오류 정보보다 많아 전체적으로 좋은 결과 산출에 긍정적인 영향을 미친다는 추론"에 바탕을 둔 변화가 나타남
인과관계 상관관계 - 상관관계를 통해 특정 현상의 발생 가능성이 포착되고, 이에 상응하는 행동을 하도록 추천되는 일이 점점 늘어나고 있음 - 데이터의 기반의 상관관계 분석이 주는 인사이트가 인과관계에 의해 미래 예측을 점점 더 압도해 가는 시대가 도래하게 될 것을 전망
'데이터 분석 개념 정리' 카테고리의 다른 글
ADP 필기 2. 데이터 처리 기술 이해 2 (0) | 2022.01.21 |
---|---|
ADP 2. 데이터 처리 기술 이해 (0) | 2022.01.21 |
ADP 필기 1과목 요약 (0) | 2022.01.20 |
ADP 필기 - 데이터의 이해 3 (0) | 2022.01.20 |
ADP필기 1. 데이터의 이해 요약 1 (0) | 2022.01.19 |
댓글