End-to-End Process
- Objective Setting
- Data Curation
- Data Inspection
- Data Preparation
- Data Analysis
- Evaluation
- Deployment
이 순서는 꼭 순차적일 필요는 없다.
Objective Setting (목표 설정)
빅 데이터는 비즈니스 문제를 해결하는 해답과 인사이트를 제공할 수 있다. 하지만 빅 데이터는 제한적인 역할을 가지고 있다. 종종 비즈니스 관리, 투자 등이 문제를 해결하는 데에 필요할 수도 있다.
Data Curation
Data Curation이란?
- 비즈니스 목표와 제일 부합하는 데이터를 결정
- 데이터를 수집
- 데이터 저장
- 가장 중요하고 어렵고 잠재적으로 시간이 오래 걸리는 단계
Data Curation의 어려움
- 데이터와 비즈니스 요구와의 관계를 이해하기 힘들다.
- 데이터 퀄리티가 좋아야 한다.
- 데이터의 양이 충분해야 한다.
대형 데이터 벤더
데이터 과학과 빅데이터 분석에 있어서, 고도로 특화된 데이터를 필요로 할 때 대형 데이터 벤더들이 중요한 역할을 합니다
- Acxiom
- 데이터 유형: 소비자 마케팅 데이터, 인구 통계학적 데이터, 주택 정보, 자동차 정보, 경제 데이터, 구매 데이터, 관심사 및 활동 분야 데이터
- Datalogix
- 데이터 유형: 포장된 소비자 상품에 대한 판매 데이터, 식음료, 의류 및 신발, 담배, 청소 제품, 반려동물 관리 품목, 화장품 등 다양한 카테고리의 소비 제품 데이터
- DataSift GNIP
- 데이터 유형: 소셜 미디어 활동 데이터, 주제별 언급 빈도, 발언자 정보 및 발언 내용. 데이터 소스로는 Twitter, Facebook, YouTube 등이 포함됨
이 외에도 Nielsen, CoreLogic, Equifax, Experian, TransUnion 등의 벤더들은 TV, 라디오, 모바일, 온라인 소셜 미디어의 청중 데이터, 부동산 및 금융 데이터, 신용 보고 데이터 등을 제공합니다.
Data Inspection
데이터 검사는 데이터 과학 프로세스의 중요한 단계로, 수집한 데이터의 특성과 품질을 평가하고 분석 목적에 적합한지 확인하는 과정입니다. 이 단계는 크게 두 가지 주요 작업으로 구분됩니다.
데이터 탐색 (Data Exploration)
- 중심 경향성과 분산 체크: 데이터의 평균, 중앙값, 범위, 분산, 표준편차 등을 확인합니다.
- 데이터 분포 확인: 데이터의 분포를 검토하여, 정규 분포, 왜곡 분포 등 데이터의 형태를 파악합니다.
- 이상치 확인: 데이터 중에서 표준 범위를 벗어나는 값들을 식별하여, 분석 결과에 영향을 줄 수 있는 잠재적 이상치를 찾아냅니다.
- 속성 간 상관 관계 확인: 데이터 내 변수들 사이의 상관 관계를 검토하여, 변수들 간의 관계를 이해합니다.
- 통계와 데이터 시각화 도구를 사용합니다.
적합성 검사 (Suitability Check)
- 비즈니스 목적 적합성 확인: 수집한 데이터가 비즈니스 목표와 분석 목적에 부합하는지 확인합니다. 이는 비즈니스 도메인 전문가의 평가가 필요할 수 있습니다.
- 메타데이터 활용: 데이터 사전(메타데이터)와 시각화 도구를 활용하여 데이터의 속성, 관계, 유형 등을 검토합니다. 이를 통해 데이터 분석에 필요한 주요 특성이 누락되지 않았는지, 불필요한 데이터가 포함되지 않았는지 등을 평가합니다.
메타데이터 (Metadata)
메타데이터는 ‘데이터에 대한 데이터’로 정의될 수 있으며, 데이터 자체의 구조, 의미, 속성, 그리고 데이터 관리 방법에 대한 정보를 제공합니다. 메타데이터는 크게 세 가지 유형으로 구분됩니다.
- 기술 메타데이터 (Technical Metadata)
- 설명: 데이터베이스, 테이블, 열, 데이터 유형, 인덱스, 제약 조건 등 데이터 구조에 대한 상세 정보를 포함합니다. 이는 데이터베이스 설계자, 개발자, 데이터 과학자들이 데이터를 효과적으로 관리하고 사용하기 위해 필요한 기술적 세부사항을 담고 있습니다.
- 예시: 엔티티, 속성, 관계, 데이터 유형, 인덱스, 접근 권한 등
- 비즈니스 메타데이터 (Business Metadata)
- 설명: 데이터의 비즈니스 측면에 초점을 맞추며, 비즈니스 용어, 데이터 소유자, 데이터에 대한 설명, 데이터의 사용법 등을 포함합니다. 이는 비즈니스 사용자가 데이터를 이해하고, 의사 결정 과정에서 데이터를 적절히 활용할 수 있도록 돕습니다.
- 예시: 데이터의 비즈니스 용어 설명, 소스 정보, 데이터 책임자 정보 등
- 프로세스 메타데이터 (Process Metadata)
- 설명: 데이터 처리 과정에서 생성되는 메타데이터로, 데이터 처리 작업의 이력, 성능 지표, 데이터 품질 정보 등을 포함합니다. 데이터의 변화, 처리 과정, 데이터 품질을 추적하고 관리하는 데 중요합니다.
- 예시: 작업 시작/종료 시간, 디스크 읽기 횟수, CPU 시간, 처리된 레코드 수 등
RDB 시스템 카탈로그 (RDB System Catalog)
RDB(관계형 데이터베이스) 시스템 카탈로그는 데이터베이스 내의 모든 스키마 객체에 대한 정보를 포함하는 메타데이터의 집합입니다. 이 시스템 카탈로그는 데이터베이스의 구조와 관리에 필요한 중요한 정보를 제공하며, 데이터베이스 관리 시스템(DBMS)이 데이터의 조직, 접근, 유지 관리를 효율적으로 수행할 수 있도록 지원합니다.