강의 개요
이 강의는 “Big data End-to-End Process”에 대한 것이다. 그래서 “데이터 과학”보다 좀 더 넓은 범위를 살펴볼 것이다.
- Overview of Data Science
- Big Data End-to-End Process
- Big Data Preprocessing
- Learning Models
- Model Evaluation
용어
Big data
- 빅 데이터(Big Data)의 의미는 대규모의 다양한 형태의 데이터 세트를 분석, 처리, 관리하기 위한 기술과 방법론을 포함하는 개념입니다.
- 빅 데이터의 목적은 단순히 대량의 데이터를 저장하고 관리하는 것을 넘어서, 이 데이터로부터 유용한 정보와 인사이트를 추출하여 의사 결정을 지원하고, 새로운 가치를 창출하는 데 있습니다. 이를 위해 데이터 마이닝, 머신러닝, 통계 분석과 같은 다양한 분석 기술이 활용됩니다.
Data Mining
- 데이터 마이닝(Data Mining)은 대규모 데이터 집합에서 유용한 패턴, 상관 관계, 추세 등을 찾아내기 위한 과정입니다. 이는 통계학, 기계 학습, 인공 지능 등의 방법론을 활용하여 데이터 내 숨겨진 정보를 발견하고, 이를 통해 예측 모델을 생성하거나 의사 결정을 지원하는 데 사용됩니다.
Machine Learning
- 머신 러닝(Machine Learning)은 컴퓨터가 데이터로부터 학습하고, 그 학습을 바탕으로 예측이나 결정을 할 수 있도록 하는 인공 지능(AI)의 한 분야입니다. 기본적으로, 머신 러닝은 명시적인 프로그래밍 없이도 패턴을 인식하고 데이터에서 학습할 수 있는 알고리즘과 기술을 개발하는 과정입니다.
- 머신 러닝은 데이터 마이닝 기술을 포함하며, 데이터 마이닝보다 넓은 범위의 문제를 해결할 수 있습니다.
차이점
- 빅 데이터는 데이터의 규모와 관리에 중점을 둡니다. 데이터 마이닝은 대규모 데이터에서 유용한 정보를 추출하는 과정에 초점을 맞추며, 머신 러닝은 이러한 데이터로부터 학습하고 예측하는 알고리즘과 모델 개발에 관한 것입니다.
Machine Learning VS Deep Learning
- 딥 러닝 모델은 일반적으로 머신 러닝 모델보다 훨씬 복잡한 데이터 패턴을 학습할 수 있으며, 특히 대량의 데이터가 있는 경우에는 더 높은 성능을 보입니다. 반면, 머신 러닝 모델은 상대적으로 간단한 문제나 적은 양의 데이터에 적합할 수 있습니다.
- Deep learning은 neural network를 사용합니다. Machine learning은 사용하지 않습니다.
- Machine learning은 broad, Deep learning은 narrow
빅 데이터란?
빅 데이터란 비즈니스 문제를 해결하기 위한 답 혹은 인사이트를 데이터를 통해 발견하는 과정과 기술이다.
빅 데이터는 native form의 데이터를 다룬다. 하지만 Machine learning과 Deep Learning은 숫자로 변환된 데이터가 필요하다.
무조건 많은 데이터를 말하는 것이 아니다. 주요 목표는 비즈니스 목표를 해결하는 것이기 때문에, 적은 데이터만으로도 가능할 수 있다. 또한 대부분 빅 데이터의 일부분만 필요하다.
데이터 과학이란?
빅 데이터의 목적과 같다. 하지만 최근에는 machine learning과 deep learning에 초점을 맞추고 있다.
빅 데이터 과제
1. 다양한 데이터 소스
데이터는 다양한 출처로부터 옵니다. 예를 들어, 사회적 미디어, 비즈니스 트랜잭션, 공공 데이터, 인터넷에서 수집한 데이터, 센서 및 IoT(사물인터넷) 기기 등이 있습니다. 이렇게 다양한 출처의 데이터를 통합하고 관리하는 것은 복잡할 수 있습니다.
2. 다양한 데이터 타입
빅 데이터는 텍스트, 이미지, 비디오, 오디오, 로그 파일, 시계열 데이터 등 다양한 형태의 데이터를 포함합니다. 이러한 데이터는 구조화되어 있거나 구조화되지 않은 형태일 수 있으며, 이 모든 다양한 형태의 데이터를 처리하고 분석하는 것은 도전적입니다.
3. 다양한 데이터 의미
데이터는 각기 다른 의미와 문맥을 가질 수 있습니다. 예를 들어, 같은 숫자라도 그것이 온도를 나타내는지, 가격을 나타내는지, 또는 다른 어떤 것을 의미하는지에 따라 처리 방식이 달라질 수 있습니다. 데이터 간의 관계, 감정 분석, 새로운 용어 등 데이터의 의미를 이해하는 것도 중요합니다.
4. 성능, 확장성, 가용성 요구사항
빅 데이터를 처리하고 분석하기 위해서는 높은 성능의 시스템이 필요하며, 처리해야 하는 데이터의 양이 지속적으로 증가함에 따라 시스템도 쉽게 확장할 수 있어야 합니다. 또한, 데이터에 대한 접근은 24시간 365일 중단 없이 이루어져야 하며, 이를 위한 인프라 구축도 중요한 도전 과제 중 하나입니다.
빅 데이터 활용 영역
비즈니스
- 마케팅 분석: 고객 세분화, 마케팅 캠페인의 효과 분석, 가격 전략 수립 등
- 고객 행동 분석: 이탈률(Churn) 분석, 구매 패턴 및 수익성 분석, 감정 분석 등
- 사기 탐지: 신용카드, 보험 청구 사기 탐지 등
- 비즈니스 위험 분석: 판매 분석, 관련 상품 구매 패턴 분석, 제조 및 판매 위치 분석, 직원 성과 및 배치 분석 등
거버넌스
- 선거 및 공공 의견 분석
의료
- DNA 시퀀싱 분석
- 의료 이미지 분석
보안
- 반테러, 범죄 분석 및 예방
기타
- 텍스트의 분류 및 요약: 이메일, 미디어 기사, 문제 보고서 등의 분류 및 요약
- 인터넷 검색 결과 스니펫 생성
- 자동차 부품 동시 실패 방지
- 음악 장르 자동 분석
- 학생 성능 분석