데이터마이닝을 잘 수행하기 위해 체계적인 절차와 방법을 정리한 것
통계 및 수학적 기술 뿐만 아니라 패턴인식 기술들을 이용해 데이터 장소에 저장된 대용량 데이터를 조사함으로써 의미있는 새로운 상관관계, 패턴, 추세 등을 발견하는 과정이 데이터 마이닝이다. [가트너]
→ 다양한 수학 알고리즘을 이용해 DB의 데이터로부터 의미있는 정보를 찾아내는 방법
데이터 마이닝 방법론은 대표적으로 SEMMA, KDD, CRISP-DM 등이 있다.
SEMMA | KDD | CRISP-DM | |
Planning | Business Understanding | ||
Data Preparing | Sample | Selection | Data Understanding |
Exploration | Preprocessing | ||
Modification | Transformation | Data Preparation | |
Data Analyzing | Modeling | Data Mining | Modeling |
Assessment | Interpretation / Evaluation | Evaluation | |
System Developing | |||
Deploying | Deployment |
SAS사에서 자사의 기술로 데이터마이닝 기능을 구성해 쉽게 데이터마이닝 되도록 한 데이터 마이닝 방법론
기술 중심, 통계 중심 방법론
1996년 Fayyad가 프로파일링 기술을 기반으로 데이터로부터 통계적 패턴이나 지식을 찾기 위해 활용할 수 있도록 체계적으로 정리한 데이터 마이닝 프로세스
1996년 유럽연합의 ESPRIT에서 시작된 프도젝트로 주요한 5개 업체가 주도한 계층적 프로세스 모델
→ 비즈니스 현장에서 많이 사용하는 분석방법론
5개 업체 : Daimler-Chrysler, SPSS, NCR, Teradata, OHRA
Business Understanding | 비즈니스 관점에서 프로젝트 목적과 요구사항을 이해하기 위한 단계 도메인 지식을 데이터 분석을 위한 문제정의로 변경하고 초기 프로젝트 계획을 수립 |
업무목적파악 데이터마이닝목표설정 프로젝트계획수립 상황파악 |
Data Understanding | 분석을 위한 데이터를 수집하고 데이터 속성을 이해하기 위한 단계 데이터 품질에 대한 문제점을 식별하고 숨겨진 인사이트를 발견하는 단계 |
초기 데이터수집 데이터기술 분석*탐색 데이터품질 확인 |
Data Preparation | 분석을 위해 수집된 데이터에서 분석기법에 적합한 데이터를 편성하는 단계 많은 시간이 소요될 수 있음 |
분석용 데이터셋 선택 데이터 정제*통합 분석용 데이터셋 편성 데이터 포맷팅 |
Modeling | 다양한 모델링 기법과 알고리즘을 선택 모델링 과정에서 사용하는 파라미터를 최적화 모델링 과정에서 데이터 셋이 추가로 필요한 경우 데이터 준비단계를 반복수행 모델링 결과를 테스트용 데이터셋으로 평가해 모델의 과적합[Over fitting]문제를 확인 |
모델링 기법 선택 모델 테스트 계획 설계 모델 작성, 모델 평가 |
Evaluation | 모델링 결과가 프로젝트 목적에 부합하는지 평가하는 단계 데이터 마이닝 결과를 최종적으로 수용할 것인지 판단 |
분석 결과 평가 모델링 과정 평가 모델 적용성 평가 |
Deployment [전 개] |
모델링과 평가 단계를 통해 완성된 모델을 실업무에 적용하기 위하 계획 수립 모니터링과 모델의 유지보수 계획 마련 모델에 적용되는 비즈니스 도메인 특성, 입력데이터의 품질편차, 운영모델의 평가기준에 따라 생명주기가 다양하므로 상세한 전개 계획 필요 프로젝트 종료관련 프로세스를 수행해 프로젝트 마무리 |
전개 계획 수립 모니터링과 유지보수 계획수립 프로그램 종료보고서작성 프로젝트 리뷰 |
[개미의 걸음 ADsP 2과목] 분석과제 (0) | 2020.07.03 |
---|---|
[개미의 걸음 ADsP 2과목] ② 빅데이터 분석방법론 (0) | 2020.07.02 |
[개미의 걸음 ADsP 2과목] 데이터 분석 방법론 (0) | 2020.06.30 |
[개미의 걸음 ADsP 2과목] 데이터 분석 기획 (0) | 2020.06.29 |
[개미의 걸음 ADsP 1과목 심화] Deep Learning 응용 알고리즘 (0) | 2020.06.26 |
댓글 영역