상세 컨텐츠

본문 제목

[개미의 걸음 ADsP 2과목] ① 데이터 마이닝 방법론(SEMMA, KDD, CRISP-DM)

자격증/ADsP

by IT개미 데이터 2020. 7. 1. 17:17

본문

728x90

데이터 마이닝 방법론

데이터마이닝을 잘 수행하기 위해 체계적인 절차와 방법을 정리한 것

통계 및 수학적 기술 뿐만 아니라 패턴인식 기술들을 이용해 데이터 장소에 저장된 대용량 데이터를 조사함으로써 의미있는 새로운 상관관계, 패턴, 추세 등을 발견하는 과정이 데이터 마이닝이다.                         [가트너]
  • 대용량의 자료로부터 관계, 패턴, 규칙 등을 탐색하고 모형화함으로써 이전에 알려지지 않은 유의미한 data추출
  • 데이터마이닝은 통계분석과 달리 가설이나 가정에 따른 분석이나 검증, 통계학 전문가가 사용하는 도구는 아님

         → 다양한 수학 알고리즘을 이용해 DB의 데이터로부터 의미있는 정보를 찾아내는 방법

 

 

데이터 마이닝 방법론의 종류

데이터 마이닝 방법론은 대표적으로 SEMMA, KDD, CRISP-DM 등이 있다.

  SEMMA KDD CRISP-DM
Planning     Business Understanding
Data Preparing Sample Selection Data Understanding
Exploration Preprocessing
Modification Transformation Data Preparation
Data Analyzing Modeling Data Mining Modeling
Assessment Interpretation / Evaluation Evaluation
System Developing  
Deploying     Deployment

 

 

     SEMMA

SAS사에서 자사의 기술로 데이터마이닝 기능을 구성해 쉽게 데이터마이닝 되도록 한 데이터 마이닝 방법론

기술 중심, 통계 중심 방법론

  • Sampling : 분석 데이터 생성 단계로 적절한 양의 표본을 원래 자료로부터 추출하는 단계
  • Exploration : 분석데이터 탐색 단계로 여러가지 자료의 탐색을 통해 기본적인 정보를 획득하는 단계
  • Modification : 최적의 모델을 구축할 수 있도록 다양한 형태로 변수를 생성하거나 선택 및 변형하는 단계
  • Modeling : 분석 목적에 따라 적절한 기법을 사용해 예측 모형을 만드는 단계
  • Assessment : 모형화 결과에 대한 신뢰성, 유용성 등을 평가하는 단계

 

     KDD[Knowledge Discovery in Database] 분석방법론

1996년 Fayyad가 프로파일링 기술을 기반으로 데이터로부터 통계적 패턴이나 지식을 찾기 위해 활용할 수 있도록 체계적으로 정리한 데이터 마이닝 프로세스

<KDD 분석 절차>

  ① Slection[데이터 셋 선택]

  • 데이터베이스 또는 원시 데이터에서 분석에 필요한 데이터 선택 단계
  • 데이터셋 선택에 앞서 분석대상의 비즈니스 도메인에 대한 이해와 프로젝트 목표 설정이 필수
  • 데이터마이닝에 필요한 목표데이터[Target Data]를 구성해 분석에 활용

  ② Preprocessing[데이터 전처리]

  • 추출된 분석대상을 데이터 셋에 포함된 Noise, Outlier, Value를 식별하고 필요시 제거하거나 의미있는 데이터로 재처리
  • 데이터 전체리 단계에서 추가로 요구되는 데이터 셋이 필요한 경우 Selection과정에서 재실행

  ③ Transformation[데이터 변환]

  • 효율적인 데이터마이닝을 위한 데이터변환 단계
  • 데이터 전처리 과정을 통해 정제된 데이터에 분석 목적에 맞는 변수를 선택*생성하고 데이터 차원을 축소
  • 데이터 마이닝 프로세스 진행을 위해 학습용데이터와 검증용 데이터로 데이터를 분리

  ④ Data Mining

  • 적절한 데이터마이닝 기법과 알고리즘을 적용한 데이터마이닝 실행 단계
  • 학습용 데이터를 이용해 분석 목적에 맞는 데이터기법 및 알고리즘 선택
  • 필요에 따라 Preprocessing과 Transformation과정을 추가로 실행해 최적의 결과를 산출

  ⑤ Interpretation / Evaluation

  • 데이터마이닝 결과에 대한 해석과 평가 분석목적과의 일치성을 확인하는 단계
  • 데이터마이닝을 통해 발견한 지식을 업무에 활용하기 위한 방안을 마련
  • 필요에 따라 Selection 단계에서 Data Mining 단계까지 반복 수행

 

 

     CRISP-DM[CRoss Industry Standard Process for Data Mining] 분석방법론

1996년 유럽연합의 ESPRIT에서 시작된 프도젝트로 주요한 5개 업체가 주도한 계층적 프로세스 모델

          → 비즈니스 현장에서 많이 사용하는 분석방법론

5개 업체 : Daimler-Chrysler, SPSS, NCR, Teradata, OHRA

     CRISP-DM의 4레벨 구조

<CRISP-DM의 4레벨 구조

  • 최상위레벨은 여러 개의 Phase[단계]로 구성되고 각 단계는 Generic Tasks로 구성
  • 일반화 Task는 데이터마이닝의 단일 Process를 완전하게 수행하는 단위
  • 일반화 Task는 구체적인 수행 레벨인 Specialized Task로 구성
  • Process Instances는 데이터마이닝을 위한 구체적인 실행을 포함

     CRISP-DM 프로세스[6단계]

<CRISP-DM 프로세스>

Business Understanding 비즈니스 관점에서 프로젝트 목적과 요구사항을 이해하기 위한 단계
도메인 지식을 데이터 분석을 위한 문제정의로 변경하고 초기 프로젝트 계획을 수립
업무목적파악
데이터마이닝목표설정
프로젝트계획수립
상황파악
Data Understanding 분석을 위한 데이터를 수집하고 데이터 속성을 이해하기 위한 단계
데이터 품질에 대한 문제점을 식별하고 숨겨진 인사이트를 발견하는 단계
초기 데이터수집
데이터기술 분석*탐색
데이터품질 확인 
Data Preparation 분석을 위해 수집된 데이터에서 분석기법에 적합한 데이터를 편성하는 단계
많은 시간이 소요될 수 있음
분석용 데이터셋 선택
데이터 정제*통합
분석용 데이터셋 편성
데이터 포맷팅
Modeling 다양한 모델링 기법과 알고리즘을 선택
모델링 과정에서 사용하는 파라미터를 최적화
모델링 과정에서 데이터 셋이 추가로 필요한 경우 데이터 준비단계를 반복수행
모델링 결과를 테스트용 데이터셋으로 평가해 모델의 과적합[Over fitting]문제를 확인
모델링 기법 선택
모델 테스트 계획 설계
모델 작성, 모델 평가
Evaluation 모델링 결과가 프로젝트 목적에 부합하는지 평가하는 단계
데이터 마이닝 결과를 최종적으로 수용할 것인지 판단
분석 결과 평가
모델링 과정 평가
모델 적용성 평가
Deployment
[전    개]
모델링과 평가 단계를 통해 완성된 모델을 실업무에 적용하기 위하 계획 수립
모니터링과 모델의 유지보수 계획 마련
 모델에 적용되는 비즈니스 도메인 특성, 입력데이터의 품질편차, 운영모델의 평가기준에 따라 생명주기가 다양하므로 상세한 전개 계획 필요
프로젝트 종료관련 프로세스를 수행해 프로젝트 마무리
전개 계획 수립
모니터링과 유지보수
계획수립
프로그램 종료보고서작성
프로젝트 리뷰

 

 

 

 

728x90

관련글 더보기

댓글 영역