상세 컨텐츠

본문 제목

[개미의 걸음 scikit-learn 2차시] Classification(분류)의 이해

Python

by IT개미 데이터 2021. 2. 2. 07:07

본문

728x90

Classification[분류]

데이터가 어떤 그룹에 속하는지 범주로 분류하여 예측하는데 사용하는 기법

  • 특정 등급으로 나눈다는 점에서 군집[Clustering] 분석과 유사
        → 하지만 분류 분석은 각 그룹이 정의되어 있음
        → 데이터를 구분할 수 있는 기준을 제공
  • 반응변수(y)가 범주형이어야 함
  • Superised Learning에 해당하는 예측 기법

# 분류분석 VS 예측분석

더보기
공통점 레코드의 특정 속성의 값을 미리 알아맞힌다.
차이점 분류 : 레코드(튜플)의 범주형 속성의 값을 알아맞히는 것
예측 : 레코드(튜플)의 연속형 속성의 값을 알아맞히는 것 

    ※ 예측분석은 시계열 분석처럼 시간에 따른 값 두개만을 이용해 앞으로의 매출, 온도 등을 예측하는 것
       여러 개의 다양한 설명변수(독립변수)가 아닌, 한 개의 설명변수로 생각하면됨
       모델링을 하는 입력 데이터가 어떤 것인지에 따라 특성이 다름

분류 분석의 예 예측 분석의 예
학생들의 국어, 영어, 수학 점수를 통해 내신등급 맞히기 학생들의 여러가지 정보를 입력해 수능점수 예측
카드회사가  가입정보를 통해 1년 후 신용등급 예측 카드회사 회원의 가입정보를 통해 연매출액 예상

 

분류 기법 종류

  • 의사결정나무[Decision Tree], CART[Classification adn Regression Tree], C5.0
  • 인공신경망[ANN, Artificial Neutral Network]
  • 랜덤 포레스트[Random Forest]
  • 지지도벡터기계[SVM, Support Vector Machine]
  • 베이지안 분류[Baysian Classification], Native Bayesian]
  • K최근접 이웃[KNN, K-Nearest Neighborhood]
  • 규칙기반의 분류와 사례기반의 추론[Case-Based Reasoning]
  • 앙상블[ensemble]
  • 로지스틱 회귀[Logistic Regression]

 

분류 모델 개발

분류 모델을 개발할 때에는 train data와 test data로 구분지어 모델링

  • 전체 데이터를 7:3, 8:2 등으로 나눈 뒤, train(7,8, ..)을 통해 최적 모델을 확정 짓고 test(3,2, ..)로 검증
  • train과 test간 편차는 없어야하며 성능은 test가 다소 낮게 나오는 경향이 있음
  • 분류 모델링에는 신용평가모형, 사기방지모형, 이탈모형, 고객세분화 등이 있음
        ex> 고객들의 속성(성별, 나이, 직업, ...)을 이용해 이탈고객일지를 예측

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

728x90

관련글 더보기

댓글 영역