Python
[개미의 걸음 scikit-learn 2차시] Classification(분류)의 이해
IT개미 데이터
2021. 2. 2. 07:07
728x90
Classification[분류]
데이터가 어떤 그룹에 속하는지 범주로 분류하여 예측하는데 사용하는 기법
- 특정 등급으로 나눈다는 점에서 군집[Clustering] 분석과 유사
→ 하지만 분류 분석은 각 그룹이 정의되어 있음
→ 데이터를 구분할 수 있는 기준을 제공 - 반응변수(y)가 범주형이어야 함
- Superised Learning에 해당하는 예측 기법
# 분류분석 VS 예측분석
더보기
공통점 | 레코드의 특정 속성의 값을 미리 알아맞힌다. |
차이점 | 분류 : 레코드(튜플)의 범주형 속성의 값을 알아맞히는 것 예측 : 레코드(튜플)의 연속형 속성의 값을 알아맞히는 것 |
※ 예측분석은 시계열 분석처럼 시간에 따른 값 두개만을 이용해 앞으로의 매출, 온도 등을 예측하는 것
여러 개의 다양한 설명변수(독립변수)가 아닌, 한 개의 설명변수로 생각하면됨
모델링을 하는 입력 데이터가 어떤 것인지에 따라 특성이 다름
분류 분석의 예 | 예측 분석의 예 |
학생들의 국어, 영어, 수학 점수를 통해 내신등급 맞히기 | 학생들의 여러가지 정보를 입력해 수능점수 예측 |
카드회사가 가입정보를 통해 1년 후 신용등급 예측 | 카드회사 회원의 가입정보를 통해 연매출액 예상 |
분류 기법 종류
- 의사결정나무[Decision Tree], CART[Classification adn Regression Tree], C5.0
- 인공신경망[ANN, Artificial Neutral Network]
- 랜덤 포레스트[Random Forest]
- 지지도벡터기계[SVM, Support Vector Machine]
- 베이지안 분류[Baysian Classification], Native Bayesian]
- K최근접 이웃[KNN, K-Nearest Neighborhood]
- 규칙기반의 분류와 사례기반의 추론[Case-Based Reasoning]
- 앙상블[ensemble]
- 로지스틱 회귀[Logistic Regression]
분류 모델 개발
분류 모델을 개발할 때에는 train data와 test data로 구분지어 모델링
- 전체 데이터를 7:3, 8:2 등으로 나눈 뒤, train(7,8, ..)을 통해 최적 모델을 확정 짓고 test(3,2, ..)로 검증
- train과 test간 편차는 없어야하며 성능은 test가 다소 낮게 나오는 경향이 있음
- 분류 모델링에는 신용평가모형, 사기방지모형, 이탈모형, 고객세분화 등이 있음
ex> 고객들의 속성(성별, 나이, 직업, ...)을 이용해 이탈고객일지를 예측
728x90