[개미의 걸음 scikit-learn 2차시] Classification(분류)의 이해

Python

by IT개미 데이터 2021. 2. 2. 07:07

728x90

Classification[분류]

데이터가 어떤 그룹에 속하는지 범주로 분류하여 예측하는데 사용하는 기법

특정 등급으로 나눈다는 점에서 군집[Clustering] 분석과 유사
→ 하지만 분류 분석은 각 그룹이 정의되어 있음
→ 데이터를 구분할 수 있는 기준을 제공
반응변수(y)가 범주형이어야 함
Superised Learning에 해당하는 예측 기법

# 분류분석 VS 예측분석

공통점	레코드의 특정 속성의 값을 미리 알아맞힌다.
차이점	분류 : 레코드(튜플)의 범주형 속성의 값을 알아맞히는 것 예측 : 레코드(튜플)의 연속형 속성의 값을 알아맞히는 것

※ 예측분석은 시계열 분석처럼 시간에 따른 값 두개만을 이용해 앞으로의 매출, 온도 등을 예측하는 것
여러 개의 다양한 설명변수(독립변수)가 아닌, 한 개의 설명변수로 생각하면됨
모델링을 하는 입력 데이터가 어떤 것인지에 따라 특성이 다름

분류 모델을 개발할 때에는 train data와 test data로 구분지어 모델링

전체 데이터를 7:3, 8:2 등으로 나눈 뒤, train(7,8, ..)을 통해 최적 모델을 확정 짓고 test(3,2, ..)로 검증
train과 test간 편차는 없어야하며 성능은 test가 다소 낮게 나오는 경향이 있음
분류 모델링에는 신용평가모형, 사기방지모형, 이탈모형, 고객세분화 등이 있음
ex> 고객들의 속성(성별, 나이, 직업, ...)을 이용해 이탈고객일지를 예측

728x90

[개미의 걸음 scikit-learn 4차시] 의사결정트리 실습(with iris) (0)	2021.02.04
[개미의 걸음 scikit-learn 3차시] Classification① 의사결정트리(Decision Tree)의 이해 (0)	2021.02.03
[개미의 걸음 scikit-learn 1차시] 사이킷런의 이해 (0)	2021.02.01
[개미의 걸음 Pandas 9차시] 데이터 제거(drop) (0)	2021.01.09
[개미의 걸음 Pandas 8차시] 인덱스 지정(.index, set_index, reset_index, .index +1) (0)	2021.01.08