상세 컨텐츠

본문 제목

[개미의 걸음 ADsP 3과목] 데이터 가공(변수의 중요도 및 구간화)

자격증/ADsP

by IT개미 데이터 2021. 2. 12. 17:17

본문

728x90

변수[Variable]

저장된 값[숫자, 문자, 논리값 등]이 바뀔 수 있는 값들을 임시로 보관해 놓기 위한 저장소

  • 변수의 첫글자는 문자나 .(점, dot)로 시작하며, 그 이후에는 문자/숫자/dot/underline 을 사용 가능
  • 대소문자를 구분해야 됨을 유의!
  • 한 번 만들어 사용한 변수는 R을 종료할 때까지 사라지지 않는다.
  • 하나의 변수는 다양한 유형의 값을 저장할 수 있다.
질적 변수 명목형 변수 이름을 기준으로 한 형태
순서형 변수 순서가 있는 형태
양적 변수 연속 변수 연속된 숫자로 구성
이산 변수 떨어져 있는 숫자로 구성

 

 

변수 파악

  • 데이터 분석을 위해서는 구성된 데이터의 변수들을 파악하는 것이 중요
  • summary( )함수를 사용하면 해당 데이터 셋이 어떤 구조를 가지고 있는지 파악 가능
        수치형변수 : 최소값, 1사분위수, 2사분위수(중앙값), 3사분위수, 최대값, 평균
        명목형변수 : 명목값, 데이터 개수
  • head( )함수를 사용하면 많은 데이터 중 일부의 데이터만 가져올 수 있음
        기본적으로 6개의 데이터가 보여지며 보고싶은 데이터의 개수 지정 가능 

 

변수의 중요도

모형을 생성하여 사용된 변수의 중요도를 정리

  • 변수 선택법과 유사한 개념
  • klaR 패키지는 특정 변수가 주어졌을 때 클래스가 어떻게 분류되는지에 대한 에러율을 계산해주고, 그래픽으로 결과를 보여주는 기능을 함
  • greedy.wilks( )는 종속변수에 가장 영향력을 미치는 변수에 가장 영향력을 미치는 변수를 wilks lambda를 활용해 세분화를 위한 stepwise forward 변수를 선택함으로써 변수의 중요도를 정리
       
    ※ Wilk's Lambda = 집단 내 분산 / 총 분산

 

변수의 구간화

연속형 변수를 분석 목적에 활용하기 위해 변수를 구간화 

  • 일반적으로 10진수 단위로 구간화
  • 보통 구간을 5개로 나누며 7개 이상의 구간은 잘 만들지 않음
  • 신용평가모델, 고객 세분화와 같은 시스템에서 모형에 활용하는 각 변수들을 구간화해서 구간별 점수를 산정하기 위해 많이 사용
  • 변수의 구간화 방법에는 binning과 의사결정나무 등이 있다.

 

변수의 구간화 방법

① binning

  • 신용평가모형의 개발에서 연속형 변수를 범주형 변수로 구간화하는데 자주 활용되는 방법
  • bin은 '쓰레기통'이라는 뜻으로 연속형 변수를 정렬한 후 각각의 bin에 나눠 담아 범주형 변수로 구간화 

 

② 의사결정나무

  • 세분화 또는 예측에 활용되는 의사결정나무 모형을 사용해 입력변수들을 구간화
  • 의사결정나무를 사용하면 동일한 변수를 여러 개의 분리기준으로 사용 가능
  • 연속변수가 반복적으로 선택될 경우, 각각의 분리 기준값으로 연속형 변수를 구간화 가능

 

 

 

 

 

728x90

관련글 더보기

댓글 영역