변수[Variable]
저장된 값[숫자, 문자, 논리값 등]이 바뀔 수 있는 값들을 임시로 보관해 놓기 위한 저장소
- 변수의 첫글자는 문자나 .(점, dot)로 시작하며, 그 이후에는 문자/숫자/dot/underline 을 사용 가능
- 대소문자를 구분해야 됨을 유의!
- 한 번 만들어 사용한 변수는 R을 종료할 때까지 사라지지 않는다.
- 하나의 변수는 다양한 유형의 값을 저장할 수 있다.
질적 변수 |
명목형 변수 |
이름을 기준으로 한 형태 |
순서형 변수 |
순서가 있는 형태 |
양적 변수 |
연속 변수 |
연속된 숫자로 구성 |
이산 변수 |
떨어져 있는 숫자로 구성 |
변수 파악
- 데이터 분석을 위해서는 구성된 데이터의 변수들을 파악하는 것이 중요
- summary( )함수를 사용하면 해당 데이터 셋이 어떤 구조를 가지고 있는지 파악 가능
수치형변수 : 최소값, 1사분위수, 2사분위수(중앙값), 3사분위수, 최대값, 평균
명목형변수 : 명목값, 데이터 개수
- head( )함수를 사용하면 많은 데이터 중 일부의 데이터만 가져올 수 있음
기본적으로 6개의 데이터가 보여지며 보고싶은 데이터의 개수 지정 가능
변수의 중요도
모형을 생성하여 사용된 변수의 중요도를 정리
- 변수 선택법과 유사한 개념
- klaR 패키지는 특정 변수가 주어졌을 때 클래스가 어떻게 분류되는지에 대한 에러율을 계산해주고, 그래픽으로 결과를 보여주는 기능을 함
- greedy.wilks( )는 종속변수에 가장 영향력을 미치는 변수에 가장 영향력을 미치는 변수를 wilks lambda를 활용해 세분화를 위한 stepwise forward 변수를 선택함으로써 변수의 중요도를 정리
※ Wilk's Lambda = 집단 내 분산 / 총 분산
변수의 구간화
연속형 변수를 분석 목적에 활용하기 위해 변수를 구간화
- 일반적으로 10진수 단위로 구간화
- 보통 구간을 5개로 나누며 7개 이상의 구간은 잘 만들지 않음
- 신용평가모델, 고객 세분화와 같은 시스템에서 모형에 활용하는 각 변수들을 구간화해서 구간별 점수를 산정하기 위해 많이 사용
- 변수의 구간화 방법에는 binning과 의사결정나무 등이 있다.
변수의 구간화 방법
① binning
- 신용평가모형의 개발에서 연속형 변수를 범주형 변수로 구간화하는데 자주 활용되는 방법
- bin은 '쓰레기통'이라는 뜻으로 연속형 변수를 정렬한 후 각각의 bin에 나눠 담아 범주형 변수로 구간화
② 의사결정나무
- 세분화 또는 예측에 활용되는 의사결정나무 모형을 사용해 입력변수들을 구간화
- 의사결정나무를 사용하면 동일한 변수를 여러 개의 분리기준으로 사용 가능
- 연속변수가 반복적으로 선택될 경우, 각각의 분리 기준값으로 연속형 변수를 구간화 가능
댓글 영역