데이터가 가지고 있는 특성을 파악하기 위해 해당 변수의 분포 등을 시각화하여 분석하는 분석 방법
EDA의 4가지 주제
저항성 강조 | 저항적인 자료/분석은 자료의 일부 변동에 따른 영향을 비교적으로 적게 받는 것을 의미 즉, 이상치, 결측치, 입력 오류등의 영향을 적게 받음 ex> median, 사분위수, IQR 등 |
잔차[오차] 계산 | 잔차[개별 관측값의 흐름에서 벗어난 값]가 있을 때 왜 이런 값이 발생했는지 파악하는 것 Residual Analysis[Regression Analysis] : 잔차분석[회귀분석] |
자료변수의 재표현 | 자료 분석을 단순화할 수 있도록 원래의 변수를 적당한 척도로 바꾸는 것을 의미 ex> Z-score[표준점수] 등 |
그래프를 통한 현시성 | 그래픽 표현을 통해 자료 안에 숨겨진 정보를 효율적으로 활용할 수 있게 해줌 현시성은 데이터 시각화라고도 불림 ex> 줄기와 잎 그림, Boxplot 등 |
EDA VS Traditional Analysis
Traditional Analysis | EDA |
Frequency Distribution | Stem and leaf plot |
Histogram | Boxplot |
Mean | Median |
Standard Deviation | InterQuartile Range[IQR] |
결측치는 NA, 99999999, 공백, Unknown, Not Answer 등으로 표현
1) 완전분석법(completes analysis)
2) 평균 대치법(Mean Imputation)
3) 단순확률 대치법(Single Stochastic Imputation)
complete.cases( ) | 데이터가 완전한 데이터인지 확인하는 함수 데이터 셋 안에 결측값이 있으면 FALSE, 없으면 TRUE로 반환 |
is.na( ) | 결측치가 있는지 확인하는 함수 결측치을 NA로 인식해 결측값이 있으면 TRUE, 없으면 FALSE로 반환 |
centralImputation( ) [DMwR 패키지] |
NA값을 Central Value로 대치하는 함수 숫자는 중위수, 요인(factor)은 최빈값으로 대치 |
knnImputation( ) [DMwR 패키지] |
NA값을 k최근 이웃 분류 알고리즘을 사용하여 대치하는 함수 k개 주변 이웃까지의 거리를 고려하여 가중 평균한 값을 사용 |
amelia( ) [Amelia 패키지] |
TIME-SERIES-CROSS-SECTIONAL DATA SET에서 활용 랜덤포레스트(random forest)모델은 결측값이 존재할 경우, 바로 에러가 발생 randomForest 패키지의 rfImpute( )함수를 활용해 NA 결측치를 대치한 후 알고리즘에 적용 → randomForest모형의 경우, 결측치가 있으면 에러가 발생 → rfImpute( )함수는 randomForest 패키지에서 결측치(NA)를 대치하도록 하는 함수 |
이상치는 정상범주에서 크게 벗어난 값을 의미[설명변수의 관측치에 비해 종속변수의 값이 상이한 값]
① ESD[Extreme Studentized Deviation]
② 기하평균과 표준편차를 활용
③ 사분위수를 활용
이상치를 처리하는 방법에는 크게 절단(trimming)과 조정(winsorizing)이 있음
① Trimming
② Winsorizing
사기탐지 - 평상시의 신용카드 구매패턴과 다른 패턴을 조사하여 도난여부 확인
침입탐지 - 컴퓨터 네트워크에 대한 예외적인 행위를 감시하는 경우를 탐지
의 료 - 환자에게 보이는 예외적인 이상 증세를 발견함으로써 건강 이상 발견
[개미의 걸음 ADsP 3과목] 확률분포① 이산형 확률 분포 (0) | 2021.02.15 |
---|---|
[개미의 걸음 ADsP 3과목] 확률의 이해 (0) | 2021.02.14 |
[개미의 걸음 ADsP 3과목] 데이터 가공(변수의 중요도 및 구간화) (0) | 2021.02.12 |
[개미의 걸음 ADsP 3과목] 데이터 마트 ① reshape 패키지 (0) | 2021.02.11 |
[개미의 걸음 ADsP 3과목] 데이터 마트의 이해(With 요약변수, 파생변수) (0) | 2021.02.10 |
댓글 영역