상세 컨텐츠

본문 제목

[개미의 걸음 ADsP 3과목] 데이터 분석의 개요(시각화, 공간분석, 시뮬레이션, EDA, 통계분석, 데이터 마이닝)

자격증/ADsP

by IT개미 데이터 2021. 2. 9. 17:17

본문

728x90

데이터 분석

데이터 분석은 통계를 기반으로 두고 있지만 통계지식과 복잡한 가정이 상대적으로 적은 실용적인 분야

  • 대기업들의 경우, 데이터웨어하우스[D.W]와 데이터마트[D.M]을 구축해 분석 데이터를 가져와 사용
  • 신규시스템이나 D.W에 포함되지 못한 자료의 경우, Legacy, Staging Area, ODS에서 데이터를 가져와 D.W에서 가져온 내용과 결합하여 활용할 수 있다.[단, 전처리없이 D.W와 바로 결합하지는 못함]
        → 운영시스템[Legacy]에 직접 접근해 데이터를 활용하는 것은 매우 위험한 일이므로 거의 사용 안함
        → Staging Area의 데이터는 운영시스템에서 임시로 저장된 데이터이므로 거의 사용 안함
  • ODS[운영데이터 저장소]의 데이터는 기존 운영시스템의 데이터를 전처리하여 정제된 데이터이므로 D.W나 D.M과 결합해 분석에 활용
  • 비정형데이터나 소셜데이터는 최종적으로 정형화된 패턴으로 처리
      정형 데이터 : DBMS에 저장되었다가 텍스트 마이닝을 거쳐 데이터 마트와 통합되어 활용
      관계형 데이터 : DBMS에 저장되었다가 사회 신경망분석을 거쳐 분석결과 통계값이 마트와 통합되어 활용

 

 

 

데이터 시각화

데이터분석 결과를 쉽게 이해할 수 있도록 다양한 시각화 도구를 활용해 효과적으로 결과를 전달하는 분석 방법

  • 시각화는 가장 낮은 수준의 분석이지만 잘 사용하면 복잡한 분석보다도 더 효율적이다.
  • 대용량 데이터를 다루는 빅데이터 분석에서 데이터 시각화는 필수이다.
  • 탐색적 자료분석[EDA]에서도 시각화는 필수이다.
  • SNA[사회연결망 분석]을 할 때 자주 활용된다.
ex> 텍스트 마이닝에서의 워드 클라우드를 통한 그래프화
ex> 통계소프트웨어의 기초통계정보를 엑셀에서 그래프화
ex> Polygen, heatmap, mosaic graph 등의 그래픽 작업

 

 

공간분석[Spatial Analysis]

공간적인 차원과 관련된 속성들을 시각화하는 분석 방법

  • 지도 위에 관련 속성들을 생성하고 크기, 모양, 선굵기 등으로 구분하여 인사이트를 얻는다.

 

 

시뮬레이션[Simulation]

복잡한 실제상황을 단순화하여 컴퓨터상의 모델로 만들어 재현하거나 변경하는 고급분석 기법

  • 컴퓨터 상의 모델로 만들어 재현함으로써 현상을 보다 잘 이해하고 미래 변화에 따른 결과 예측을 용이하게 해줌
  • 과거에는 시뮬레이션 모델링을 위한 데이터 수집이 어려웠으나 빅데이터 시대가 도래함에 따라 모델링이 쉬워짐
  • 미사일 궤적, 대기행렬 등
  • 시뮬레이션에서의 평가 기준
      Throughput, Average Waiting Time, Average Queue Length, Time in System 등

 

 

탐색적 자료분석[EDA, Explonatory Data Analysis]

데이터가 가지고 있는 특성을 파악하기 위해 해당 변수의 분포 등을 시각화하여 분석하는 분석 방법

  • 미국의 존 튜키교수가 1977년 발표한 저서에 EDA가 처음으로 언급
  • 당시 주로 사용하던 확증적분석[CDA, Confirmatory Data Analysis]는 가설을 검증하는데 주로 사용되었지만
    EDA는 자료를 하나의 목적으로 보징낳고 여러 방면으로 바라보기 위해 고안되었다.
  • 다양한 차원과 값을 조합하여 특이한 점이나 의미있는 사실을 도출하고 분석의 최종 목적을 달성해가는 과정
  • 데이터의 특징과 내재하는 구조적 관계를 알아내기 위한 기법들의 총칭
  • 데이터에 대한 전반적인 이해를 통해 분석 가능한 데이터인지 확인하는 단계
    [함수를 적용하는 것이 아닌 데이터 자체를 확인하는 것!]
  • 데이터에 포함된 변수의 유형이 어떻게 되는지를 찾아가는 과정
  • 탐색적 데이터 분석을 통해 얻은 정보를 이용해 통계적 가설이나 모형을 설정해 연구하거나 의사결정에 이용해 정보의 정확도를 측정
  • 알고리즘이 학습을 얼마나 잘하는지는 전적으로 데이터 품질과 데이터에 담긴 정보량에 달림
  • Boxplot을 그리면 이상치의 식별이 쉬움

    EDA의 4가지 주제

저항성 강조 저항적인 자료/분석은 자료의 일부 변동에 따른 영향을 비교적으로 적게 받는 것을 의미
즉, 이상치, 결측치, 입력 오류등의 영향을 적게 받음
ex> median, 사분위수, IQR 등
잔차[오차] 계산 잔차[개별 관측값의 흐름에서 벗어난 값]가 있을 때 왜 이런 값이 발생했는지 파악하는 것
Residual Analysis[Regression Analysis] : 잔차분석[회귀분석]
자료변수의 재표현 자료 분석을 단순화할 수 있도록 원래의 변수를 적당한 척도로 바꾸는 것을 의미
ex> Z-score[표준점수] 등
그래프를 통한 현시성 그래픽 표현을 통해 자료 안에 숨겨진 정보를 효율적으로 활용할 수 있게 해줌
현시성은 데이터 시각화라고도 불림
ex> 줄기와 잎 그림, Boxplot 등 

   

    EDA VS Traditional Analysis

Traditional Analysis EDA
Frequency Distribution Stem and leaf plot
Histogram Boxplot
Mean Median
Standard Deviation InterQuartile Range[IQR]

2021/02/13 - [자격증/ADsP] - [개미의 걸음 ADsP 3과목] EDA & 결측치 및 이상치 처리

 

 

통계분석

    ① 통계

어떤 현상을 종합적으로 한눈에 알아보기 쉽게 일정한 체계에 따라 숫자와 표, 그림의 형태로 나타내는 것

    ② 기술통계[Desdcriptive Statistics]

모집단으로부터 표본을 추출하고 표본이 가지고 있는 정보를 쉽게 파악할 수 있도록 데이터를 정리하거나 요약하기 위해 하나의 숫자 또는 그래프의 형태로 표현하는 절차

    ③ 추측(추론) 통계 [Inferential Statistics]

모집단으로부터 추출된 표본의 표본통계량으로부터 모집단의 특성인 모수에 관해 통계적으로 추론하는 절차

2021/02/15 - [자격증/ADsP] - [개미의 걸음 ADsP 3과목] 통계분석의 이해

 

 

데이터 마이닝

대표적인 고급 데이터 분석법으로 대용량의 자료로부터 데이터에 존재하는 관계, 패턴, 규칙 등을 탐색하고 이를 모형화함으로써 유의미한 데이터를 추출하는 방법

  • 데이터가 크고 정보가 다양할수록 보다 활용하기 유리한 분석 기법이다.
  • 가설이나 가정에 따른 분석이나 검증이 목적이 아니므로 지나치게 여기에 집착하면 안됨
  • 다양한 수학 알고리즘을 통해 데이터베이스의 데이터로부터 의미있는 정보를 찾아내는 방법
  • 반드시 다양한 옵션을 부여하는 것이 아니라 충분한 시간이 있을 때만 다양한 옵션을 줘서 시도
  • 일정 성과가 나오면 해석과 활용단계로 진행할 수 있도록 의사결정한다.
  • 상황에 맞게 분석 데이터를 적절한 비율의 학습 및 테스트 데이터로 나눠서 시행
  • 성능에 너무 집착할 경우 분석 모델링의 주목적인 실무적용에 반해 시간을 낭비할 수 있으므로 훈련 및 테스트 성능에 큰 편차가 없고 예상 성능을 만족하면 중단.
  • 데이터 마이닝에서 활용하는 평가기준
      정밀도[Precision], 정확도[Accuracy], 리프트[Lift], 디텍트 레이트[Detact rate] 등

    ① 방법론1. 데이터 베이스에서의 지식탐색

데이터 웨어하우스에서 데이터마트를 생성할 때, 각 데이터들의 속성을 사전에 분석하여 지식을 얻는 방법

    ② 방법론2. 기계학습[Machine Learning]

인공지능의 한 분야로 컴퓨터가 학습할 수 있도록 알고리즘과 기술을 갭라하는 분야
인공신경망, 의사결정나무, 클러스터링, 베이지안분류, SUM 등

    ③ 방법론3. 패턴인식[Pattern Recognition]

원자료를 이용해 사전지식과 패턴에서 추출된 통계 정보를 기반으로 자료 또는 패턴을 분류하는 방법
장바구니 분석, 연관규칙 등

 

 

 

 

 

 

 

 

 

 

728x90

관련글 더보기

댓글 영역