상세 컨텐츠

본문 제목

[개미의 걸음 ADsP 3과목] 통계분석의 이해

자격증/ADsP

by IT개미 데이터 2021. 2. 17. 17:17

본문

728x90

통계

특정집단을 대상으로 수행한 조사나 실험을 통해 나온 결과에 의해 요약된 형태의 표현

  • 조사 대상의 범위에 따라 전수조사와 표본조사로 구분
전수 조사 대상 집단 모두를 조사하는데 많은 비용*시간이 소요되므로 특별한 경우를 제외하고는 사용되지 않음
표본 조사 모집단에서 샘플을 추출하여 진행하는 조사로 대부분의 설문조사가 표본조사로 진행됨
모집단의 정의, 표본의 크기, 조사방법, 조사기간, 표본추출방법을 정확히 명시해야 한다.

# 표본 조사에서 사용되는 주요 용어

모집단[Population] 조사하고자 하는 대상 집단 전체
원소[Element] 모집단을 구성하는 개체
표본[Sample] 조사하기 위해 추출한 모집단의 일부 원소
모수[Parameter] 표본 관측에 의해 구하고자 하는 모집단에 대한 정보

 

 

표본 추출 방법

표본조사는 모집단을 대표하는 일부만을 가지고 조사하므로 표본추출 방법에 따라 분석결과의 해석은 큰 차이가 발생

단순랜덤 추출법
[Simple Random Sampling]
각 샘플에 번호를 부여해 임의의 n개를 추출하는 방법
크기가 n인 모든 가능한 표본에 동일한 산출 기회를 부여[각 샘플은 선택될 확률이 동일]
비복원 추출, 복원 추출
계통추출법
[Systematic Sampling]
단순랜덤추출법을 변형한 방식
번호를 부여한 샘플(N개)을 나열해 K개씩 n개의 구간(K=N/n)으로 나누고 첫 구간에서 하나를 의의 선택해 K개씩 띄어서 n개의 표본을 선택
각 구간별로 동일한 위치의 항목을 추출하는 방법
집락추출법
[Cluster Random Sampling]
모집단을 임의의 군집으로 나눈 뒤 군집별로 단순랜덤 추출법을 수행
집락내는 이질적, 군집간은 동질적
모든 자료를 활용하거나 샘플링하는 방법
지역표본추출, 다단계표본추출
층화추출법
[Stratified Random Sampling]
모집단에서 각 계층을 고루 대표할 수 있는 표본을 추출하는 방법
층내는 동질적, 층간은 이질적
유사한 원소끼리 몇 개의 층[Stratum]으로 나누어 각 층에서 랜덤 추출하는 방법
비례층화추출법, 불비례층화추출법

 

측정

 표본조사나 실험을 실시하는 과정에서 추출된 원소들이나 실험 단위로부터 주어진 목적에 적합하도록 관측해 자료를 얻는 것

※ 실험 : 특정 목적 하에서 실험 대상에게 처리를 가한 후에 그 결과를 관측해 자료를 수집하는 방법

    측정방법

명목척도 측정 대상이 어느 집단에 속하는지 분류할 때 사용
성별, 출생지 구분 등
질적 척도, 범주형 자료
[숫자들의 크기 차이가 계산되지 않는 척도]
순서척도 측정 대상의 서열관계를 관측하는 척도
만족도, 선호도, 학년, 신용등급 등
구간척도
(등간척도)
측정 대상이 갖고 있는 속성의 양을 측정하는 것
구간이나 구간 사이의 간격이 의미 있는 자료[두 관측값 사이 비율은 별 의미없음]
양적 척도, 수치형 자료
[숫자들의 크기 차이를 계산 할 수 있는 척도]
비율척도 간격[차이]에 대한 비율이 의미를 가지는 자료
절대적 기준인 0이 존재하고 사칙연산이 가능하며 제일 많은 정보를 가지는 척도
  • 순서척도는 명목척도와 달리 매겨진 숫자의 크기를 의미있게 활용 가능
  • 구간척도는 절대적 크기를 측정할 수 없기 때문에 사칙연산 중 더하기*빼기는 가능하지만 비율처럼 곱하기*나누기는 안됨

 

불편 추정량 & 일치 추정량

불편 추정량 모집단이 모수 추정에 있어서 그것의 추정량의 기댓값이 모수와 같을 때
일지 추정량 표본 크기가 커지면 그 값이 점점 모수에 가까워 지는 것[표준편차가 감소]

 

 

 

통계분석

특정한 집단이나 불확실한 현상을 대상으로 자료를 수집해 대상 집단에 대한 정보를 구하고 적절한 통계분석 방법을 이용해 의사결정하는 과정

 

기술통계[Descriptive Statistic]

  • 주어진 자료로부터 어떠한 판단이나 예측과 같은 주관이 섞일 수 있는 과정을 배제하여 통계집단들의 여러 특성을 수량화하여 객관적인 데이터로 나타내는 통계분석 방법론
  • Sample에 대한 특성인 평균, 표준편차, 중위수, 최빈값, 그래프, 왜도, 첨도 등을 구하는 것

② 통계적 추론[Inference Statistics, 추측통계]

  • 수집된 자료를 이용해 대상 집단[모집단]에 대한 의사결정을 하는 것
  • 제한된 표본을 바탕으로 모집단에 대한 일반적인 결론을 추정하는 것[본질적으로 불확실성 수반]
모수추정 표본집단으로부터 모집단의 특성인 모수[평균, 분산 등]을 분석해 모집단을 추론
가설검정 대상집단에 대한 특정 가설을 설정한 후 그 가설이 옳은지 그린지에 대한 채택여부를 결정하는 방법론
예    측 미래의 불확실성을 해결해 효율적인 의사결정을 하기 위해 활용
회귀분석, 시계열분석 등의 방법 사용

       ※ 추정 : 표본으로부터 모집단이 가지는 특성(모수)을 추측하는 것
       ※ 가설검정 : 자신이 가진 이론적 대안이 통계적으로 의미가 있는지를 확인하는 것

 

    1) 모수 추정

전수조사가 불가능할 때 모집단에서 표본을 추출하고 이를 근거로 확률론을 활용해 모집단의 모수들을 추론하는 것

점추정
[Point Estimation]
모수가 특정한 값일 것이라고 추정하는 것
표본의 평균, 중위수, 최빈값 등을 사용하는 것
구간추정
[Interval Estimation]
점추정의 정확성을 보완하기 위해 모수의 참값이 포함되어 있다고 추정되는 구간을 결정하는 것
실제 모집단의 모수가 신뢰구간에 꼭 포함되어 있는 것은 아님
구해진 구간 안에 모수가 있을 가능성의 크기[신뢰수준, Confidence Interval]가 주어져야 한다.

# 점추정량의 조건

더보기
불편성
[Unbiasedness]
모든 가능한 표본에서 얻은 추정량의 기댓값은 모집단의 모수와 편의가 없다.
효율성
[Efficiency]
추정량의 분산이 작을수록 좋다.
일치성
[Consistency]
표본의 크기가 아주 커지면, 추정량이 모수와 거의 같아진다.
충족성
[Sufficient]
추정량은 모수에 대하여 모든 정보를 제공한다.

# 95%신뢰수준 하에서 모평균의 신뢰구간

더보기
<95% 신뢰수준 하에서 모평균의 신뢰구간>

 

    2) 가설검정

모집단에 대한 어떤 가설을 설정한 뒤에 표본관찰을 통해 그 가설의 채택여부를 결정하는 분석방법

표본관찰 또는 실험을 통해 귀무가설과 대립가설 중에서 하나를 선택하는 과정

귀무가설이 옳다는 전제하에 검정통계량 값을 구한 후에 이 값이 나타날 가능성의 크기에 의해 귀무가설의 채택여부를 결정

귀무가설
[Null Hypothesis, H0]
현재까지 주장되어온 것이나 변화나 차이가 없음을 설명하는 가설
대립가설
[Alternative Hypothesis, H1]
귀무가설에 반대되는 주장을 하는 가설로 귀무가설을 기각했을 때 받아들여지는 가설
실제 검정대상이 되는 가설은 아니다!
검정통계량
[Test Statistic]
관찰된 표본으로부터 구하는 통계량
검정 시 가설의 진위를 판단하는 기준
유의수준
[Significance Level, α]
귀무가설을 기각하게 되는 확률의 크기로 '귀무가설이 옳은데도 이를 기각하는 확률의 크기'
유의확률
[p-value]
귀무가설이 맞다고 정할 때, 표본통계량보다 극단적인 결과가 실제로 관측될 확률
p-value와 α를 비교하여 귀무가설 기각 여부를 결정[p-value<α이면 기각]
기각역
[Critical Region,C]
귀무가설을 기각시키는 검정통계량들의 범위[반대는 채택역(acceptance region)}
귀무가설이 옳다는 전제 하에서 구한 검정통계량의 분포에서 확률이 유의수준 α인 부분

 

    제1종오류 & 제2종오류

  H0가 사실이라고 판정 H0가 사실이 아니라고 판정
H0가 사실임 옳음 결정 제 1종 오류[α]
 H0가 사실이 아님 제 2종 오류[β] 옳은 결정
  • 제 1종 오류[Type 1 error] : 귀무가설 H0가 옳은데도 귀무가설을 기각하게 되는 오류
  • 제 2종 오류[Type 2 error] : 귀무가설 H0가 옳지 않은데도 귀무가설을 채택하게 되는 오류

 

 

 

통계적 검정

통계적 검정에서 모집단의 모수에 대한 검정은 모수적 검정과 비모수적 검정으로 구분

모수적 방법 비모수적 방법
검정하고자 하는 모집단의 분포에 대한 가정을 하고,
그 가정하에서 검정통계량과 검정통계량의 분포를 유도해 검정을 실시하는 방법
자료가 추출된 모집단의 분포에 대한 아무 제약을 가하지 않고 검정을 실시하는 방법
가정된 분포의 모수에 대해 가설 설정 가정된 분포가 없음
[가설은 단지 '분포의 형태가 동일하다' 또는 '분포의 형태가 동일하지 않다'와 같이 분포의 형태에 대해 설정]
관측된 자료를 이용해 구한 표본평균, 표분분산 등을 이용해 검정을 실시 관측값의 절대적인 크기에 의존하지 않는 관측값들의 순위나 두 관측값 차이의 부호 등을 이용해 검정

비모수적 방법을 사용하는 경우

  • 관측된 자료가 특정분포를 따른다고 가정할 수 없는 경우에 이용
  • 관측된 자료의 수가 많지 않을 경우(30개 미만)에 사용
  • 관측된 자료가 개체간의 서열관계를 나타내는 경우에 사용
  • 즉, 표본의 크기가 작거나 순서형 자료를 포함하는 범주형 자료에 적용 가능

비모수 검정의 예

  • 부호검정[Sign Test]
  • 윌콕슨의 순위합검정[Rank Sum Test]
  • 윌콕슨의 부호순위합검정[Wilcoxon Signed Rank Test]
  • 만-위트니의 U검정
  • 런검정[Run Test]
  • 스피어만의 순위상관계수

 

 

 

 

 

 

 

 

 

 

 

728x90

관련글 더보기

댓글 영역