특정집단을 대상으로 수행한 조사나 실험을 통해 나온 결과에 의해 요약된 형태의 표현
전수 조사 | 대상 집단 모두를 조사하는데 많은 비용*시간이 소요되므로 특별한 경우를 제외하고는 사용되지 않음 |
표본 조사 | 모집단에서 샘플을 추출하여 진행하는 조사로 대부분의 설문조사가 표본조사로 진행됨 모집단의 정의, 표본의 크기, 조사방법, 조사기간, 표본추출방법을 정확히 명시해야 한다. |
# 표본 조사에서 사용되는 주요 용어
모집단[Population] | 조사하고자 하는 대상 집단 전체 |
원소[Element] | 모집단을 구성하는 개체 |
표본[Sample] | 조사하기 위해 추출한 모집단의 일부 원소 |
모수[Parameter] | 표본 관측에 의해 구하고자 하는 모집단에 대한 정보 |
표본조사는 모집단을 대표하는 일부만을 가지고 조사하므로 표본추출 방법에 따라 분석결과의 해석은 큰 차이가 발생
단순랜덤 추출법 [Simple Random Sampling] |
각 샘플에 번호를 부여해 임의의 n개를 추출하는 방법 크기가 n인 모든 가능한 표본에 동일한 산출 기회를 부여[각 샘플은 선택될 확률이 동일] 비복원 추출, 복원 추출 |
계통추출법 [Systematic Sampling] |
단순랜덤추출법을 변형한 방식 번호를 부여한 샘플(N개)을 나열해 K개씩 n개의 구간(K=N/n)으로 나누고 첫 구간에서 하나를 의의 선택해 K개씩 띄어서 n개의 표본을 선택 각 구간별로 동일한 위치의 항목을 추출하는 방법 |
집락추출법 [Cluster Random Sampling] |
모집단을 임의의 군집으로 나눈 뒤 군집별로 단순랜덤 추출법을 수행 집락내는 이질적, 군집간은 동질적 모든 자료를 활용하거나 샘플링하는 방법 지역표본추출, 다단계표본추출 |
층화추출법 [Stratified Random Sampling] |
모집단에서 각 계층을 고루 대표할 수 있는 표본을 추출하는 방법 층내는 동질적, 층간은 이질적 유사한 원소끼리 몇 개의 층[Stratum]으로 나누어 각 층에서 랜덤 추출하는 방법 비례층화추출법, 불비례층화추출법 |
표본조사나 실험을 실시하는 과정에서 추출된 원소들이나 실험 단위로부터 주어진 목적에 적합하도록 관측해 자료를 얻는 것
※ 실험 : 특정 목적 하에서 실험 대상에게 처리를 가한 후에 그 결과를 관측해 자료를 수집하는 방법
측정방법
명목척도 | 측정 대상이 어느 집단에 속하는지 분류할 때 사용 성별, 출생지 구분 등 |
질적 척도, 범주형 자료 [숫자들의 크기 차이가 계산되지 않는 척도] |
순서척도 | 측정 대상의 서열관계를 관측하는 척도 만족도, 선호도, 학년, 신용등급 등 |
|
구간척도 (등간척도) |
측정 대상이 갖고 있는 속성의 양을 측정하는 것 구간이나 구간 사이의 간격이 의미 있는 자료[두 관측값 사이 비율은 별 의미없음] |
양적 척도, 수치형 자료 [숫자들의 크기 차이를 계산 할 수 있는 척도] |
비율척도 | 간격[차이]에 대한 비율이 의미를 가지는 자료 절대적 기준인 0이 존재하고 사칙연산이 가능하며 제일 많은 정보를 가지는 척도 |
불편 추정량 | 모집단이 모수 추정에 있어서 그것의 추정량의 기댓값이 모수와 같을 때 |
일지 추정량 | 표본 크기가 커지면 그 값이 점점 모수에 가까워 지는 것[표준편차가 감소] |
특정한 집단이나 불확실한 현상을 대상으로 자료를 수집해 대상 집단에 대한 정보를 구하고 적절한 통계분석 방법을 이용해 의사결정하는 과정
모수추정 | 표본집단으로부터 모집단의 특성인 모수[평균, 분산 등]을 분석해 모집단을 추론 |
가설검정 | 대상집단에 대한 특정 가설을 설정한 후 그 가설이 옳은지 그린지에 대한 채택여부를 결정하는 방법론 |
예 측 | 미래의 불확실성을 해결해 효율적인 의사결정을 하기 위해 활용 회귀분석, 시계열분석 등의 방법 사용 |
※ 추정 : 표본으로부터 모집단이 가지는 특성(모수)을 추측하는 것
※ 가설검정 : 자신이 가진 이론적 대안이 통계적으로 의미가 있는지를 확인하는 것
1) 모수 추정
전수조사가 불가능할 때 모집단에서 표본을 추출하고 이를 근거로 확률론을 활용해 모집단의 모수들을 추론하는 것
점추정 [Point Estimation] |
모수가 특정한 값일 것이라고 추정하는 것 표본의 평균, 중위수, 최빈값 등을 사용하는 것 |
구간추정 [Interval Estimation] |
점추정의 정확성을 보완하기 위해 모수의 참값이 포함되어 있다고 추정되는 구간을 결정하는 것 실제 모집단의 모수가 신뢰구간에 꼭 포함되어 있는 것은 아님 구해진 구간 안에 모수가 있을 가능성의 크기[신뢰수준, Confidence Interval]가 주어져야 한다. |
# 점추정량의 조건
불편성 [Unbiasedness] |
모든 가능한 표본에서 얻은 추정량의 기댓값은 모집단의 모수와 편의가 없다. |
효율성 [Efficiency] |
추정량의 분산이 작을수록 좋다. |
일치성 [Consistency] |
표본의 크기가 아주 커지면, 추정량이 모수와 거의 같아진다. |
충족성 [Sufficient] |
추정량은 모수에 대하여 모든 정보를 제공한다. |
# 95%신뢰수준 하에서 모평균의 신뢰구간
2) 가설검정
모집단에 대한 어떤 가설을 설정한 뒤에 표본관찰을 통해 그 가설의 채택여부를 결정하는 분석방법
표본관찰 또는 실험을 통해 귀무가설과 대립가설 중에서 하나를 선택하는 과정
귀무가설이 옳다는 전제하에 검정통계량 값을 구한 후에 이 값이 나타날 가능성의 크기에 의해 귀무가설의 채택여부를 결정
귀무가설 [Null Hypothesis, H0] |
현재까지 주장되어온 것이나 변화나 차이가 없음을 설명하는 가설 |
대립가설 [Alternative Hypothesis, H1] |
귀무가설에 반대되는 주장을 하는 가설로 귀무가설을 기각했을 때 받아들여지는 가설 실제 검정대상이 되는 가설은 아니다! |
검정통계량 [Test Statistic] |
관찰된 표본으로부터 구하는 통계량 검정 시 가설의 진위를 판단하는 기준 |
유의수준 [Significance Level, α] |
귀무가설을 기각하게 되는 확률의 크기로 '귀무가설이 옳은데도 이를 기각하는 확률의 크기' |
유의확률 [p-value] |
귀무가설이 맞다고 정할 때, 표본통계량보다 극단적인 결과가 실제로 관측될 확률 p-value와 α를 비교하여 귀무가설 기각 여부를 결정[p-value<α이면 기각] |
기각역 [Critical Region,C] |
귀무가설을 기각시키는 검정통계량들의 범위[반대는 채택역(acceptance region)} 귀무가설이 옳다는 전제 하에서 구한 검정통계량의 분포에서 확률이 유의수준 α인 부분 |
제1종오류 & 제2종오류
H0가 사실이라고 판정 | H0가 사실이 아니라고 판정 | |
H0가 사실임 | 옳음 결정 | 제 1종 오류[α] |
H0가 사실이 아님 | 제 2종 오류[β] | 옳은 결정 |
통계적 검정에서 모집단의 모수에 대한 검정은 모수적 검정과 비모수적 검정으로 구분
모수적 방법 | 비모수적 방법 |
검정하고자 하는 모집단의 분포에 대한 가정을 하고, 그 가정하에서 검정통계량과 검정통계량의 분포를 유도해 검정을 실시하는 방법 |
자료가 추출된 모집단의 분포에 대한 아무 제약을 가하지 않고 검정을 실시하는 방법 |
가정된 분포의 모수에 대해 가설 설정 | 가정된 분포가 없음 [가설은 단지 '분포의 형태가 동일하다' 또는 '분포의 형태가 동일하지 않다'와 같이 분포의 형태에 대해 설정] |
관측된 자료를 이용해 구한 표본평균, 표분분산 등을 이용해 검정을 실시 | 관측값의 절대적인 크기에 의존하지 않는 관측값들의 순위나 두 관측값 차이의 부호 등을 이용해 검정 |
[개미의 걸음 ADsP 3과목] 확률분포① 이산형 확률 분포 (0) | 2021.02.15 |
---|---|
[개미의 걸음 ADsP 3과목] 확률의 이해 (0) | 2021.02.14 |
[개미의 걸음 ADsP 3과목] EDA & 결측치 및 이상치 처리 (0) | 2021.02.13 |
[개미의 걸음 ADsP 3과목] 데이터 가공(변수의 중요도 및 구간화) (0) | 2021.02.12 |
[개미의 걸음 ADsP 3과목] 데이터 마트 ① reshape 패키지 (0) | 2021.02.11 |
댓글 영역