You& Data_Science & Life

설문데이터 활용하기2 - 신뢰수준과 표본오차

  [KEY WORD]
  #설문조사, #확률, #통계, #신뢰구간, #표본오차

설문 표본이 실제 모집단의 특성을 왜곡하지 않고 무작위 또는 층화 표집으로 추출되었더라도, 너무 적은 표본은 편향 및 오차를 포함할 수 있다. 따라서 통상 95% 신뢰수준하에서, 표본의 크기에 따른 표본 오차가 얼마나 발생하는지 측정하여야 설문 결과로 얻은 값이 우연의 일치인지, 아니면 통계적으로 유의미한 차이인지 확인할 수 있다.


1. 일반 관점, 신뢰수준과 표본오차

: 아래와 같은 여론조사가 있다고 할때, ‘신뢰수준’과 ‘표본오차’는 무엇일까.

1000명을 대상으로 조사한 결과, 38%는 A후보, 26%는 B후보, 24%는 C후보를 지지한다고 응답하였다. (95% 신뢰수준에 표본오차 ±3%)

1) 신뢰수준 95%

: 동일 조사 100번 수행시, 오차범위내 동일한 결과가 나올 횟수가 95번.

2) 표본오차 (신뢰수준 95%일 때)

: 동일 조사 100번 수행시, 95번은 오차가 ±3% 포인트 안에 있음.

  • (1) 모집단 또는 표본의 표준편차를 알 때 : $\epsilon$ = $z \times \sqrt{\sigma^2\over n}$
  • (2) 모집단 또는 표본의 표준편차를 모를 때 : $\epsilon$ = $z \times \sqrt{p(1-p)\over n}$
  • (3) 모집단 또는 표본의 표준편차를 모르며, 모집단이 충분히 크지 않을 경우 : $\epsilon$ = $z \times \sqrt{p(1-p)(N-n)\over n((N-1))}$
    • p : 특정 결과 발생 확률 (0.5가 가장 불확실성이 높기에, 표본 오차를 극대화 하기 위해선 0.5로 통상 설정)
    • n : 표본 크기(Sample Size)
    • N : 모집단(Population)

3) 해석

  • A후보는 B,C 오차범위 밖에서 큰 차이로 앞선다.
    → 95% 신뢰수준으로, A가 B,C보다 높다고 할 수 있다.
  • B와 C 후보는 오차범위 내에 있다.
    → 95% 신뢰수준으로, B가 C보다 높다고 할 수 없다.

2. 통계 관점, 신뢰수준과 표본오차

  • https://kuduz.tistory.com/1220 게시글 ‘오차범위(표본오차)란 무엇인가를 공부한 글입니다.’

1) 이항분포 (동전던지기)

(1) 2회 시행시, 앞면(H)이 N번 나올 확률 분포

  • H, 0회 확률 : 1/4 [T,T]
  • H, 1회 확률 : 2/4 [T,H], [H,T]
  • H, 2회 확률 : 1/4 [H,H]

(2) 3회 시행시, 앞면(H)이 N번 나올 확률 분포

  • H, 0회 확률 : 1/8 [T,T,T]
  • H, 1회 확률 : 3/8 [T,T,H], [T,H,T], [H,T,T]
  • H, 2회 확률 : 3/8 [T,H,H], [H,T,H], [H,H,T]
  • H, 3회 확률 : 1/8 [H,H,H]

(3) 100회 시행시, 앞면(H)이 N번 나올 확률 분포

  • 100번 던질 때, 앞면이 49~51회 나올 확률 : 23.6% (7.8% + 8% + 7.8%)
  • 100번 던질 때, 앞면이 40~60회 나올 확률 : 95.4% 무려 95%의 확률이 가운데 20회의 경우에 발생한다…!?!? 정규분포의 형태를 띄어감!
"이항분포의 정규근사" 시행 횟수가 많을수록 그리고 확률이 1/2에 가까울 수록, 이항분포는 정규분포에 가까워진다.

2) 정규분포

: 앞서 동전던지기를 통해, 이항분포가 정규분포를 띄고 있음을 보았다. 따라서 정규분포의 특징을 정리하면 아래와 같다.

  • 평균이 가장 볼록하고, 평균에서 멀어질 수록 높이가 낮아지는 분포
  • 평균($\mu$) & 표준편차($\sigma$)에 따라 모양이 변함

3) “표준”정규분포

: 위 정규분포는 평균과 표준편차에 따라서, 모두 모양이 제각각이다보니, 특정 확률(ex.95%)를 규정하려면 정규분포마다 서로 다른 표준편차값이 설정될 것이다. → 때문에 정규분포에서 평균을 빼고, 표준편차로 나눠 ($Z$ = $(X - \mu)\over\sigma$) 평균이 0이고, 표준편차가 1인 ‘표준’정규분포로 변환하여 규격화해보자.

  • 평균($\mu$) : 0
  • 표준편차($\sigma$) : 1

4) 신뢰구간(confidence_interval)

: 이렇게 ‘표준정규분포’를 얻었고, 우리는 대략 2표준편차, 정확히는 $\pm$1.96$\sigma$ 안에 전체 사례의 95%가 포함됨을 앞서 동전사례를 통해 알고 있습니다. 따라서 95% 신뢰구간이라하면 +1.96$\sigma$ ~ +1.96$\sigma$로 표현 하며, 오차범위 & 표본오차라고도 부릅니다.

5) 신뢰수준(confidence_level)

: 그렇다면 ‘신뢰수준’의 의미는 무엇일까.

  • 평균이 0, 표준편차가 1인 (표준)정규분포를 따르는 모집단이 있을 때,
  • 샘플(표본) 50개를 뽑고, 이 샘플의 평균과 표준편차를 계산하면,
  • 각 샘플의 신뢰구간 100개 가운데, 95개(95%)는 샘플의 신뢰구간안에 모집단의 평균(0)이 위치할 것이라는 것.(물론 정확히 95%는 아니겠지만 95%에 수렴)
  • 즉, 신뢰수준 95%는 100번 조사했을 때, 95번은 모집단의 값을 예측할 수 있지만, 5번 정도는 틀릴 수 있다는 뜻이 됩니다.

6) 샘플(표본)로 모집단 유추하기

: 앞서 신뢰수준을 이야기할 때, 우리는 모집단의 평균(모평균)이 0이라고 가정했기에, 표본 95개의 신뢰구간안에 모평균이 위치함을 알 수 있었습니다. 그러나 현실 및 여론조사에서 모집단의 평균을 알 수 없습니다. 이럴 때는 어떻게 신뢰수준 95%를 확인 할 수 있을까요. 샘플을 활용하여, 모집단의 평균을 추정할 수 있는지 확인해 봅시다.

(a) 모집단

  • 모집단 : [1,2,3]
  • 모평균($\mu$) : 2
  • 모분산($\sigma^2$) : $2\over3$ = ( $(1-2)^2 + (2-2)^2 + (3-2)^2)\over3$ )
  • 모표준편차($\sigma$) : $\sqrt{2\over3}$

(b) 표본

: 2개의 샘플을 추출(반복추출 허용)할 때 모든 경우의 수는 아래 테이블과 같음.

표집 표본 평균 오차(표본평균 - 모평균) 오차 제곱
[1,1] 1 1 1
[1,2] 1.5 0.5 0.25
[1,3] 2 0 0
[2,1] 1.5 0.5 0.25
[2,2] 2 0 0
[2,3] 2.5 -0.5 0.25
[3,1] 2 0 0
[3,2] 2.5 -0.5 0.25
[3,3] 3 -1 1
평균 2 0 $1\over3$
  • 표본 평균의 평균($\bar{X}$) : 2
  • 표본 분산($S^2$) : $1\over3$
  • 표본 표준편차 -> 표준오차($S$) : $\sqrt{1\over3}$

(c) 표본평균과 모집단의 관계

: 우리는 표본평균으로부터 위와 같은 통계치들을 얻을 때, 아래와 같은 사실을 확인 할 수 있습니다.

  • 표본평균의 평균은 모평균과 같다. → [$\bar{x} = \mu$]
  • 표본평균의 오차 제곱의 평균 즉 분산은, 모분산을 표본의 크기로 나눈값과 같다. → [$S^2$ = $\sigma^2\over n$]
  • 표본평균의 표준편차(= 표준오차) → [$S$ = $\sqrt{\sigma^2\over n}$]
"이는 즉 표본의 평균과 분산을 알면,
모집단의 평균과 분산도 알 수 있다는 이야기!"

(d) 모분산을 모른다면?

특정 관측치가 나타날 확률을 p라고 할 때, 기댓값($E(X)$) = 관측값 x 발생확률 = “n X p”라고 표현 할 수 있습니다.

그렇다면 다시 동전으로 돌아가 앞면에 1, 뒷면을 0에 값으로 부여 할때, 각면의 발생 확률(p) = $1\over2$입니다.

1) 따라서 기댓값은 아래와 같이 쓸 수 있고,

기댓값($E(X)$) = $1\over2$ = 0 $\times$ $1\over2$ + 1 $\times$ $1\over2$

2) 분산은 편차의 제곱에 평균이기에, 편차의 제곱값에 각 편차의 발생확률을 곱해준것과 같습니다.

분산($\sigma^2$) = $\left( 0 - \frac{1}{2} \right)^2 \times \frac{1}{2}$ + $\left( 1 - \frac{1}{2} \right)^2 \times \left(1 - \frac{1}{2}\right)$

3) 위 식을 일반화 시키면 아래와 같습니다.

$\begin{matrix} \sigma^2 &=& (1-p)^2 \times p + (0-p)^2 \times (1-p) \\ &=& p(1-p) \end{matrix}$

4) 앞서 표본의 표준편차(표준오차)($S$)은 아래 공식과 같았습니다.

$S$ = $\sqrt{\sigma^2\over n}$

5) 위 표준오차의 분산($\sigma^2$)자리에, 위에서 찾은 발생확률 p로 계산한 분산을 대입하면 아래와 같습니다.

$S$ = $\sqrt{p(1-p)\over n}$

6) 자 이제, 모집단의 분산을 모르더라도 표준오차를 계산할 수 있게되었습니다.
1표준오차가 위 공식과 같을 때, 우리는 앞서 95% 신뢰수준하에서 표준오차의 범위(오차범위[$\epsilon$])를 알고 싶습니다.
양측으로 2표준편차(정확히 1.96표준편차)에서 95%의 값을 포함하고 있기에, 표준오차 공식에 1.96이라는 z-score를 곱해줍니다.
(2표준편차라고 이야기할 때 ‘2’가 z-score이며, 95%는 1.96이됩니다.)

$\epsilon$ = $z \times \sqrt{p(1-p)\over n}$

7) 표준오차를 활용하여, 실제 통계치 비교하기

: 이제 설문조사 결과를, 표준오차를 활용한 신뢰구간의 범위로 확장하여 다시 살펴보겠습니다.

  • 표본 오차 3.1%포인트일때, 긍정평가 49%의 신뢰구간 = 45.9% ~ 52.1%
  • 표본 오차 3.1%포인트일때, 부정평가 45%의 신뢰구간 = 41.9% ~ 48.1% $\therefore$ 두 응답의 오차범위가 서로 중첩되기에, 긍정평가가 더 높다는 설문결과는 95%신뢰수준을 만족하지 못하고 결과가 뒤집힐 수 있습니다.
  • 표본 오차 3.1%포인트일때, 긍정평가 49%의 신뢰구간 = 45.9% ~ 52.1%
  • 표본 오차 3.1%포인트일때, 부정평가 41%의 신뢰구간 = 37.9% ~ 44.1% $\therefore$ 두 응답의 오차범위가 서로 벗어나 있기에, 긍정평가가 더 높다는 설문결과는 신뢰도 95% 기준으로 차이가 있다고 할 수 있습니다.
"표본오차보다 작은 변동에 대한 의미 부여는,
해설이 아니라 소설이다."

Reference

[1] 오차범위(표본오차)란 무엇인가?
[2] 표준오차, 표본오차, 오차한계 개념 구분
[3] Standard Normal Distribution, Standard Gaussian Distribution