You& Data_Science & Life

설문데이터 활용하기1 - 확률적 표본 추출(Probability Sampling)

  [KEY WORD]
  #설문조사, #확률, #통계, #확률적 표본 추출

설문데이터 활용에 앞서서, 해당 설문 자체가 얼만큼 모집단을 대표할 수 있는가를 알기 위해서는 설문 대상이 “확률적 표본 추출”을 따랐는지 확인해보아야한다. 이에 “확률적 표본 추출”이 구체적으로 무엇을 뜻하는지 살펴보자.

확률적 표본추출

: 큰 모집단으로부터 작은 샘플그룹을 랜덤하게 선택하는 통계 방법으로, 샘플의 응답이 모집단의 경향성을 대표. 이때 모집단을 대표하기 위해서는 2가지 중요한 조건이 필요.

1) Non-Zero chance of being selected

: 모든 모집단의 유저가 뽑힐 확률이 있어야 함 (체계적으로 설문을 수행할 수 없는 사용자가 존재해서는 안됨)

  • ex) 특정 언어로만 작성되어, 이외 언어사용자는 설문참여가 불가능한 경우
  • ex) 설문 진행 시점이, 특정 행동 수행 이후로 한정됨(의도적으로 특정 유저만을 설문하는 경우라면 가능)

2) Know the chance of being selected for each person

: 구체적으로 뽑힐 확률이 각자에게 얼마나 되는지 알아야함. 이때 모집단의 특성을 반영하기 위해 적절한 전략을 선택.

(1) 단순 무작위 표집 (Simple random sampling)

: 추출은 무작위로 진행되며, 모든 유저가 동일한 추출확률을 갖음.

  • 장점 : 쉬움.
  • 단점 : 표본이 모집단에 비해 작을 시, bias가 발생할 확률이 높아져 신뢰도가 낮아짐.

(2) 층화 표집 (Stratified sampling)

: 모집단을 서로 배타적이며, 모두 합쳤때 전체가 되는 집단으로 나누고, 각 집단별로 추출될 확률을 서로 다르게 부여함. (ex. by gender, age, ethnicity, etc)

  • 장점 : 모든 층화에서 설계된 확률만큼 무작위로 표본추출된다면, 모집단을 대표할 수 있음

(3) Cluster sampling

: 서로다른 클러스터(ex. 지역)을 임의로 선택한 다음, 선택한 클러스터의 일부 또는 모든 구성원을 조사함

  • 장점 : 시간 & 비용 절감

Reference

[1] 확률적표본추출