설문데이터 활용하기1 - 확률적 표본 추출(Probability Sampling)
25 Jan 2022 Statistics [KEY WORD]
#설문조사, #확률, #통계, #확률적 표본 추출
설문데이터 활용에 앞서서, 해당 설문 자체가 얼만큼 모집단을 대표할 수 있는가를 알기 위해서는 설문 대상이 “확률적 표본 추출”을 따랐는지 확인해보아야한다. 이에 “확률적 표본 추출”이 구체적으로 무엇을 뜻하는지 살펴보자.
확률적 표본추출
: 큰 모집단으로부터 작은 샘플그룹을 랜덤하게 선택하는 통계 방법으로, 샘플의 응답이 모집단의 경향성을 대표. 이때 모집단을 대표하기 위해서는 2가지 중요한 조건이 필요.
1) Non-Zero chance of being selected
: 모든 모집단의 유저가 뽑힐 확률이 있어야 함 (체계적으로 설문을 수행할 수 없는 사용자가 존재해서는 안됨)
- ex) 특정 언어로만 작성되어, 이외 언어사용자는 설문참여가 불가능한 경우
- ex) 설문 진행 시점이, 특정 행동 수행 이후로 한정됨(의도적으로 특정 유저만을 설문하는 경우라면 가능)
2) Know the chance of being selected for each person
: 구체적으로 뽑힐 확률이 각자에게 얼마나 되는지 알아야함. 이때 모집단의 특성을 반영하기 위해 적절한 전략을 선택.
(1) 단순 무작위 표집 (Simple random sampling)
: 추출은 무작위로 진행되며, 모든 유저가 동일한 추출확률을 갖음.
- 장점 : 쉬움.
- 단점 : 표본이 모집단에 비해 작을 시, bias가 발생할 확률이 높아져 신뢰도가 낮아짐.
(2) 층화 표집 (Stratified sampling)
: 모집단을 서로 배타적이며, 모두 합쳤때 전체가 되는 집단으로 나누고, 각 집단별로 추출될 확률을 서로 다르게 부여함. (ex. by gender, age, ethnicity, etc)
- 장점 : 모든 층화에서 설계된 확률만큼 무작위로 표본추출된다면, 모집단을 대표할 수 있음
(3) Cluster sampling
: 서로다른 클러스터(ex. 지역)을 임의로 선택한 다음, 선택한 클러스터의 일부 또는 모든 구성원을 조사함
- 장점 : 시간 & 비용 절감
Reference
[1] 확률적표본추출