말하는 감자

[빅데이터 분석기사] 표본 추출 본문

Computer science & Infra/Big Data

[빅데이터 분석기사] 표본 추출

개똥벌레25 2023. 3. 29. 23:15
728x90

데이터를 얻는 행위 자체에서도 통계적인 이해와 기술이 필요하다. 당연히 전수 조사는 비용이 크기 때문에 모집단의 일부가 전체를 대표할 수 있다는 근거가 명확하다면 일부의 표본으로 조사분석을 시행하고 모집단 전체의 분석결과로 사용이 가능하다. 중복된 데이터만으로 모집단이 규정되는 과잉 대표 현상, 실제 모집단의 대표성을 나타낼 표본이 아닌 데이터가 표본이 되는 최소 대표 현상 같은 오차를 줄이려면 표본추출 시 표본의 크기보다는 대표성을 가지는 표본을 추출하는 것이 중요하다. 

 

표본 추출 방법

  1. Simple Random Sampling 단순무작위 추출: 추출 모집단에 대해 사전지식이 많지 않은 경우 시행하는 가장 기본이 되는 표본추출법이다.
  2. Systematic Sampling 계통 추출: every k-th sampling. 추출간격을 설정하여 추출한다.
  3. Cluster Sampling 군집 추출: 모집단을 여러개의 군집으로 나누어 군집을 대상으로 분석을 시행한다. 단순 임의 추출에 비해 표본 오차가 증대할 가능성이 있다.
  4. Stratified Sampling 층화 추출: 모집단 자체를 여러개의 층으로 분할하여 각 층에서 표본을 추출하는 방법이다. 전체 모집단 뿐만 아니라 각 층별 추정결과도 얻을 수 있다. 경우에 따라 배분법이 달라진다.
표본의 배분 방법 예시 추가 설명
각 층의 단위 수에 따라 비례배분법 ex) 유권자의 성비가 3:2면 추출표본의 성비도 3:2 수준으로 추출
각 층의 변동성에 따라 네이만배분법 변동이 큰 층에서는 표본을 많이 추출함
각 층의 조사비용에 따라 최적배분법 비용증가 시 표본추출을 줄임

 

그 밖에 비확률 표본추출 기법

비용, 조사의 편리함 때문에 모집단을 정확하게 규정지을 수 없는 경우나 표본오차가 큰 문제가 되지 않는 경우 사용한다.

 

방법론 예시
Convenience Sampling 간편 추출법 지나가는 사람들을 대상으로 여론조사하는 경우
Judgement Sampling 판단추출법 교육연구소의 연구원이 대표된다고 생각되는 학교 몇개를 선택하여 평균성적을 조사하는 경우
Quota Sampling 할당추출법 학생의 학과별, 학년별, 성별 구성비율에 따라 표본도 유사하도록 할당하는 경우
Snowball Sampling 눈덩이추출법 폭력조직원들의 약물사용 실태를 조사할 때 다른 집단을 소개받아서 점점 표본을 늘려가는 경우

 

 


 

 

위의 표본추출 방법을 통해 얻어낸 자료로부터 모집단에 대한 과학적인 추론을 하는 통계 기법을 추론 통계 라고 한다.

 

반면, 분석에 필요한 데이터를 요약하여 묘사/설명하는 과정이 필요하다. 이런 기법을 기술 통계 라고 한다.
그 종류에는 크게 세가지가 있다. Central Tendency, Degree of Dispersion, Skewness. 차례대로 말하자면 자료들을 대표하는 값은 어떤것인지, 분산의 정도는 얼마나 되어 있는지, 대칭 정도는 얼마인지 로 자료들을 설명/요약할 수 있다. 
Comments