본문 바로가기

논문/연구,조사 분석방법

서베이 & 리서치 시행의 표본오차와 비표본오차는 무엇일까?_ 퀵데이터

학위논문, 기업 및 공공기관 등에 필요한 서베이 리서치를 시행하고 통계분석을 적용할 때 관측치들의 표본이 모집단으로부터 추출되면서 표본오차와 비표본오차가 발생할 수 있습니다.

퀵데이터에서 표본오차와 비표본오차는 무엇인지에 대해 알아보겠습니다.

표본오차

sampling error

표본오차는 우연히 표본으로 선택된 관측치들 때문에 존재하는 표본과 모집단의 차이를 의미합니다. 모집단으로부터 추출된 하나의 표본에 포함되어 있는 관측치들에만 기초하여 모집단에 관해 추론할 때 발생될 것으로 예상되는 오차입니다.

좀 더 쉽게 예를 들어보겠습니다.

서울의 사무직 근로자들의 연평균 소득을 결정하려고 한다고 가정하겠습니다. 원하는 모수를 결정하려면 서울 사무직 근로자 모두에게 소득이 얼마인지를 물어보고 모든 응답들의 평균을 계산하여야 할 것입니다. 그런데 대상 모집단 크기가 수십만에서 수백만까지 될 수도 있기 때문에 이러한 일은 비용도 많이 들것이고 현실적으로 불가능하다 하겠죠?

100%보다 낮은 정확도를 기꺼이 수용할 수 있다면 모집단의 평균소득 μ를 추정하기 위해 통계적 추론이 사용됩니다. 거의 대부분이 이같은 통계적 추론을 합니다. 표본으로 추출된 근로자들의 소득을 기록하고 소득의 표본평균 x를(X bar) 계산하는데 이같은 표본평균이 모평균의 추정치가 됩니다. 하지만 표본평균의 값은 어떤 소득이 표본으로 우연히 선택되었는가에 따라서 결정되므로 모평균으로부터 떨어져 있을 것입니다.

모평균의 진정한(알려지지 않은)값과 모평균의 추정치(표본평균)의 차이가 표본오차입니다.

오차의 크기는 특히 모집단을 대표하지 못하는 특정표본이 우연히도 선택되는 운빨(?)때문에 커질 수 있습니다. 표본오차의 크기를 줄일 수 있는 유일한 방법은 큰 표본을 추출해야 해요.

표본크기가 일정하게 주어져 있는 경우에 우리가 할 수 있는 최선의 방법은 표본오차가 일정한 크기보다 적은 확률을 나타내는 것입니다.

선거 관련한 뉴스 보도에 자주 나오는데요. 예를 들어 표본결과에 기초해 현재 국회의원 후보가 차기선거에서 유권자의 56%의 지지를 받을 것이라고 여론조사 결과가 발표되었다면 꼭 다음과 같은 멘트가 포함됩니다.

"지지율 56%는 95%의 신뢰수준에서 3% 포인트 이내에서 정확합니다."

이것은 국회의원 후보의 실제 지지율은 53%와 59%사이에 포함된다는 것을 의미하고 동시에 이와 같은 방법을 사용하여 반복적으로 구해지는 현 국회의원 후보의 지지율 구간 중 95%만이 실제지지율을 정확하게 포함한다는 것을 의미하는 것이죠.

비표본오차

nonsampling error

비표본오차는 표본크기가 크다고 할지라도 비표본오차의 크기와 발생가능성을 감소시키지 못하기 때문에 표본오차보다 더 심각하다고 할 수 있습니다. 센서스도 비표본오차를 포함하고 있을 가능성이 큽니다. 비표본오차는 데이터를 수집하는 데서 만들어지는 실수 혹은 부적절한 표본관측치들이 선택되기 때문에 발생하는데 크게 세가지로 구분해 볼 수 있습니다.

데이터 수집상의 오차

부정확한 응답을 기록하는데 발생하는 것입니다. 부정확한 데이터는 불완전한 장비, 원자료를 옮기는 과정에서 실수, 용어의 잘못된 해석에 기인한 데이터의 부정확한 기록, 성적 활동 또는 세금회피 가능성과 같은 민감한 쟁점들에 관한 질문에 대한 부정확한 답변 등이 수집될 수 있기 때문입니다.

무응답오차

표본의 일부로부터 응답을 받지 못할 경우 발생하는 오차 혹은 편의(bias)입니다. 이런 경우 수집되는 표본관측치는 목표모집단을 대표하지 못할 수 있고 편의가 있는 결과가 발생할 수 있습니다. 다양한 이유로 무응답이 발생하는데 예를 들면 설문조사자가 표본에 있는 사람을 접촉하지 못할 수 있거나 표본에 있는 사람이 어떤 이유로 답변을 거부할 수 있을 겁니다. 뭐든 간에 표본에 있는 사람으로부터 응답을 얻지 못할 수 있고 이에 따라 편의가 나타나게 되는 것이죠. 이런경우에 자기선택표본이 발생할 수 있고 이것은 항상 편의를 가지게 됩니다.

선택편의

표본추출방법이 목표 모집단의 일부를 표본에 선택될 수 없게 만드는 경우에 발생할 수 있습니다.

예를 들면 JBC라는 뉴스 전문 방송국에서 미군이 계속 한국에 주둔해야 하는가라는 토론을 하면서 시청자들에게 방송국 전화번호를 주고 답변할 수 있게 하였다고 해보죠. 10만명 이상이 전화하고 69%가 아니오라고 응답하였습니다.

예를 든 가정이라는 거 다시한번 알려드리고 개인적 사견이 첨부되지 않았음을 알려드립니다^^

방송국 전화 응답에 이어 500명을 대상으로 시장리서치 여론조사를 실시하였는데 이 여론조사에서는 73%가 미군이 주둔해야 한다고 답변하였다고 가정해보겠습니다.

이러한 경우 전화가 없는 유권자들은 혹은 JBC뉴스를 시청하지 않는 유권자들이 표본에 포함될 가능성이 배제되어서 여론조사가 잘못되는 것에 선택편의가 발생합니다.


이상 퀵데이터에서 실증적 연구 기반의 논문, 기업설문, 공공기관 설문조사 등에서 발생하는 표본오차와 비표본오차에 대해 알아보았습니다.

설문기획, 데이터통계분석은 퀵데이터와 함께 하세요`~^^

​(주)한국교육데이터

 

 

#서베이 #리서치 #표본오차 #비표본오차 #박사학위논문 #석사학위논문 #논문통계 #설문기획 #기업데이터분석 #기업통계 #공공기관통계 #퀵데이터 #한국교육데이터