본문 바로가기

공공기관, 기업 데이터분석

퀵데이터에서 알아보는 '선거일 출구 여론조사'

415총선 꼭 투표합시다.

이번 4.15. 제21대 국회의원 선거와 관련하여

퀵데이터에서 선거 출구 여론조사 통계에 대해서 알아보겠습니다.

정치적 직위에 대한 선거가 있을때, TV방송국들은 정규 방송을 취소하고 선거에 관한 방송을 내보냅니다.

개표가 이루어질 때 개표 결과가 보도되어지죠.

대통령 또는 국회의원 같은 중요한 직위에 대한 선거가 있을 때 TV방송국들은 어느 후보가 승리할 것인지를 예측하는 첫 번째 방송국이 되기 위해 적극적으로 경쟁합니다.

이와 같은 예측은 출구 여론조사에 기초하여 이루어집니다.

출구 여론조사는 임의표본에 속하는 투표소를 방금 나온 유권자들에게 어느 후보에게 지지하는 투표를 했는지를 물어보면서 이루어져요.

*여론조사 : Warren Mitofsky가 CBS뉴스 부서에서 재직하던 당시 1967년 선거일 출구여론조사를 창안것으로 일반적 썰~

출구조사 결과로부터 특정한 후보를 지지하는 투표를 한 유권자들의 표본비율이 계산됩니다.

선두 후보가 승리하기에 충분한 투표수를 확보할 것이라고 추론하기에 충분한 증거가 존재하는지를 결정하기 위해 통계기법이 사용됩니다.

퀵데이터에서 2020년 총선을 가정하고

대한민국 정치 1번지 종로구를 예로 들어 볼게요.

선의의 경쟁을 하시길 바랍니다.

2020년 국회의원 선거일 동안 종로구에서 실시된 출구 여론조사에서 여론 조사원들은 승리할 가능성이 있는 두 후보자, 즉 더불어민주당 후보 이낙연과 미래통합당 후보 황교안에 대한 투표수만을 기록하였다고 가정하겠습니다.

출구 여론조사는 오후 8시 종료됩니다.

TV방송국들은 이와 같은 출구 여론조사 데이터로부터 더불어민주당 이낙연 후보가 종로구에서 승리할 것이라고 결론 지을수 있을까요?

또한 TV방송국들은 더불어민주당 이낙연 후보가 종로구에서 승리할 것이라고 오후 8시 1분에 발표해야 할까요?

알아보도록 하게습니다.

단, 더불어민주당 이낙연 후보를 지지하는 투표를 한 투표의 수를 407명이고 전체 투표 표본크기는 765로 가정하겠습니다.

어디가끼지나 예를 드는 것이니 수치에 너무 민감해 하지 마세요~~^^

데이터의 값이 “더불어민주당 후보” (code=1)와 “미래통합당 후보” (code=2)이기 때문에 데이터는 범주형 데이터 입니다.

따라서 검정되어야 하는 모수는 지역구 전체에서 더불어민주당 후보를 지지한 투표의 비율입니다.

TV방송국이 더불어민주당 후보가 승리라고 오후 8시 1분에 선언할 수 있는지를 결정하기 원하기 때문에 가설은 다음과 같습니다.

 

대립가설

$\combi{H}_1\ :\ p\ >.5$H1 : p >.5

귀무가설

$\combi{H}_0\ :\ p\ =.5$H0 : p =.5

검정통계량

$Z=\frac{\hat{p}-p}{\sqrt{\frac{p\left(1-p\right)}{n}}}$Z=^ppp(1p)n

가설과 통계량은 위와 같이 설정할 수 있습니다.

이제 위 공식으로 계산을 해보도록 하지요.

위 예는 5%의 유의수준을 요구하는 표준적인 문제라서 기각역은

$Z>Z_a=\combi{Z}_{.05}=1.645$Z>Za=Z.05=1.645

가 되겠습니다.

 

데이터 파일로부터 더불어민주당 이낙연 후보를 지지하는 투표 수와 표본크기를 통하여 표본비율은 다음과 같아요.

$\hat{p}=\frac{x}{n}=\frac{407}{765}=.532$^p=xn=407765=.532

 

검정통계량의 값은

$Z=\frac{\hat{p}-p}{\sqrt{\frac{p\left(1-p\right)}{n}}}=\frac{.532-.5}{\sqrt{\frac{.5\left(1-.5\right)}{765}}}=1.77$Z=^ppp(1p)n=.532.5.5(1.5)765=1.77

이 됩니다.

검정통계량은 근사적으로 정규분포를 따르기 때문에 검정의 P-값을 다음과 같이 결정할 수 있습니다.

$p값=p\left(z>1.77\right)=1-p\left(Z<1.77\right)=1-.9616=0.384$p=p(z>1.77)=1p(Z<1.77)=1.9616=0.384

 

5%의 유의수준에서 더불어민주당 이낙연 후보가 승리했다는 충분한 증거가 존재하게 됩니다.

즉,

검정통계량의 z=1.77이고, 검정의 단측 p값=.0382입니다.

5%의 유의수준에서 귀무가설은 기각되고 종로구에서 더불어민주당 이낙연 후보가 제21대 국회의원 선거에서 승리했다고 추론하기에 충분한 증거가 존재한다고 결론지을수 있습니다.

여기서 고려해야 하는 주요 쟁점 중 하나는 제1종 오류와 제2종 오류의 비용입니다.

제1종 오류는 실제로는 패배했는데도 더불어민주당 이낙연 후보가 승리할 것이라고 결론을 내리면 발생하는 것입니다.

이와 같은 오류는 TV방송국이 오후 8시 1분에 더불어민주당 후보가 승리했다고 선언하고 이어서 저녁 늦게 실수를 인정해야만 한다는 것을 의미하는 것입니다. 만일 한 특정 TV방송국이 이와 같은 오류를 범한 유일한 방송국이라면 이 사건은 이 방송국의 성실성에 대하여 의구심을 불러일으키고 시청자의 수에 영향을 미칠 수 있을 것입니다. 방송사가 모두 같은 실수에 대하여 일제히 보도를 내보낸다면 묻어가기로 실수가 용납(?)이 되겠지만 그래서는 안되겠죠.

이와 같은 성과는 TV 광고에 상당한 이점으로 작용될 것이고 더 많은 시청자들을 끌어들이는 것에 사용될 것입니다.

실제로 해외 선거 방송국에서 실수로 일어나기도 하고, 우리나라에서도 가끔.... 있을까요?^^

위 방송 사고 사진은 본 사건과 관련이 없음을 알려드립니다.

지금까지 퀵데이터가 알아본 21대 국회의원 선거 출구 여론조사는

어디까지나 반드시 분명히 "예(example)를 들었다"는 것 잊지 마시구요~~~~^^

4.15. 제21대 국회의원 선거 꼭 투표하러 가요!!

 

​(주)한국교육데이터

#21대국회의원 #21대총선 #선거 #출구조사 #여론조사 #더불어민주당 #미래통합당 #이낙연 #황교안 #귀무가설 #대립가설 #검정통계량 #Z검정 #유의수준 #기각역 #제1종오류 #퀵데이터 #통계분석 #한국교육데이터