본문 바로가기

논문/논문통계

통계는 판단 자료의 하나! 퀵데이터에서 허위상관에 대해 알아볼까요?

상관을 알면 영향을 주는 요인을 알수있어요.

하지만 상관이 있어도 요인을 특정할 수는 없어요.

왜 그럴까요??

예를들어 시별로 은행ATM기계수와 교통사고 관계를 그래표로 나타내볼께요.

표를 보면 양의 상관관계를 나타내고 있습니다.

헉 그런다면...ATM기계 수가 많으면 교통사고 건수도 많아진다??? 왜??? 왜 그럴까요?

그런다면 ATM기계 수를 줄이면 교통사고가 줄어든다는 소리일까요?

결국 상관이 있다고 해도 인과관계가 있지는 않습니다.

운전시간? 교통량? 차종? 은행? 자동차보급률? ATM기계? 인구?

교통사고 발생 요인은 다양합니다. 그래서 둘 사이에 어떠한 인과관계가 있는지를 검정해야 합니다.

교통사고와 ATM기계의 수 무엇과 관련돼 있을까요? 여러분은 아셨나요?

맞습니다. '인구'가 이 상관에 관련되어 있다고 가정할 수 있습니다.

이 판단이 맞는지 확인하려면 '편상관계수'가 효과적입니다.

먼저 '교통사고 건수와 ATM기계 수', 'ATM기계 수와 인구', '교통사고 건수와 인구'로 각각 나눠 상관계수를 산출해보겠습니다.

'ATM기계 수와 교통사고 건수'는 양의 상관을 나타내고 있지만, 'ATM기계 수와 인구', '교통사고 건수와 인구'도 양의 상관으로 볼 수 있다는 결과가 나옵니다. 결국 인구가 ATM기계 수와 교통사고 건수 모두에 영향을 주고 있습니다. 분명 ATM기계 수와 교통사고 건수는 양의 상관관계가 있습니다. 다만, 양의 상관관계라고 해서 '인과관계'가 있는것은 아닙니다. 이번 경우는 '인구'가 ATM기계 수와 교통사고 건수에 영향을 주고 있었습니다. 겉보기에만 상관[허위상관]으로 보이는 경우였습니다.

 통계학은 우리 생활에 유용한 학문입니다. 하지만 사용할 때 각별히 주의해야 합니다. 상관이 있다고 해서 인과관계가 있는 것은 아니니까

말입니다. 무엇보다 허위상관을 파악하려면 현장 지식이나 활용능력이 필요합니다. 어디까지나 통계는 판단을 위한 도구임을 잊지마세요!

통계학은 마법의 도구라고 말할 수 없지만 잘 사용하면 매우 편리한 도구가 될 수 있습니다 *^^*

"상관이 있다"는 의미는?

1. 모든 요소를 고려해 본질을 파악한다.

산포도에서는 인과관계가 있는 것처럼 보이는 상관을 '허위상관(spurious correlation)'이라고 합니다.

'ATM기계 수'와 '교통사고 건수'의 산포도입니다. 양의 상관을 나타내지만 둘은 '인과관계'가 아닙니다. '인과관계'란 원인과 결과입니다. 'ATM기계가 많다(원인)'에서 '교통사고가 많다(결과)'는 상식적으로 관련이 없습니다. 상관계수만 따라가면 허위상관을 간과하기 쉽습니다.

2. 양쪽 데이터와 상관이 있는 또 하나의 데이터를 생각해보자.

두 데이터(변량)에서 유사상관이 의심될 때 양쪽 데이터에 상관이 있는 또 하나의 데이터를 생각해봐야 합니다. 데이터를 모을 때는 가능한 많은 데이터를 수집하고 검토할 때도 주의를 기울여야 합니다. 그 후 '무엇'이 '무엇'에 영향을 주는지 생각해야 합니다. 허위상관을 놓치지 않도록 신경써야 합니다.

 ATM기계 수가 늘어나면 교통사고도 늘어난다? 인과관계는 아니지만 수치만 보면 상관이 나타날 수 있습니다. 이것을 '허의상관'이라고 하였습니다. 'ATM기계 수(x)'와 '교통사고 건수(y)'는 둘 다 '인구'와 상관을 생각할 수 있습니다.

인구가 많은 지역에서는 'ATM기계 수'도 많고 '교통사고 건수'도 많기 때문입니다. 반대로 '인구'가 적으면 'ATM기계 수'도 적고 '교통사고 건수'도 적겠죠~

 그럼, 여름에 아이스커피가 팔리면 아이스크림도 팔린다? 이건 어떨까요? 매출데이터는 허위상관에 속기 쉽습니다. 어쩌면 기온뿐 아니라 불쾌지수가 원인일 수도 있기때문입니다. 어떤 믿음이나 선입관으로 '인과관계가 있을 것 같다'고 생각하면 허위상관에 속기 쉽습니다.

무엇을 데이터로 다룰지에 따라 상관이 달라집니다. 그것을 살펴보는 방법으로 편상관계수가 있습니다.

허위상관을 찾는 '편상관계수'

'인구'라는 영향을 제외한 'ATM기계 수(x)와 '교통사고 건수(y)'의 관계를 조사하려면 편상관계수를 알아야 합니다.

x와 y양쪽에 영향을 주는 값을 '통제변수(z)'라고 합니다. '인구'를 통제변수로 생각하면 됩니다.

실제로 'ATM기계 수'와 '교통사고 건수'의 편상관계수를 구해보면...

편상관계수 0.15, 처음에 상관계수는 0.8이였습니다.

'ATM기계 수'와 '교통사고 건수'에는 상관이 있지만 '인구'에 의해 통제된 허위상관이었던 겁니다.

1. 영향을 제외했을 때 상관계수 r

통계학 기법을 이용하면 두 데이터의 상관을 알 수 있습니다. 그러나 상관이 있다고 반드시 인과관계가 있는지는 알 수 없습니다. 두 데이터의 상관이 허위상관이라고 의심이 들면 x와 y에 영향을 주는 세 번째 요소가 존재한다는 가설을 세웁니다.

이 세 번째 요소를 '통제변수(control variable)'라고 부릅니다.

예를 들어...x(ATM기계 수), y(교통사고 건수) 양쪽에 영향을 주는 요소로 z(인구)를 통제변수라 가정합니다.

 

'x와 y의 상관'이 허위상관인 경우 'x와 z의 상관'과 'y와 z의 상관'의 수치가 'x와 y의 상관'에 영향을 준다고 생각할 수 있습니다.

따라서 'z의 영향을 제외한 x와 y의 상관'을 구할 수 있습니다. 이 값을 '편상관계수'라 하고 편상관계수를 사용해 통제변수를 제외한 관계를 보는 것을 '편상관분석'이라고 합니다.

z를 통제변수로 x와 y의 편상관계수를 구하는 식

다음 수치를 이용해 편상관계수를 구해볼까요.

2. 편상관계수 값이란

인구의 영향을 제외하면 ATM기계 수와 교통사고 건수의 상관은 편상관계수로 '0.15'가 나왔습니다.

이 편상관계수로 무엇을 알 수 있을까요?

상관계수는 '+1' 또는 '-1'에 가까울수록 직선적인 관계가 강하다고 하며 '0'에 가까울수록 직선적인 관계가 약하다고 합니다.

편상관계수 0.15는 'ATM기계 수'와 교통사고 건수'가 '인구'의 영향을 제외하면 직선적인 관계가 약하다고 판단할 수 있습니다. 한편

각각의 값에는 인구가 강하게 영향을 주고 있다고 추측할 수 있습니다.

결국 'ATM기계 수와 교통사고 건수'를 허위상관관계로 의심하고 '인구'의 영향이라는 가설을 세우고 편상관계수를 구해 확인할 수 있습니다. 사례에서와 같이 '인구'를 통제변수로 생각했지만 통제변수가 반드시 하나라고 한정할 수는 없습니다.

 

통제변수 후보를 여러 개 만든다.

상관계수로 진짜 인과관계를 알 수 없는 것처럼 통제변수로도 정말 통제를 하고 있는지 알 수 없습니다. 편상관계수 값도 어디까지나

판단 도구 중 하나일 뿐 최종적으로는 분석자가 주관에 따라 판단해야 합니다.

아래와 같이 '여름철 아이스커피 매출량'과 '여름철 아이스크림 매출량'의 관계에서 '기온'을 통제변수로 가정할 수 있다고 하였습니다.

그럼 '불쾌지수'나 '강수량' 같은 다른 기상요인과 '휴일 수'나 '인구' 같은 요인은 어떨까요?

통제변수를 하나가 아니라 다양하게 가정해서 검정하는 것이 중요합니다.

 

※상관계수의 주의점 정리

1) 상관계수를 구할 때는 반드시 산포도도 확인!

반드시 산포도를 그릴 것. 상관의 계산 결과만 볼 것이 아니라 데이터의 내용을 항상 생각해야 합니다.

2) 극단값에서 힌드를 얻을 수 있어요.

극단적인 값에 주목하면 층화하는 시점을 발견할 수도 있습니다. 데이터를 넓게 보는 시점이 필요합니다.

3) 허위상관에 주의!

허위상관이 의심될 때는 통제변수에 가설을 세우고 편상관계수를 구해서 검정해야 합니다.

4) 모으는 데이터, 분석대상이 되는 데이터는 많을수록 좋습니다.

층화 검토를 위해 데이터를 모으는 단계에서 여러 개의 변량을 대상으로 해야 합니다. 통제변수로 사용하는 데이터도 여러

가지가 있는 것이 좋습니다. 다양한 검정을 할 수 있고 데이터를 깊이 이해할 수 있습니다.

5) 경험이나 직감도 중요한 도구!

통계 데이터를 본 다음에 숫자를 넓은 시야에서 파악하고 다양한 시점에서 볼 수 있도록 직감과 그것을 가능하게 하는 풍부한

업무경험 등이 중요합니다.

이상 퀵데이터에서 데이터에 영향을 주는 요인들을 알아보았습니다~^^

"기업 및 공공 데이터 통계적 분석"

"검증되고 수준 높은 설문 기획"

"인포그래픽을 이용한 디자인 보고서"

"석박사 학위 논문 컨설팅"

퀵데이터가 함께 합니다!!

(주)한국교육데이터

 

 

 

#상관관계 #퀵데이터 #한국교육데이터 #상관계수 #허위상관 #편상관분석 #통제변수 #통계분석 #논문통계 #데이터분석 #공공기관통계분석 #공공기관설문 #정부데이터분석 #석박사논문통계