▣ 편 상관분석
● 두 변수 간의 순수한 상관관계를 파악하는 통계적 기법으로 다른 변수의 영향을 통제하고 관심있는 두 변수만의 순수한 관계를 분석
상관분석은 혼선(통제)변수가 없을 때 두 변수간의 연관성을 분석하는 것이다. 통제변수(z)가 미치는 영향의 특성에 따라 편상관계수는 일반상관계수보다 작거나 커질 수 있다. 만약 두 변수 간 상관계수가 높았는데 편상관계수가 여전히 높다면 통제변수는 변수간에 큰 영향을 주는 것이 아닌 것으로 판단하고, 상관계수가 크게 낮아진다면 원래 강한 상관관계가 통제변수의 영향 때문일 수 있다고 판단하는 것이다.
어떤 지역에 교통사고 건수와 인구수, 그리고 편의점수를 각각 상관분석을 했더니 그림과 같은 상관계수 값이 나왔다. 그런데 편의점 수가 많으면 교통사고도 많아지는가? 그럼 편의점 수를 줄이면 교통사고도 줄어든다는 논리니까 이상하다. 결국 상관이 있더라도 인관관계가 있을수는 없다. 그런데 교통사고를 유발하는 요인은 매우 많지만 교통사고와 편의점 수를 생각해 보면 인구수와 관련되어 있다고 추정해 볼 수 있다. 편의점 수와 교통사고 수가 강한 양의 상관을 나타내지만 편의점 수와 인구 수, 교통사고 수와 인구수도 강한 양의 상관이 있다. 결국 인구수가 편의점 수와 교통사고 수 모두에 영향을 주고 있다는 것이 중요하다. 이처럼 겉보기에만 상관 즉 허위상관으로 보이는 경우가 있다. 허위상관을 파악하려면 현장 지식이나 활용능력이 필요하다. 통계는 어디까지나 의사결정이나 판단을 위한 도구중에 하나이기 때문이다.
● 인구수는 교통사고 건수와 편의점 수 양쪽에 영향을 주므로 통제변수로 설정
● 교통사고 수와 우체통 수의 관계를 분석
산포도에서 인관관계가 있는 것처럼 보이는 상관을 허위상관이라고 한다. 편의점수와 교통사고의 수는 양의 상관을 나타내지만 인과관계가 이니다. 편의점이 많아서 교통사고가 많이 난다는 상식적으로 관련이 없다. 그래서 상관계수 값만 보면 허위상관을 간과하기 쉽다. 편의점 수와 교통사고 수는 둘 다 사람과의 상관을 생각할 수 있다. 인구가 많은 지역에서는 편의점 수도 많고 교통사고 수도 많다. 반대로 인구가 적으면 편의점도 교통사고도 적을 것이다. 무엇을 데이터로 다룰지에 따라 상관이 달라지는데 어떤 믿음이나 선입관으로 연관성이 있을 것 같다고 판단하면 허위상관에 속기 쉽다. 그것을 살펴보는 것이 편상관계수이다.
▣ 영향을 통제했을 때 상관계수 r
● 두 변수 간 상관이 있다고 반드시 인과관계가 있는지 알 수 없음
● 변수의 상관이 허위상관이라고 의심되면 x와 y에 영향을 주는 혼선변수(통제변수)가 존재함을 가정
● ‘X와 y’의 상관이 허위상관이 경우 ‘X와 z’의 상관, ‘y와 z의 상관‘의 수치가 ‘x와 y’의 상관에 크게 영향을 준다고 판단할 수 있음
● 따라서 z의 영향을 제외한 x와 y의 상관을 구할 수 있고, 이 값이 편 상관계수
▣ 편 상관계수 구하는 법
● 통제변수(z) 영향을 제외한 다음 두 변수의 관계성이 얼마나 강한지 측정하는 값
● Z(인구수)를 통제변수로 x와 y의 편상관계수
● 편상관계수 0.15는 편의점 수와 교통사건 수가 인구의 영향을 제외하면 직선적 관계가 약함
● 각각의 값에는 인구가 강하게 영향을 주고 있음을 추정할 수 있음
편의점 수와 교통사고 수의 상관계수는 0.8이었는데 편상관계수를 구해보면 0.15이다. 계수값을 제곱하면 설명력인데 편의점수와 교통사고 수는 서로 64%를 설명하지만, 인구수에 의한 영향을 통제했을 때 서로 2.3% 정도만을 설명하고 있다. 즉, 편의점 수와 교통사고 수에는 상관이 있지만 인구수에 의해 통제된 허위상관인 것이다. 수치상으로 강한 상관인것처럼 보여도 실제로는 허위 상관일 수 있으므로 주의해야 한다. 상관계수로 정확한 연관성을 알 수 없는 것처럼 통제변수로도 정말 통제하고 있는지 알 수 없다. 편상관계수 값도 어디까지나 판단 도구 중 하나일 뿐 최종적으로는 연구자의 주관에 따라 판단해야 한다. 예로 든 인구 수 외에도 교통사고 등록된 차량 대수, 도로 길이, 대중교통 이용률, 음주 운전 적발건수, 운전자 평균 연령 등을 통제변수로 생각해 볼 수 있다. 통제변수를 하나가 아니라 다양하고 신중하고 선택하고 가정해서 검정하는 것이 중요하다.
편상관관계 개념 완벽 이해하기_퀵데이터 논문통계강의에서 확인하세요▼▼▼
'논문자료 > 논문통계분석' 카테고리의 다른 글
[논문통계 Q&A] 논문통계 분석의 단순회귀분석 vs 다중회귀분석 : 왜 결과가 다를까? 논문통계분석/논문컨설팅/퀵데이터 (0) | 2024.09.27 |
---|---|
[논문통계분석] 편상관관계 분석 및 해석하는 방법 완벽이해하기, 편상관관계분석 강의_퀵데이터 (0) | 2024.07.17 |
[논문통계분석] 상관관계 구하는 방법, 스피어만 상관관계, 피어슨 상관관계, spss상관분석_논문통계강의 (0) | 2024.07.12 |
[논문통계분석]상관분석 개념 및 상관계수 구하는 방법, spss 상관분석, 통계분석강의 (0) | 2024.07.04 |
[논문통계분석] 논문 신뢰도 높이는 방법, spss논문통계, 크롬바하알파값, 신뢰도분석_논문통계강의 (0) | 2024.06.05 |