본문 바로가기

공공기관, 기업 데이터분석

통계이야기 부동산 가격과 역까지 상관관계_상관계수 구하는 방법 알아보기_퀵데이터

산포도에서 데이터가 얼마나 직선인가를 보여주는 지표가 상관계수 입니다.

퀵데이터에서 상관계수를 구하는 방법을 쉽게 알아보겠습니다.

상관계수 구하는 방법을 알면 X와 Y의 관계가 양의 상관관계인지 또는 음의 상관관계인지를 알고 상관 정도가 얼마나 강한가를 수치로 볼 수 있답니다.

상관계수 계산식은 아래와 같습니다. 식에서 분모에 있는 표준편차를 구하는 방법은 전에 알아보았습니다.

https://blog.naver.com/quickdata7/221972345155

표준편차 구하는 방법 쉽게 알아보기_퀵데이터

​실제 표준편차(σ)를 사용하면 데이터의 흩어진 정도를 알 수 있습니다.이 표준편차는 어떻게 계산할까요...

blog.naver.com

평균값, 편차, 분산을 구해서 제곱근을 구하는 것이 표준편차입니다.

분자에 있는 공분산도 편차로 구할 수가 있는데, 이 공분산은 상관계수의 ±를 결정하는 아주 중요한 지표입니다.

x와 y의 공분산 : x와 y의 편차끼리 곱한 값의 합계 ÷ 데이터 수

편차끼리 곱한 값의 합계 (각각의 편차를 데이터마다 곱해서 합계를 구한 것)

상관계수는 두 종류 데이터(다변량)의 관계를 나타내는 지표입니다. 그렇다면 상관계수 값인 r 은 어떤식으로 구할까요?

상관계수 식의 분모와 분자가 무엇을 다루고 있는가, 상관계수 값이 무엇을 나타내는가에 대해 알아보겠습니다.

전에 집(부동산) 가격의 산포도와 상관으로 알아본 예를 이어서 알아볼게요.

https://blog.naver.com/quickdata7/222064837531

다변량 분석의 첫걸음_ 상관계수와 산포도_원인과 결과 알아보기

​​통계학은 다양한 사회 문제를 해결할 목적으로 만든 학문입니다. 통계 분석을 위해 수학의 힘을 빌리지...

blog.naver.com

상관계수 식의 분모(x의 표준편차) 계산방법

역까지 소요시간과 집 가격

소요시간을 x축, 집 가격을 y축으로 한 위 산포도를 보면 직선에 가까우므로 r = -1 (우하향)에 가까운 상관계수가 나오지 않을까 예측해 볼 수 있겠죠? 계산해서 확인해보겠습니다.

① x의 평균값 3+5+6+7+.......17 = 90(분), 90 ÷ 10 = 9(분)

② x의 편차(각 데이터–평균값 9)

③ x의 편차제곱의 합 : (-6)2+(-4)2+(-3)2+....+82 = 180(분2)

④ x의 분산(편차제곱의 합 ÷ 데이터 수) : 180 ÷ 10 = 18(분2)

⑤ x의 표준편차 : ≒ 4.24

 

상관계수 식의 분모(y의 표준편차) 계산방법

① y의 평균값 12.2 + 11.3 +.......7.6 = 98(억원), 98 ÷ 10 = 9.8(억원)

② y의 편차(각 데이터–평균값 9.8)

③ y의 편차제곱의 합 : 2.42+1.52+1.72+....+(-2.2)2 = 20.96(억원2)

④ y의 분산 : 20.96 ÷ 10 = 2.096(억원2)

⑤ y의 표준편차 : ≒ 1.45

 

이제 상관계수 식의 분모에 위에서 구한 x와 y의 표준편차를 대입합니다.

공분산 계산에 등장하는 편차를 서로 곱한 후 모두 더한 값

계산식의 분모에 들어갈 표준편차를 구할 때 편차제곱의 합을 사용했습니다. 계산식의 분자에 있는 공분산은 두 편차를 서로 곱해 모두 더한 값을 씁니다. 편차끼리 곱한 값은 x의 편차와 y의 편차를 서로 곱한 값입니다.

편차제곱의 합 : 편차를 제곱해서 모두 더한 값

편차끼리 곱해 모두 더한 값 : x의 편차와 y의 편차를 각각 곱해서 모두 더한 값

공분산은 상관계수의 부호 결정

계산식 분모에서 x와 y 각각의 표준편차를 계산할 때 편차를 제곱했으므로 분모의 값은 반드시 양수가 되겠죠? 그러나 상관계수 r은 상관이 양인지, 음인지를 결정하는 값입니다. 따라서 계산 결과의 부호를 결정하는 것은 계산식의 분자에 있는 공분산 입니다.

공분산을 계산할 때 편차끼리의 곱의 합이 등장합니다. 이 값은 x의 편차와 y의 편차를 각각 곱한 뒤 그 값을 전부 더해서 구합니다.

상관계수 분자(x와 y의 공분산) 계산방법

x와 y의 공분산 = x와 y의 편차끼리 곱해서 더한 값 ÷ 데이터 수

① x와 y의 편차끼리 곱합니다.(편차의 곱)

x와 y의 편차 첫 번째 것끼리 곱하고((-6)×2.4) 두 번째 것끼리 곱하고((-4)×1.54) 세 번째 것끼리 곱하고..........이런식으로 계속 곱을 합니다.

② x와 y의 편차끼리 곱한 값을 모두 더합니다.

(-14.4)+(-6.16)+..........(-17.6) = -57.9

③ x와 y의 공분산을 계산합니다.

-57.9 ÷ 10 = -5.79

x와 y의 공분산 = -5.79

이제 상관계수 식에 대입합니다.

이것으로 역까지 소요시간과 집 가격은 강한 음의 상관관계가 있다고 판단할 수 있는 것입니다.


이상 퀵데이터서 상관계수 구하는 방법을 알아보았습니다~~^^

"기업 및 공공 데이터 통계적 분석"

"검증되고 수준 높은 설문 기획"

"인포그래픽을 이용한 디자인 보고서"

"석박사 학위 논문 컨설팅"

퀵데이터가 함께 합니다!!

(주)한국교육데이터

#상관관계 #상관계수 #산포도 #공분산 #마케팅조사 #시장조사 #기업설문지 #기관설문지 #설문기획 #서베이 #리서치 #통계분석 #데이터분석 #기업데이터 #정부데이터 #지자체통계 #박사논문 #석사논문 #박사통계분석 #한국교육데이터