다중회귀분석은 2개 이상의 독립변수들과 1개의 종속변수의 관계를 분석하는 방법이고 간격척도 및 비율척도의 연속형 자료로 분석합니다. 실제 석사·박사 학위논문이나 기업에서는 보통 다중회귀분석이 많이 사용되고, 순서 및 명목척도일 경우 더미변수로 변화시켜 사용합니다.
다중회귀식은 다양한 추정방법(단계선택, 전진선택, 후진제거, 제거변수, 동시입력)이 있는데 대표적으로 동시입력방식과 단계선택방식이 있습니다.
동시입력방식은 연구자가 고려하는 모든 독립변수들을 한꺼번에 포함하여 분석하는 방법입니다. 다른 독립변수들이 통제된 상황에서 특정 독립변수의 영향력을 알 수 있고, 연구자가 고려하는 모든 독립변수들이 동시에 종속변수를 설명하는 정도를 알 수 있습니다.
단계선택방식은 다른 변수들이 회귀식에 존재할 때 종속변수에 영향력이 있는 변수들만을 회귀식에 포함시키는 방식입니다. 설명력이 높은 변수 순으로 회귀식에 포함되며, 종속변수를 설명하는데 있어서 설명력이 어느 정도 이상 되는 변수들만 구성된 회귀식을 발견하는데 유용합니다.
예를 들어보겠습니다.
A사의 무선 로봇 청소기의 요인들이 고객 만족도와 어떤 인과관계가 있는가를 알아보기 위해 213명의 고객을 대상으로 설문을 받고 동시입력방식의 다중회귀분석을 진행해 보았습니다.
무선 로봇 청소기의 디자인, 편리성, 기능성, 품질이 만족도에 영향을 미치는가?
독립변수(x) : 디자인, 편리성, 기능성
종속변수(y) : 만족도
단순회귀분석과 같이 다중회귀분석에서도 독립변수들의 유의성 여부를 확인하기 전에 회귀모형의 적합도 및 설명력을 확인해야 합니다.
모형요약 표를 보면 결정계수인 R 값이 0.771로 약 77.1%를 3개의 독립변수가 설명해 주는 것이 나타났습니다. 수정된 R2 값이 0.767로 결정계수와 큰 차이가 없어 안정적이라고 할 수 있어요. R2(R제곱)은 불필요한 독립변수가 추가되어도 감소하지 않고, 단순 및 다중회귀분석 모두 표기됩니다. adjR2(수정된 R제곱)은 불필요한 독립변수가 추가되면 감소하고, 다중회귀분석에서만 표기 됩니다.
잔차의 독립성을 검정하는 Durbin-Watson 통계량 값을 보면 1.889로 2에 가까워서 자기상관없이 잔차들 간에 독립적이라고 할 수 있습니다. 잔차의 독립성이란 회귀분석에서 나타나는 오차가 규칙 없이 랜덤하게 나타난다는 것입니다.
Durbin-Watson 통계량 : 잔차가 독립성을 가진다는 의미는 자기상관이 없다는 것을 의미합니다.
위 그림과 같이 가운데 2값을 가지면 완전한 독립이고 1~3 사이의 값을 가지면 독립이라고 판단합니다. 그런데 통계량 값이 0(양의 자기상관)이나 4(음의 자기상관)에 가까우면 자기상관이 있다고 판단을 합니다.
다음으로 회귀모형의 유의성을 검증하는 ANOVA(분산분석)을 보겠습니다. 아래 분산분석 표와 같이 95% 신뢰수준에서 유의확률 값이 0.000으로 0.05보다 작기 때문에 대립가설을 채택하고 회귀모형이 유의하다고 판단할 수 있습니다.(P<.005)
회귀모형 유의성 가설
H0: 회귀모형이 유의하지 않다.
H1: 회귀모형이 유의하다.
위 결과와 같이 회귀모형이 유의한 것으로 나타났으니 이제 회귀계수가 유의한지 확인하겠습니다. 회귀계수가 정(+)적인지 부(-)적인지 살펴봐야 합니다.
최종 회귀모형은 만족도(y)=11.582 + 0.740×디자인 + 0.243×편리성 – 0.002×기능성으로 나타났습니다. 그리고 3개의 독립변수를 보면 디자인과 편리성은 P=0.000(P<001)으로 통계적으로 유의하고 정(+)적인 영향을 미치는 것으로 나타났고, 기능성은 P=0.733으로 유의하지 않게 나타났습니다. 기능성이 유의하였다면 부(-)적인 영향을 미친다고 할 수 있겠죠?
해석을 하자면 디자인이 1점 높아지면 만족도는 0.74점 높아지고, 편리성이 1점 높아지면 만족도가 0.243점 높아진다고 판단할 수 있습니다.
계수에는 표준화계수와 비표준화계수가 있어요. 비표준화계수는 독립변수가 1단위 증가할 때 종속변수가 얼만큼 변화하는가를 의미합니다. 표준화계수는 점수의 분포 정도를 계산한 것이므로 상대적으로 영향력을 비교할 수 있습니다. 표준화계수 값이 큰 변수일수록 영향력이 크다고 판단합니다. 만족도에 있어 디자인의 표준화계수가 0.660으로 편리성보다 영향력이 큰 것을 알 수 있습니다.
그리고 중요한 것은 다중회귀분석은 단순회귀분석과 달리 독립변수가 2개 이상이므로 다중공선성을 살펴봐야 해요. 다중공선성은 독립변수 간 얼만큼 유사한가인데 독립변수 간 너무 유사하면 서로의 영향력을 감소시키고 영향력이 불필요하게 나뉘는 것입니다. 유의하게 나올 변수 임에도 유의하지 않게 나올 수 있다는 것입니다.
다중공선성을 판단하는 VIF(분산팽창지수)의 경우 위 표와 같이 가장 큰 값이 1.660입니다. 10미만이면 다중공선성이 없다고 판단하는데 즉, 위 3개의 독립변수들은 모두 독립적이라고 판단되어 다중공선성은 없습니다.
이제 위 예로 다중회귀분석의 단계선택 방식으로 분석해보겠습니다. 아래 표와 같이 단계선택 방식에 의하면 1번 모형은 1개의 독립변수 디자인만 투입되었고, 2번 모형은 독립변수가 디자인과 함께 편리성이 투입되어 2개로 만든 모형이라는 것을 알 수 있습니다.
R 제곱은 1번 모형이 0.718, 2번 모형이 0.771로 나타나 2번 모형의 설명력이 1번 보다 높다는 것을 알 수 있습니다. 잔차의 독립성을 검토하는 Durbin-Watson의 통계량은 1.891로 2에 근사하므로 독립성을 충족하였습니다.
회귀모형의 유의성을 검정하는 분산분석(ANOVA)을 보면 모두 유의하게 나타났으므로(P<0.001), 본 회귀모형은 유의하다고 할 수 있습니다. 단, 최종모형은 위처럼 2번의 모형을 보는 것입니다.
아래 계수표의 결과처럼 최종 회귀 모형의 식은 다음과 같습니다.
만족도(y)= 11.530 + 0.740×디자인 + 0.243×편리성
독립변수인 디자인과 편리성 모두 정(+)적으로 유의하게 나타났습니다. VIF(분산팽창지수)는 1.660으로 다중공선성이 없는 것으로 나타났습니다.
디자인, 편리성, 기능성 3개의 독립변수 중 기능성은 회귀모형에서 제외된 것을 알 수 있습니다.
기업 데이터 통계, 공공기관 데이터 통계, 논문 통계
퀵데이터는 여러분의 성공을 위해 오늘도 함께 하겠습니다~~^^
'논문자료 > 논문통계' 카테고리의 다른 글
논문 통계분석,통계해석, 표작성, 그림 작성까지 깔끔하게 하는 방법_퀵데이터에 알아봐요. (0) | 2021.11.17 |
---|---|
보건의학 가설 검정(귀무가설,대립가설)하는 방법 알아보기_퀵데이터 (0) | 2021.06.10 |
가설검증과 신뢰구간의 밀접한 관계 알아보기_퀵데이터 (0) | 2021.05.14 |
가설검증에서 유의한 차이가 있다는 것은 어느 정도의 차이일까?_퀵데이터 (0) | 2021.05.13 |
경영, 경제분야뿐만 아니라 다양하게 사용되는 가설검정에 대해 '퀵데이터'에서 알아볼까요?? (0) | 2021.03.24 |