본문 바로가기

논문

더미변수를 이용한 회귀분석_명목척도와 서열척도를 간격척도와 비율척도로 더미변환 알아보기_퀵데이터

회귀분석을 위해서 변수들이 모두 간격척도나 비율척도로 측정된 연속형 변수만 가능합니다. 회귀분석을 진행하면서 통제변수도 함께 투입할 경우가 많은데요. 이때 연속형 독립변수와 연속형 통제변수로 측정되었다면 통제된 회귀분석이 가능합니다. 하지만 범주형 독립변수는 증가하거나 감소하는 개념이 없기 때문에 회귀분석이 안되는 것입니다.

 

척도에 대해 알아보기

https://blog.naver.com/quickdata7/222346401754

 

척도에 따라 달라지는 통계분석 알아보기_명목척도, 서열척도, 간격척도, 비율척도 구분하기

자료수집은 모집단을 결정하고 표본을 선정한 후 그에 대한 속성을 파악하고자 합니다. 그리고 설문지, 관...

blog.naver.com

독립변수라도 명목이나 서열척도와 같은 범주형 변수로 측정되었다면 더미변수(값을 0과 1로 코딩)로 변환하면 회귀분석이 가능해집니다.

 

대표적인 범주형 변수는 성별입니다. 이때 남자는 1, 여자는 0으로 코딩한 더미변수로 변환을 합니다. 예를 들어 성별과 소득의 관계에 대해 회귀분석을 한다면, 성별 더미변수를 독립변수로 하고 소득을 종속변수로 해서 얻게 되는 코드값이 1인 범주(남자 범주)의 소득에 대한 영향을 나타냅니다.

 

성별 더미변수의 회귀계수가 다른 독립변수들이 일정하다고 가정할 때, 즉 다른 독립변수가 포함되어 있을 경우, 1로 코딩된 범주와 0으로 코딩된 범주 간의 예측값의 차이를 나타냅니다. 만약 이 더미변수가 통계적으로 유의하다면 성별은 소득과 관련이 있다고 판단합니다.

 

성별과 같이 더미변수로 변환될 독립변수의 범주가 2개(남, 여)일 때는 기존 변수가 그대로 1개의 더미변수로 변환됩니다. 그러나 범주형 독립변수가 2개를 초과할 때 더미 변수가 추가 되어야 합니다.

더미변수의 수 = 범주의 수 - 1

 

 

선호도에 대해 상, 중, 하로 구분한 범주형 독립변수가 있다고 해볼게요. 아래 표와 같이 더미변수를 만듭니다.

 

 

선호도가 위 표처럼 상, 중, 하로 구분되었다면 상, 중 형태로 만들어 줍니다. 선호도가 상일 경우는 1, 아닐 경우 0으로 만들고, 선호도가 중일 경우 1, 아닐 경우 0이 되는 것이죠. 만약 상, 중 모두 0이라면 하에 해당하기 때문에 하에 대한 별도의 변수를 만들 필요가 없습니다.

 

예를 들어 어떤 제품에 대해 연속형 독립변수인 디자인, 기능성, 편리성 연속형 종속변수인 만족도에 어떤 영향을 미치는지, 그리고 범주형 변수인 선호도를 더미변수화 했다고 한다면 회귀식은 다음과 같습니다.

위 식과 같을 때 선호도 상과 중은 모두 0일 때 선호도는 하가 됩니다. 둘 다 0인 경우와 대비해서 선호도 상이 1일 때는 B4의 수치만큼 만족도가 높다 할 것이고, 선호도 중이 1일 때 B5의 수치만큼 만족도가 높다고 판단할 수 있습니다.

 

또 다른 더미 변수로 변환될 범주형 변수가 4개일 경우를 예로 들어보겠습니다. 대학생 집단의 학년별로 구분하면 4개의 집단(1학년~4학년)이 됩니다. 이 범주형 변수로 회귀분석을 하려면 아래 표와 같이 3개의 더미변수를 만들어야 합니다.

더미변수의 값이 모두 0인 범주를 기준범주라고 하는데, 1학년이 기분범주가 됩니다. 기준범주는 회귀식의 결과로 도출된 회귀계수를 해석할 때 기준이 되는 역할을 해요.

 


예를 들어 보겠습니다.

 

커피 프랜차이즈 본사에서 임직원 474명을 대상으로 연속형 종속변수인 현재 급여에 영향을 미치는 연속형 독립변수로 최초급여, 근무 개월 수, 경력 변수 범주형 독립(통제)변수인 성별, 직무별(현장직, 사무직, 경영직)을 선정하고 다중회귀분석을 실시했습니다.

 

성별의 더미변수는 남자는 1, 여자는 0으로 변환하고, 부서는 사무직은 1, 그 외는 0, 경영직은 1, 그 외는 0의 값으로 변환하였고 2개의 직무별이 구분되었으니 현장직은 별도의 변환이 필요없습니다. (다른 변수로 코딩변경)

 

단계적 선택방식의 다중회귀 분석결과 모형요약 표를 보면 최초급여가 가장 먼저 모형에 입력되었고, 최초급여만을 가지는 회귀모형은 수정된 R제곱이 0.774로 나타나 변수를 충분히 잘 설명하는 것으로 나타났습니다. 2단계에선 경영직이 추가되고, 3단계에선 경력이, 4단계에선 근무월수가, 5단계에서 관리직 범주가, 6단계에선 성별(남자)변수가 입력되었습니다. 입력된 변수의 제거는 없는 것으로 확인되네요.

 

각 단계에서 F값의 변화량은 단계가 높아질수록 점점 작아지는데 마지막 6단계에서도 유의확률 변화량도 유의합니다. 자기상관을 확인하는 Durbin_Watson 통계량은 1.864로 2에 가까워 자기상관이 존재하지 않습니다.

 

각각의 모형에 대한 모형적합도 검증의 분산분석(ANOVA)표를 보면 모두 유의하여 모형이 적합한 것으로 확인됩니다. 독립변수가 1개씩 추가되어 만들어진 6개 모형 모두 데이터에 적합하므로 모형1에서 모형6 중 어느 것을 선택해도 무방하다고 할 수 있어요.

 

회귀계수(비표준화계수)를 가지고 추정회귀식을 추정할 수 있는데, 모형 2의 식을 보겠습니다.

이때 변수들 간 상관관계가 높지 않다면 베타(표준화계수)계수로 독립변수들의 상대적인 영향력도 평가할 수 있습니다. 모형2를 예로 보면 최초급여의 베타계수가 0.647이고 경영직의 베타계수가 0.299로 최초급여가 현재급여에 미치는 영향력이 더 크다고 할 수 있는 것이죠.

 

t통계량과 유의확률을 보면 0.05보다 작아 모든 독립변수가 종속변수에 유의하게 영향을 미친다고 할 수 있습니다. 공선성을 보기 위한 VIF(분산팽창지수)를 보면 통계량이 모두 10보다 작아 공선성의 문제는 없습니다. 추가적으로 공차 한계가 모두 0.1보다 커서 공선성은 없습니다.

 

범주형 변수인 성별, 직무별을 더미변환하여 통제변수로 사용하고, 최초급여, 경력, 근무월수를 함께 독립변수로 선정하여 종속변수인 현재급여 간 다중 회귀분석 한 결과를 정리하면 다음과 같습니다.

 

모든 회귀계수는 유의확률이 P<.05로 통계적으로 유의합니다. 베타계수로 본 독리변수들의 상대적 영향력은 최초급여, 경영직, 경력, 근무월수, 관리직, 남자 순으로확인되었습니다. 유의한 영향 관계에 따라 최초급여와 근무월수가 높을수록 현재급여도 높아지는 것으로 판단할 수 있습니다. 경력의 베타계수는 –0.153으로 부(-)적인 영향을 미치는 것으로 확인되었습니다. 추정된 회귀모형의 적합도에 대한 F통계량은 408.196(P<.001)로 매우 유의하고 수정된 R제곱은 0.838로 설명력이 좋은 것으로 나타났습니다.

기업 데이터 통계, 공공기관 데이터 통계, 논문 통계

퀵데이터는 여러분의 성공을 위해 오늘도 함께 하겠습니다~~^^

(주)한국교육데이터