본문 바로가기

논문

단순회귀분석 알아보기 _광고비와 매출액의 영향 관계는?_퀵데이터

상관관계 분석은 두 변수간의 선형관계를 조사하는 것이고, 회귀분석은 한 변수를 독립변수로 또 다른 변수를 종속변수로 설정하여 이들 영향 관계를 분석하는 것입니다.

 

단순회귀분석은 1개의 독립변수(원인_설명변수)와 종속변수(결과_반응변수)사이의 인과관계를 선형적 모형식으로 구성됩니다. 가장 기본적 회귀분석이고 상당 부분 상관분석과 유사한 부분이 많아요.

 

두 변수간의 관계에서 독립변수와 종속변수의 설정은 논리적 타당성을 근거로 해야 합니다. 논리적 근거 없이 분석했는데 결과가 통계적으로 유의하더라도 두 변수간에 인과관계가 있다고 추정할 수 없습니다.

 

예를 들어 “가장의 소득은 가구 지출에 영향을 미친다”라는 가설은 논리적 타당성을 갖지만, “가장의 몸무게는 가구 지출에 영향을 미친다”라는 가설은 논리적 타당성을 갖지 않을뿐더러 이에 관한 자료로 회귀분석하는 것은 아무 의미가 없어요.

 

회귀분석은 간격척도와 비율척도로 측정된 데이터를 사용하는데 명목척도와 서열척도로 측정된 경우는 더미변수로 척도를 변형하여 분석할 수 있습니다.

 

아래 그림과 같이 y를 종속변수, x를 독립변수라고 할 때 α는 선형식의 절편(상수항)이라고 할 수 있는데 변하지 않습니다. β는 회귀계수라고 하고 보통 1차식에서는 기울기(변화량)라고 표현합니다. ε는 독립변수 x가 종속변수 y를 설명하지 못하는 나머지를 말하는데 오차 혹은 잔차라고 합니다. i는 회귀분석을 위한 케이스입니다.

 

회귀분석을 할 경우 다음과 같은 가정을 꼭 확인해야 합니다.

회귀분석을 위한 가정

1. 독립변수와 종속변수의 선형적 관계

독립변수값의 변화에 따른 종속변수값의 변화가 일정해야 합니다. 상관관계 분석은 두 변수간의 선형관계에 바탕을 두지만 회귀분석에서는 두 변수 간의 선형관계를 가정할 수 있어야 합니다.

 

2. 오차항의 일정한 분산과 정규성

오차항은 종속변수의 관측치와 예측치 간의 차이를 말합니다. 오차항의 기댓값은 0이고 일정한 분산(등분산)을 갖는 정규분포를 이룬다는 가정이 성립되어야 합니다.

 

3. 오차항의 독립성

예측의 오차값들은 서로 독립적이어야 합니다. 즉 y의 변화에 따라 오차항이 어떤 패턴을 가지면 안되는데 예를 들면 y이 커짐에 따라 오차값이 커지면 가정에 위배됩니다.

 

단순회귀분석의 프로세스

자 그럼 이제 예를 통한 실제 분석을 해볼게요!!

 

 

A사는 년간 광고비가 매출액에 어떤 영향력을 미치는가에 대해서 알아보기로 했습니다. 따라서 광고비를 독립변수로 두고, 매출액을 종속변수로 두고 단순회귀분석을 실행하였습니다.

1 2 3 4 5 6 7 8 9 10 11 12
광고비 1.2억 0.8억 1.0억 1.3억 0.7억 0.8억 1.0억 0.6억 0.9억 1.1억 0.6억 1.3억
매출액 101억 92억 110억 120억 90억 82억 93억 75억 91억 105억 75억 120억

연구가설

“광고비 지출은 매출에 영향을 미칠 것이다.”

 

귀무가설(H0) : “광고비 지출은 매출에 영향을 미치지 않는다”

대립(연구)가설(H1) : “광고비 지출은 매출에 영향을 미친다”

위와 같은 가설을 두고 회귀분석을 실시하였습니다. 결과를 살펴보도록 할게요.

표와 같이 종속변수가 매출, 독립변수가 광고비로 나타났죠?

R2은 결정계수라고 하는데 종속변수의 분산 중 몇 %가 독립변수에 의해 설명되는가를 나타내고 0과 1사이의 값을 갖습니다. 여기서 R2는 0.848로 종속변수 분산의 84.8%가 독립변수에 의해 설명됨을 나타냈습니다. 이 수치는 광고비와 매출액의 상관계수 제곱과 같은 값이에요. 단순회귀분석의 R값은 R제곱의 제곱근 값이며 상관계수 값을 나타냅니다. 즉 R값은 광고비와 매출액의 상관계수 값입니다.

제곱합은 3가지가 있는데 합계의 제곱합(SST)은 종속변수를 평균값으로 추정하는 경우의 전체분산입니다. 회귀모형의 제곱합(SSR)은 종속변수를 회귀식으로 추정하는 경우에 설명되는 분산을 말하고, 잔차의 제곱합(SSE)은 종속변수를 회귀식으로 추정하는 경우 설명되지 않는 분산을 말해요.

그림으로 나타내면 아래와 같아요. 조금 이해가 어렵죠? 개념만 알고 가시면 될 것 같아요^^

R2은 종속변수의 전체 분산 중 회귀식에 의해 설명되는 비율을 나타내므로 식으로 표현하면 다음과 같습니다.

 

그리고 각각의 제곱합을 자유로도 나누면 평균제곱이 되고, 다음과 같이 회귀모형의 평균제곱을 잔차의 평균제곱으로 나누면 F값이 됩니다.

 

각각의 자유도는 다음과 같아요.

회귀모형의 자유도 = 독립변수의 수(1개)

잔차의 자유도 = 표본크기 – 독립변수의 수 – 1 = 12개월 – 1-1 = 10

합계의 자유도 = 표본크기 – 1 = 12개월 – 1 = 11

 

아래 분석결과 표와 같이 비표준화계수에 의해 다음과 같은 회귀식이 도출됩니다.

 

광고비에 대한 회귀계수는 통계적으로 유의한 정(+)의 관계로 나타났고(β=.921, P<.001), 귀무가설은 기각되고 대립가설은 지지됩니다.

 

따라서 광고비 지출은 매출에 영향을 미치며, 특히 회귀계수가 정(+)의 값을 가지므로 광고비의 증가에 따라 매출이 증가하는 경향이 있는 것으로 해석할 수 있어요.

 

표의 t값은 비표준화 계수를 표준오차로 나눈 값입니다.

56.759 ÷ 7.594 = 7.474

회귀식을 이용한 종속변수 값의 추정

 

위 예처럼 회귀식의 독립변수가 유의적이면, x값이 주어진 경우 y값을 추정할 수 있습니다. 그러나 독립변수가 유의적이지 않은 경우 x는 y에 영향을 미친다고 할 수 없으므로 x값으로부터 y값을 추정해서는 안되겠죠?

 

예처럼 회귀식의 독립변수는 유의적으로 나타났기 때문에 다음해 1월에 1억 원의 광고비 지출을 할 경우 예상 매출액은 다음과 같이 계산됩니다.

 

 

즉, 1억원의 광고비 투입시 99.48억원의 매출이 예상된다고 할 수 있습니다.

기업 데이터 통계, 공공기관 데이터 통계, 논문 통계

퀵데이터는 여러분의 성공을 위해 오늘도 함께 하겠습니다~~^^

(주)한국교육데이터