논문 가설검증 방법으로 사용되는
회귀분석 설명 및 이해
■ 회귀의 유래
Francis Galton이 부모 자녀 유전 연구에서 회귀(regression) 사용
“비정상적으로 크거나 작은 부모의 아이들 키는 전체 인구의 평균 신장을 향해 움직이거나 회귀(regression)하는 경향이 있다”
키 큰 부모, 키작은 부모의 특성이 100%자녀에게 유전되면 인류는 키가 큰 사람과 작은 사람으로 나누어질 것이다. 그러나 실제로 키는 종족의 평균에 가까이 간다. 골턴은 이런 현상을 평균으로의 회귀라 하였고, 회귀분석의 회귀란 평균으로 되돌아간다는 의미이다.
■ 회귀분석 개념
우리가 어떤 값을 추정하려고 할 때 평균값을 기준으로 추정한다. 그런데 평균외의 값을 예측하는 경우는 예측 정확도가 많이 떨어질 것이다.
예를 들어보면, 첫 번째 그림은 몸무게에 따른 학생들의 키를 산점도로 나타낸 것이다. 몸무게가 증가하면 키도 커진다. 이럴 때 전체 평균보다는 몸무게가 비슷한 집단으로 구분하고 집단 평균키로 추정하는 것이 바람직하다.
두 번째 몸무게를 20kg단위로 집단을 구분하고 집단에 속한 사람들의 키를 조사하여 집단별로 평균키를 구한다. 집단에 속하지 않는 사람이 있어 이 사람의 키를 추정하려고 한다. 이 사람의 몸무게가 57kg이라고 한다면 50kg 집단의 평균키로 이 학생의 키를 추정한다. 이런식으로 추정하는 것이 전체의 평균을 가지고 추정하는 것보다 합리적인 것이다.
더 범위를 좁혀 10kg단위로 집단을 구분할 수 있고 더 세밀하게 집단을 구분할 수도 있다.
세밀하고 더욱 촘촘하게 단위를 세분하하면 결국 몸무게, 즉 X축의 모든 점들이 집단을 나누는 단위가 될 수 있다.
결국 각 집단에 속한 사람들의 키는 해당 집단의 평균으로 회귀하기 때문에 그 집단의 평균 값으로 집단에 속한 사람들의 키를 추정한다. 쉽게 말하면 사람들의 몸무게가 몇kg일 때 키가 몇 cm라는 합리적 관계를 도출하고 예측하는 것이다.
마지막 그림처럼 세분화 된 집단의 평균을 통과하는 직선이 바로 회귀선이고 회귀선을 도출하는 분석이 회귀분석인 것이다. 변수 간의 관계를 나타내는 회귀선을 통해 원인변수 X값이 주어질 때 결과변수 Y값을 예측하거나 영향관계를 설명하는 것이다.

예를 들어,
매출액과 광고비에 따라 어떻게 변할까?
직무환경을 개선함에 따라 직무몰입이 증가할까?
SNS중독과 스트레스의 관계는 어떨까? 등 인간의 삶, 사회 전반에 걸쳐 다양한 회귀분석이 가능하다.

■ 회귀분석 목적
- 독립, 종속 변수 간 인과관계의 분석
- 변수 간 상관관계의 유의성, 인과관계의 방향과 영향력 정도 추정
- 독립, 종속 변수 간의 선형적 관계 예측
일반적으로 회귀분석은 종속, 독립변수간 선형관계를 기본으로 한다.
몸무게와 키, 광고비와 매출액처럼 독립변수가 증가하면 종속변수도 일정한 폭으로 증가 혹은 감소하는 관계가 선형이다. 공부하면 시험점수가 올라간다. 술을 많이 먹으면 간이 안좋아진다처럼 비례관계다.
반면 비선형은 비례관계가 성립되지 않는 것이다. 예를 들면 나이를 먹으면 키가 자란다는 관계는 성장기가 지난 이후에는 성립되지 않는다. 즉 비선형 관계가 된다. 이렇게 비선형일 때 독립변수를 로그함수를 이용하여 치환한 값을 새로운 독립변수로 설정하여 분석할 수 있다.
- 독립변수와 종속변수 설정은 논리적 타당성이 있어야 함
예를 들어, 국가가 부유하면 복지정책에 영향을 미친다는 가설은 논리적 타당성이 있지만, 대통령이 부유하면 복지정책에 영향을 미친다라는 가설은 논리적 타당성이 없다. 논리가 없는 회귀분석은 의미가 없다.
- 논리적 근거 없는 통계적 유의성은 학술적 가치가 떨어짐
■ 회귀분석 전제조건
회귀분석을 하면 단순히 유의하냐 안하냐만 검토하는데 관심을 갖는다. 그런데 데이터가 적합하지 않음에도 분석을 했다면 결과를 신뢰할 수 없다. 따라서 회귀분석 결과를 신뢰하고 이를 이용하여 예측하려면 전제조건이 충족되어야 한다.
① 특정한 독립변수(x) 값에 해당하는 종속변수(y)값들은 정규분포가 되어야 하며 이들 분산은 동일해야 함
② 종속변수 값들은 통계적으로 서로 독립적이어야 함
③ 다중회귀분석 경우 독립변수 간에는 다중공선성이 존재하면 안됨
다중공선성은 독립변수들 간의 상관관계이다. 어떤 특정 독립변수가 다른 독립변수에 미치는 영향이 클 경우 다중공선성이 있다고 한다. 다중공선성이 있다는 것은 최소제곱법으로 추정된 회귀모형의 표준오차 값이 커지는 경향이 있어 회귀모형이 잘못 추정될 가능성이 크고, 그만큼 예측력이 감소한다.
예를 들어 광고비와 영업비를 이용하여 매출액을 추정하려고 하는데 광고비와 영업비의 상관관계가 높아서 각각의 변수가 매출액의 변화를 설명하는 부분중에 50%이상이 중복되고 개별적으로 매출액을 설명하는 부분이 각 10%남짓에 불과하면 설득력이 떨어진다. 차라리 광고비든 영업비든 하나만 선택해서 매출액 변화의 60%만 설명하는 회귀모형을 만드는 것이 바람직하다.
■ 회귀분석 종류
회귀분석은 독립변수의 수, 척도, 관계에 따라 분석의 방법이 구분된다.
명목이나 서열척도로 측정된 변수는 더미변수로 변환하여 분석하여야 한다. 0과 1의 값을 갖도록 가상적으로 만든 이항변수로 바꾸어 줘야 한다. 예를 들면 성별 같은 것으로 셀 수 없어 회귀분석이 안되기때문에 더미변수로 변환하여 회귀분석을 한다.
이상 회귀분석의 유래, 회귀분석 정의, 회귀분석 목적, 회귀분석 전제조건, 회귀분석 종류에 대해 살펴보았습니다. 위 내용을 동영상으로 시청하시려면 유튜브에서 '퀵데이터'를 검색하세요~
[논문통계분석] 논문에 사용되는 회귀분석이란??? 동영상으로 논문통계분석 공부하기 ▼▼▼
논문통계분석이 막막한 논문을 시작하는 여러분들을 위해서 퀵데이터가 논문통계분석에 대한 꿀팁 동영상을 제공해드립니다. 좋아요!! 구독!! 부탁드려요♥♥♥ www.youtube.com/@quickdata7
퀵데이터 논문컨설팅은 논문 주제 선정부터, 연구모형, 통계분석, 심사 준비까지 전문 지도 박사님의 1:1 맞춤형 컨설팅 통해 효율적이고 빠른 논문작성을 도와드립니다. 논문 검토, 논문편집, 논문 통계분석까지 직접적인 컨설팅을 원한다면 퀵테이터에 문의하세요 상담문의 1600-7473
퀵데이터 논문컨설팅, 논문통계 상담문의 ▼▼▼
'논문 > 논문통계' 카테고리의 다른 글
[논문통계분석 및 해석] 논문에 사용되는 다중회귀분석 해석 및 작성법_논문통계 잘하는 법_퀵데이터 (0) | 2023.08.22 |
---|---|
[논문통계분석 및 해석] 논문에 사용되는 단순회귀분석, 단순회귀분석 해석 및 작성방법_퀵데이터 (0) | 2023.08.22 |
논문 통계분석 어떻게 시작해야 하나요? 논문컨설팅_퀵데이터 (0) | 2023.03.31 |
논문통계분석 어떻게하나요? 논문통계분석 시작부터 가설검증까지_다중회귀분석이란? (0) | 2023.03.27 |
논문통계분석 어떻게하나요? 논문통계분석 시작부터 가설검증까지_단순회귀분석이란? (0) | 2023.03.27 |