[논문통계분석] 논문통계에 사용되는 #로지스틱 회귀분석 1탄 : 개념 파악 / 퀵데이터/ 논문작성자에게 필요한 강의
로지스틱 회귀분석은 19세기 퀘틀레(Quetelet)와 베르헐스트(Verhulst)가 인구증가에 대한 연구를 하면서부터 시작되었다. 인구증가가 최초에는 지수적 증가에 의한다고 생각되었는데 나중에는 불가능한 수에 도달하게 되면서 이를 보완하기 위한 통계적 모형으로 로지스틱 함수가 이용되었다. 1938년에 피셔(Fisher)와 예이츠(Yates)가 이항 결과변수를 분석할 때 logit 변환에 의한 회귀모형을 제시하였다.
▣ 로지스틱 회귀분석 [ Logistic Regression ]
● 분석하고자 하는 대상들이 두 집단 혹은 둘 이상의 집단으로 구분된 경우에 개별 관측치(케이스)가 어느
집단으로 분류될 수 있는가를 분석하고 예측
● 개별 관측치가 2개의 집단 중 어느 집단에 속하는가를 나타내는 이항 범주형 종속변수를 예측하는 모형
개발에 사용
● 정량적/정성적 변수 모두 독립변수로 구성된 비선형 함수로 범주형 종속변수값을 예측
📌 로지스틱회귀분석 전제조건
① 종속변수는 명목형(범주형)변수
② 독립변수 간에는 다중공선성이 존재하지 않음
③ 정규성과 등분산성에 대한 오차항 가정을 하지 않음
④ 표본 크기는 회귀식에 포함된 독립변수들이 10배 이상이어야 함
다중공선성은 독립변수 간에 강한 상관관계가 존재하는 것으로 독립변수들이 서로 독립적이 아니라 상호 상관관계가 강한 경우에 발생하는 것이다.
🍀 로지스틱 회귀분석 활용 사례
🍀 분석방법 분류
로지스틱회귀분석은 분석 목적이나 절차에 있어서 일반 회귀분석과 비슷한데 종속변수가 명목척도로 측정된 범주형 질적변수인 경우에 사용한다는 점에서 차이가 있다. 예를 들어 마케팅비용과 판매가격, 매장 수 등을 이용해서 예상매출액을 예측하려면 독립변수와 종속변수 모두 양적변수라서 일반 회귀분석을 사용한다. 그런데 기업의 파산여부나 고객 이탈여부, 선호하는 브랜드 등과 같이 범주형 종속변수 값을 사용하려면 로지스틱 회귀분석을 사용한다.
● 이항로지스틱회귀분석은 종속변수가 두 개만 있는 이항 범주형 변수일 경우 종속변수 값을 예측하기 위해 관측치의 특성을 나타내는 정량적 혹은 정성적 독립변수들로 구성
일반회귀식은 모든 변수의 척도가 간격, 비율척도로 측정된 변수임을 전제로 한다. 독립변수에 따라서 종속변수는 음수와 양수의 무한대 값을 가질 수 있고 회귀분석은 선형을 가정한다.
범주형으로 구성된 이분형 종속변수의 로지스틱 회귀분석은 종속변수가 0과 1만을 갖기 때문에 문제점들이 있다. 종속변수 값이 비연속적이라서 독립변수와 종속변수 사이의 관계를 명확히 규명하기 어렵다. 그림을 보듯이 0보다 작거나 1보다 큰 값은 가질 수 없다는 것이다. 그래서 종속변수가 특정한 값을 가질 확률을 종속변수로 해서 종속변수의 비연속성에 의해 발생할 수 있는 문제점을 해소해야 한다.
단순한 확률값 대신에 종속변수가 특정한 값을 가질 확률(p)과 그 값을 가지지 못할 확률(1-p)의 비를 구하는 것인데 이를 오즈(odds)라고 한다. 더 나아가서 양수와 음수의 무한대 값을 갖기 위해 로그오즈 변수로 치환과정을 통해서 일반 회귀분석의 종속변수가 될 수 있는 요건을 갖출 수 있게 된다. 그래서 로지스틱 회귀분석은 S자형으로 비선형을 가정한다.
🍀 로지스틱회귀 모델 도출
● 사건발생확률 대 미발생확률 비율의 로그값(로짓)
● 분석결과에서 회귀계수 (+)는 독립변수 값이 증가할 때 로짓이 증가, (-)는 로짓이 감소
🍀 로지스틱회귀 모델적합도 평가
⑴ 우도비 검정을 통해 적합도 평가
완전모델 : 독립변수가 포함된 모델
축소모델 : 완전모델에서 독립변수가 제거된 모델
① 로그우도(LL: Log Likelihood)
● 로지스틱 모형에 대한 적합도를 검정할 수 있는 통계량
● 로그우도에 -2배한 값을 -2LL이라하고, 카이제곱 분포를 하므로 -2LL을 적합도 검정에 사용
② 우도비검정(Likelihood Ratio Test)
● 로그우도비: 독립변수를 투입하기 전(상수항만 포함)모형과 독립변수를 투입한 모형에서 2LL의 차이
● 로그우도비는 카이제곱 통계량으로 표시되며 이 값이 클수록 독립변수의 종속변수에 대한 기여도가 높음
⑵ Hosmer-Lemeshow검정을 통해 적합도 평가
🍀 로지스틱회귀 모델적합성 강도
● 선형회귀식에서 모형의 적합도 정도는 R2(결정계수)에 의해 판단
● 로지스틱 회귀분석에서는 유사 R2 을 사용하여 통계적으로 유의한 경우 적합성 판단
● 유사 R제곱(Pseudo) : COX와 Snell의 R제곱, nagelkerke R제곱 값이 클수록 모델의 적합도 우수
🍀 로지스틱회귀 모델 가설검정
● 우도비 검정에 의해 로지스틱함수의 판별력이 통계적으로 유의하면 다음 단계로 개별 독립변수가 통계적으로 유의한지 여부 검정
● 개별 로지스틱 회귀계수의 유의성 검정: Wald 통계량 이용 (p<.05) (회귀계수 ÷ 표준오차)2
● 로지스틱 회귀계수는 오즈비(승산비: Odds Ratio) 계산에 사용
▣ 선형 회귀분석 vs 로지스틱 회귀분석 정리
* 최소제곱법이 잔차를 최소화할 수 있는 최적의 회귀선을 도출하는 방법으로 일반 회귀분석에서 사용된다.
* 최대우도법은 독립변수와 종속변수로 구성된 일련의 관측치들을 그대로 정확히 발생할 수 있는 확률을 최대화 하는 계수값을 추정하는 방법이다.
로지스틱 회귀분석 개념에 대해 살펴보았습니다.
위의 내용을 동영상으로 확인해보세요~
로지스틱 회귀분석 강의 1탄 : 로지스틱 개념 이해하기▼ ▼ ▼
"논문의 품질을 높이는 열쇠!!!
퀵데이터 논문통계분석을 통해 더욱 탄탄한 논문을 완성하세요."
퀵데이터 논문컨설팅은 논문 주제 선정부터, 연구모형, 통계분석, 심사 준비까지 전문 지도 박사님의 1:1 맞춤형 컨설팅 통해 효율적이고 빠른 논문작성을 도와드립니다. 논문 검토, 논문편집, 논문 통계분석까지 직접적인 컨설팅을 원한다면 퀵테이터에 문의하세요
상담문의 1600-7473
카카오톡 quickdata