ADP(데이터분석 전문가)/스터디노트

[4과목] 회귀분석

bonanza 2021. 3. 7. 17:28

1. 회귀분석

- 변수와 변수 사이의 관계를 알아보기 위한 통계적 방법

- 독립변수의 값에 의하여 종속변수의 값을 예측하기 위함

  • 독립변수(independent variable) : 종속변수에 영향을 미치는 변수 (=설명변수, 예측변수)
  • 종속변수(dependent variable) : 분석의 대상이 되는 변수 (=반응변수, 결과변수)

위키피디아

2. 회귀모형에 대한 가정

  • 선형성 : 독립변수의 변화에 따라 종속변수도 변화하는 선형인 모형
  • 독립성 : 잔차와 독립변수의 값이 관련되어 있지 않음
  • 등분산성 : 오차항들의 분포는 동일한 분산을 가짐
  • 비상관성 : 잔차들끼리 상관이 없어야 
  • 정상성 : 잔차항이 정규분포를 이뤄야 

 

3. 회귀분석 모형에서 확인할 사항

  • 모형이 통계적으로 유의미한가? F분포값과 유의확률(p-value) 확인
  • 회귀계수들이 유의미한가? 회귀계수의 t값과 유의확률(p-value) 확인
  • 모형이 얼마나 설명력을 갖는가? 결정 계수(R^2)를 확인
  • 모형이 데이터를  적합하고 있는가? 잔차통계량을 확인하고 회귀진단

 * 결정계수(R^2) = SSR/SST

  - 다변량 회귀분석에서 독립변수가 많아지면 R^2값이 자연스럽게 높아짐 → 수정된 결정계수(R^2a)

  - 단순 회귀분석에서 결정계쑤는 상관계수 r의 제곱과 같다

 

4. 통계적 유의성

  • 다변량 모형의 통계적 유의성은 F통계량으로 확인
  • H0: β0 = β1 = β2 = 0, H1: 적어도 하나의 설명변수는 0이 아니다 

  • 각 회귀변수의 유의성은 t통계량으로 확인

 

5. 다중공선성(Multicolinearity)

 - 모형의 일부 예측변수가 다른 예측변수와 상관되어 있을  발생하는 조건이다.

 - 중대한 다중공선성은 회귀계수의 분산을 증가시켜 불안정하고 해석하기 어렵게 만들기 때문에 문제가 된다.

 - R에서는 vif 함수를 이용해 VIF값을 구할  있으며, 보통 VIF값이 10이 넘으면 다중공선성이 존재한다고 본다.

 - 해결방안 : 높은 상관 관계가 있는 예측변수를 모형에서 제거한다.

 

6. 최적 회귀방정식의 선택 : 단계별 변수선택(Stepwise Variable Selection)

 - 후진 제거법(Backward Elimination) : 기준 통계치에 가장 도움이 되지 않는 변수를 하나씩 제거하는 방법

 - 전진 선택법(Forward Selection) : 기준 통계치를 가장 많이 개선시키는 변수를 차례로 추가하는 방법

 - 단계별 선택법(Stepwise Selection) : 모든 변수가 포함된 모델에서 기준 통계치에 도움되지 않는 변수를 삭제하거나, 모델에 빠진 변수중 통계치를 개선시키는 변수를 추가하는 방법

 

7. 벌점화된 선택 기준

 - AIC(아케이케), BIC(슈바르츠 통계량) → 낮을수록 좋다 (R에서는 step 함수)

 

8. 영향력 진단

  • 적합된 회귀모형의 안전성을 평가하는 통계적인 방법
  • Cook's distance, DEBETAS, EFFITS, Leverage H

  * 오차항이 독립성을 만족하는 지를 검정: 더빈 왓슨(Durbin Watson)검정 → 2에 가까울수록 오차항의 자기상관성이 없음

 

9. 정규화 선형회귀(Regularized Linear Regression)

  •  선형회귀계수에 대한 제약 조건을 추가하여 모형이 과도하게 최적화되는,  과적합(overfitting) 막는 방법

 

10. 딥러닝에서 과적합 문제를 해결하는 방법

  •  많은 데이터를 사용한다.
  • Cross Validation
  • 정규화(Regularization) - Ridge 회귀모형(L2 penalty), Lasso 회귀모형(L1 penalty), Elastic Net 회귀 모형 (Ridge와 Lasso 결합)

   * 변수선택법 중 Embedded method로 최적화된 변수를 선택하는 방법

 

11. 일반화 선형회귀(GLM)

  • 종속변수를 적절한 함수로 변화시켜 f(x)를 정의한 후, 이 f(x)와 독립변수를 선형 결합으로 모형화함
반응형

'ADP(데이터분석 전문가) > 스터디노트' 카테고리의 다른 글

[4과목] 의사결정나무  (0) 2021.03.18
[4과목] 성과분석  (0) 2021.03.15
[4과목] 통계분석 방법론  (0) 2021.03.04
[4과목] 통계분석의 이해  (0) 2021.02.28
[4과목] 데이터 가공  (3) 2021.02.25