ADP(데이터분석 전문가)/스터디노트

[4과목] 의사결정나무

bonanza 2021. 3. 18. 21:36
  • 분류함수를 의사결정 규칙으로 이뤄진 나무 모양으로 그리는 방법

 

1. 장점과 단점

 <장점>

  • 누구에게나 설명하기 용이하다, 계산이 복잡하지 않다.
  • 대용량 데이터에서도 빠르게 만들수 있다.
  • 비정상 잡음 데이터에 대해서도 민감함이 없이 분류할 수 있다.
  • 분류의 정확도가 높다

<단점>

  • 과대적합이 발생할 가능성이 높다.
  • 분류 경계선 부근의 자료값에 대해서 오차가 크다.
  • 설명변수 간의 중요도를 판단하기 쉽지 않다.

 

2. 분석과정

  • 성장단계: 최적의 분리규칙(splitting rule)을 찾아서 나무를 성장시키는 과정으로 적절한 정지규칙을 만족하면 중단
  • 가지치기 단계: 불필요한 가지를 제거
  • 타당성 평가 단계: 이익도표나 위험도표를 통해 의사결정나무를 평가
  • 해석 및 예측 단계

 

3. 분리기준

 <이산형 목표변수>

  • 카이제곱 통계량 p값이 작아지는 방향으로 자식 마디를 형성
  • 지니 계수가 낮아지는 방향으로 자식 마디를 형성
  • 엔트로피지수가 낮아지는 방향으로 자식마디를 형성

→ 가지나 낮아질수록 카이제곱 통계량 p값, 지니계수, 엔트로피 지수가 낮아짐

<연속형 목표변수>

  • 분산분석에서 F통계량이 작아지는 방향으로 자식마디를 형성
  • 분산의 감소량을 최대화하는 방향으로 자식마디를 형성

 

4. 불순도

* 가지가 낮아질수록 불순도가 낮아지고 순수도가 높아짐

  • 지니지수

  • 엔트로피지수

 

5. R패키지

  • 의사결정 나무는 ctree, rpart, party 패키지를 통해 적용
  • rpart.control을 통해 모형 적합
  • $cptable은 교차타당성오차 

x-error가 가장 낮은 split 개수를 선택

반응형

'ADP(데이터분석 전문가) > 스터디노트' 카테고리의 다른 글

[4과목] 성과분석  (0) 2021.03.15
[4과목] 회귀분석  (0) 2021.03.07
[4과목] 통계분석 방법론  (0) 2021.03.04
[4과목] 통계분석의 이해  (0) 2021.02.28
[4과목] 데이터 가공  (3) 2021.02.25