- 분류함수를 의사결정 규칙으로 이뤄진 나무 모양으로 그리는 방법

1. 장점과 단점
<장점>
- 누구에게나 설명하기 용이하다, 계산이 복잡하지 않다.
- 대용량 데이터에서도 빠르게 만들수 있다.
- 비정상 잡음 데이터에 대해서도 민감함이 없이 분류할 수 있다.
- 분류의 정확도가 높다
<단점>
- 과대적합이 발생할 가능성이 높다.
- 분류 경계선 부근의 자료값에 대해서 오차가 크다.
- 설명변수 간의 중요도를 판단하기 쉽지 않다.
2. 분석과정
- 성장단계: 최적의 분리규칙(splitting rule)을 찾아서 나무를 성장시키는 과정으로 적절한 정지규칙을 만족하면 중단
- 가지치기 단계: 불필요한 가지를 제거
- 타당성 평가 단계: 이익도표나 위험도표를 통해 의사결정나무를 평가
- 해석 및 예측 단계
3. 분리기준
<이산형 목표변수>
- 카이제곱 통계량 p값이 작아지는 방향으로 자식 마디를 형성
- 지니 계수가 낮아지는 방향으로 자식 마디를 형성
- 엔트로피지수가 낮아지는 방향으로 자식마디를 형성
→ 가지나 낮아질수록 카이제곱 통계량 p값, 지니계수, 엔트로피 지수가 낮아짐
<연속형 목표변수>
- 분산분석에서 F통계량이 작아지는 방향으로 자식마디를 형성
- 분산의 감소량을 최대화하는 방향으로 자식마디를 형성
4. 불순도
* 가지가 낮아질수록 불순도가 낮아지고 순수도가 높아짐
- 지니지수

- 엔트로피지수

5. R패키지
- 의사결정 나무는 ctree, rpart, party 패키지를 통해 적용
- rpart.control을 통해 모형 적합
- $cptable은 교차타당성오차
→ x-error가 가장 낮은 split 개수를 선택
반응형
'ADP(데이터분석 전문가) > 스터디노트' 카테고리의 다른 글
[4과목] 성과분석 (0) | 2021.03.15 |
---|---|
[4과목] 회귀분석 (0) | 2021.03.07 |
[4과목] 통계분석 방법론 (0) | 2021.03.04 |
[4과목] 통계분석의 이해 (0) | 2021.02.28 |
[4과목] 데이터 가공 (3) | 2021.02.25 |