1. 변수의 구간화
- binning: 신용평가 모형의 개발에서 연속형 변수를 범주형 변수로 구간화 하는데 쓰는 방법
(ex. 신용점수 100~90점은 A, 신용점수 90~80은 B ...)
- 의사결정나무: 여러번의 분리기준으로 구간화
2. 결측치
- 단순대치법 - complete analysis: 결측치 값 제거
- 단순대치법 - 평균대치법: 데이터의 평균으로 대치 (비조건부 평균 대치, 조건부 평균대치)
- 단순대치법 - 단순확률 대치법: Hot-deck 방법, KNN방법
- 다중대치법: m번의 대치를 통해 m개의 가상적 완전자료 생성 (대치-분석-결합_
3. 이상치
- ESD(Extreme Studentized Deviation): 3시그마 떨어진 값
- 기하평균 - 2.5*표준편차 < data < 기하평균 + 2.5 * 표준편차
- 사분위수 이용하여 제거 (bot plot)
4. 극단값 절단(trimming)
- 기하평균을 이용
- 임의 % 이용
반응형
'ADP(데이터분석 전문가) > 스터디노트' 카테고리의 다른 글
[4과목] 통계분석 방법론 (0) | 2021.03.04 |
---|---|
[4과목] 통계분석의 이해 (0) | 2021.02.28 |
[4과목] R기초 (1) | 2021.02.23 |
[4과목] 데이터 분석 개요 (0) | 2021.02.20 |
[3과목] 분석 거버넌스 체계 수립 (0) | 2021.02.19 |