ADP(데이터분석 전문가)/스터디노트
[4과목] 데이터 가공
bonanza
2021. 2. 25. 17:45
1. 변수의 구간화
- binning: 신용평가 모형의 개발에서 연속형 변수를 범주형 변수로 구간화 하는데 쓰는 방법
(ex. 신용점수 100~90점은 A, 신용점수 90~80은 B ...)
- 의사결정나무: 여러번의 분리기준으로 구간화
2. 결측치
- 단순대치법 - complete analysis: 결측치 값 제거
- 단순대치법 - 평균대치법: 데이터의 평균으로 대치 (비조건부 평균 대치, 조건부 평균대치)
- 단순대치법 - 단순확률 대치법: Hot-deck 방법, KNN방법
- 다중대치법: m번의 대치를 통해 m개의 가상적 완전자료 생성 (대치-분석-결합_
3. 이상치
- ESD(Extreme Studentized Deviation): 3시그마 떨어진 값
- 기하평균 - 2.5*표준편차 < data < 기하평균 + 2.5 * 표준편차
- 사분위수 이용하여 제거 (bot plot)
4. 극단값 절단(trimming)
- 기하평균을 이용
- 임의 % 이용
반응형