ADP(데이터분석 전문가)/스터디노트

[4과목] 데이터 가공

bonanza 2021. 2. 25. 17:45

1. 변수의 구간화

  • binning: 신용평가 모형의 개발에서 연속형 변수를 범주형 변수로 구간화 하는데 쓰는 방법

              (ex. 신용점수 100~90점은 A, 신용점수 90~80은 B ...)

  • 의사결정나무: 여러번의 분리기준으로 구간화

 

2. 결측치

  • 단순대치법 - complete analysis: 결측치 값 제거
  • 단순대치법 - 평균대치법: 데이터의 평균으로 대치 (비조건부 평균 대치, 조건부 평균대치)
  • 단순대치법 - 단순확률 대치법: Hot-deck 방법, KNN방법
  • 다중대치법: m번의 대치를 통해 m개의 가상적 완전자료 생성 (대치-분석-결합_

 

3. 이상치

  • ESD(Extreme Studentized Deviation): 3시그마 떨어진 값

  • 기하평균 - 2.5*표준편차 < data < 기하평균 + 2.5 * 표준편차
  • 사분위수 이용하여 제거 (bot plot)

 

4. 극단값 절단(trimming)

  • 기하평균을 이용
  • 임의 % 이용
반응형