ADP(데이터분석 전문가)/스터디노트 28

[4과목] 의사결정나무

분류함수를 의사결정 규칙으로 이뤄진 나무 모양으로 그리는 방법 1. 장점과 단점 누구에게나 설명하기 용이하다, 계산이 복잡하지 않다. 대용량 데이터에서도 빠르게 만들수 있다. 비정상 잡음 데이터에 대해서도 민감함이 없이 분류할 수 있다. 분류의 정확도가 높다 과대적합이 발생할 가능성이 높다. 분류 경계선 부근의 자료값에 대해서 오차가 크다. 설명변수 간의 중요도를 판단하기 쉽지 않다. 2. 분석과정 성장단계: 최적의 분리규칙(splitting rule)을 찾아서 나무를 성장시키는 과정으로 적절한 정지규칙을 만족하면 중단 가지치기 단계: 불필요한 가지를 제거 타당성 평가 단계: 이익도표나 위험도표를 통해 의사결정나무를 평가 해석 및 예측 단계 3. 분리기준 카이제곱 통계량 p값이 작아지는 방향으로 자식 마..

[4과목] 성과분석

오분류에 대한 추정치 1) 정분류율(Accuracy) = (TN+TP) / (TN + TP + FN + FP) 2) 오분류율(Error rate) = (FN + FP) / (TN + TP + FN + FP) 3) 특이도(Specificity) = TN / (TN + FP) → 실제 Negative 중 정상 분류 4) 민감도(Sensitivity) = TP / (TP + FN) → 실제 Positive 중 정상 분류 5) 정확도(Precision) = TP / (TP + FN) → 예측 Positive 중 정상 분류 6) 재현율(Recall) = TP / (TP + FN) → 민감도와 같음 7) F1 Score = 2 * (Precision * Recall) / (Precision + Recall)

[4과목] 회귀분석

1. 회귀분석 - 변수와 변수 사이의 관계를 알아보기 위한 통계적 방법 - 독립변수의 값에 의하여 종속변수의 값을 예측하기 위함 독립변수(independent variable) : 종속변수에 영향을 미치는 변수 (=설명변수, 예측변수) 종속변수(dependent variable) : 분석의 대상이 되는 변수 (=반응변수, 결과변수) 2. 회귀모형에 대한 가정 선형성 : 독립변수의 변화에 따라 종속변수도 변화하는 선형인 모형 독립성 : 잔차와 독립변수의 값이 관련되어 있지 않음 등분산성 : 오차항들의 분포는 동일한 분산을 가짐 비상관성 : 잔차들끼리 상관이 없어야 함 정상성 : 잔차항이 정규분포를 이뤄야 함 3. 회귀분석 모형에서 확인할 사항 모형이 통계적으로 유의미한가? F분포값과 유의확률(p-value..

[4과목] 통계분석 방법론

1. t 검정 두 집단의 평균을 비교하기 위한 검정 (집단의 평균키 = 120 ?) H0: μ = μ0 일표본 t검정: 단일 모집단 대응표본 t검정: 단일 모집단 두번 처리 독립표본 t검정: 두개의 독립된 모집단의 평균 비교 2. ANOVA(분산분석) 그룹 평균 간 차이를 그룹 내 변동에 비교 (A고 1학년의 평균키 = B고 1학년의 평균키 = C고 1학년의 평균 키 ?) 범주형 그룹변수 H0: μ0 = μ1 = μ2 ... F통계량 이용 일원배치 분산분석 (One way): 독립 변수의 개수가 1개 검증: A고 1학년의 평균키 = B고 1학년의 평균키 = C고 1학년의 평균 키 ? 이원배치 분산분석 (Two way): 독립 변수의 개수가 2개 검증1: A고 1학년의 평균키 = B고 1학년의 평균키 = ..

[4과목] 통계분석의 이해

1. 표본 추출 방법 단순랜덤 추출법(simple random sampling) 계통추출법(systematic sampling) 집락추출법(cluster random sampling) 층화추출법(stratified random sampling) 2. 측정 질적척도(범주형자료, 숫자들의 크기 차이가 계산되지 않는 척도) 명목척도: 어느 집단에 속하는지 분류할 때 (성별, 출생지 등) 순서척도: 서열관계를 측정할 때 (만족도, 학년, 신용등급 등) → 1등이 3등보다 높다는 것은 알지만, 얼마나 높은지는 알수 없음 (사칙연산이 불가능) 양적척도(수치형자료, 숫자들의 크기 차이를 계산할 수 있는 척도) 구간척도: 속성의 양을 측정하는 것으로 구간이나 구간사이의 간격이 의미가 있음 (온도, 지수) → "20도가..

[4과목] 데이터 가공

1. 변수의 구간화 binning: 신용평가 모형의 개발에서 연속형 변수를 범주형 변수로 구간화 하는데 쓰는 방법 (ex. 신용점수 100~90점은 A, 신용점수 90~80은 B ...) 의사결정나무: 여러번의 분리기준으로 구간화 2. 결측치 단순대치법 - complete analysis: 결측치 값 제거 단순대치법 - 평균대치법: 데이터의 평균으로 대치 (비조건부 평균 대치, 조건부 평균대치) 단순대치법 - 단순확률 대치법: Hot-deck 방법, KNN방법 다중대치법: m번의 대치를 통해 m개의 가상적 완전자료 생성 (대치-분석-결합_ 3. 이상치 ESD(Extreme Studentized Deviation): 3시그마 떨어진 값 기하평균 - 2.5*표준편차 < data < 기하평균 + 2.5 * 표..

[4과목] R기초

1. 데이터 분석 도구의 현황 분석도구 비교 SAS SPSS R Python 프로그램 비용 유료, 고가 유료, 고가 오픈소스, 무료 오픈소스, 무료 설치용량 대용량 대용량 모듈화로 간단 모듈화로 간단 (배우기 쉬움) 다양한 모듈 지원 및 비용 별도구매 별도구매 오픈소스 오픈소수 최신 알고리즘 및 기술반영 느림 다소 느림 매우 빠름 매우 빠름 (기계학습에 능숙) 학습자료 입수의 편의성 유료 도서 위주 유료 도서 위주 공개 논문 및 자료 많음 공개 논문 및 자료 많음 질의를 위한 공개 커뮤니티 NA NA 매우 활발 매우 활발 유지보수 쉽다 쉽다 어렵다 어렵다 2. 대화형 모드와 배치모드 대화형 모드 (interactive mode): 프롬프트에 코딩을 하여 결과를 바로 알 수 있음 배치모드 (batch mo..

[4과목] 데이터 분석 개요

1. 시각화 전통적 데이터 분석 과 빅데이터 분석의 차이는 "시각화" EDA과정은 시각화가 필수 2. 공간분석 공간분석(spatial analysis): 공간적 차원과 관련된 속성들을 시각화 3. 탐색적 자료 분석(EDA) 특이한 점이나 의미 있는 사실을 도출하고 분석의 최종 목적을 달성해가는 과정 구조적 관계를 알아가는 과정 4가지 주제: 저항성 강조, 잔차 계산, 자료변수의 재표현, 그래프를 통한 현시성 4. 통계분석 기술통계(descriptive statistics): 표본데이터에 대해 숫자나 그래프로 표현 추론통계(inferential statistics): 표본의 표본통계량으로 부터 모집단의 특성인 모수에 관해 통계적으로 추론 5. 데이터 마이닝 대용량 데이터에 대해 관계, 패턴, 규칙등을 탐색..

[3과목] 분석 거버넌스 체계 수립

1. 분석 거버넌스 체계 분석 거버넌스 체계 구성요소: Organization, Process, System, Data, Human Resource 분석 준비도의 6가지 구성요소: 분석업무 파악, 인력 및 조직, 분석기법, 분석 데이터, 분석 문화, IT 인프라 분석업무파악 발생한 사실 분석업무 예측 분석업무 시뮬레이션분석업무 최적화 분석업무 분석업무 정기적 개선 인력 및 조직 분석 전문가 직무 존재 분석 전문가 교육훈련프로그램 관리자들의 기본적인 분석능력 전사분석업무총괄조직존재 경영진의 분석업무 이해능력 분석업무 업무별 적합한 분석기법 사용 분석업무 도입방법론 분석기법 라이브러리 분석기법 효과성 평가 분석기법 정기적 개선 분석 데이터 분석업무를 위한 데이터 충분성 분석업무를 위한 데이터 신뢰성 분석업무..

[3과목] 마스터 플랜 수립 프레임 워크

1. 마스터 플랜 수립 프레임 워크 우선 순위 고려 요소 적용범위/방식 고려 요소 1) 우선 순위 평가 전략적 중요도: 전략적 필요성, 시급성 ROI관점: 투자비용 요소, 비즈니스 효과 투자비용 요소: volume, variety, velocity 비즈니스 효과: value * 우선순위 평가 기준: 시급성, 난이도 → '시급성'에 둔다면 3→4→2, '난이도'에 둔다면 3→1→2 실행용이성: 투자 용이성, 기술 용이성 2) 이행계획 수립 로드맵 수립: Stage 1: 데이터 분석체계 도입 Stage 2: 데이터 분석 유효성 검증 Stage 3: 데이터 분석 확산 및 고도화

728x90
반응형