전체 글 119

[4과목] 의사결정나무

분류함수를 의사결정 규칙으로 이뤄진 나무 모양으로 그리는 방법 1. 장점과 단점 누구에게나 설명하기 용이하다, 계산이 복잡하지 않다. 대용량 데이터에서도 빠르게 만들수 있다. 비정상 잡음 데이터에 대해서도 민감함이 없이 분류할 수 있다. 분류의 정확도가 높다 과대적합이 발생할 가능성이 높다. 분류 경계선 부근의 자료값에 대해서 오차가 크다. 설명변수 간의 중요도를 판단하기 쉽지 않다. 2. 분석과정 성장단계: 최적의 분리규칙(splitting rule)을 찾아서 나무를 성장시키는 과정으로 적절한 정지규칙을 만족하면 중단 가지치기 단계: 불필요한 가지를 제거 타당성 평가 단계: 이익도표나 위험도표를 통해 의사결정나무를 평가 해석 및 예측 단계 3. 분리기준 카이제곱 통계량 p값이 작아지는 방향으로 자식 마..

[4과목] 성과분석

오분류에 대한 추정치 1) 정분류율(Accuracy) = (TN+TP) / (TN + TP + FN + FP) 2) 오분류율(Error rate) = (FN + FP) / (TN + TP + FN + FP) 3) 특이도(Specificity) = TN / (TN + FP) → 실제 Negative 중 정상 분류 4) 민감도(Sensitivity) = TP / (TP + FN) → 실제 Positive 중 정상 분류 5) 정확도(Precision) = TP / (TP + FN) → 예측 Positive 중 정상 분류 6) 재현율(Recall) = TP / (TP + FN) → 민감도와 같음 7) F1 Score = 2 * (Precision * Recall) / (Precision + Recall)

[후기] 데이터분석 전문가 ADP 필기 시험 후기

어제, ADP 필기 시험을 보았다. 일시: 2월 13일 토요일 10:00~13:00 장소: 서울 성동공고 1. 시험 시간 - 시험시간은 13:00까지 이나 10:30분부터 조기퇴장이 가능함 - 9:40분까지 입실해야하고, 그때부터 모든 자료는 넣어야 됨 - 컴퓨터용사인펜, 볼펜 필수 지참 2. 시험 분위기 - 성동공고는 서울/경기에 유일한 시험장임 - 약 한 200~300명정도 시험본듯 함 (생각보다 연세드신분도 많아서 신기...) 3. 시험 유형 - 객관식은 가끔 함정문제가 나와서 찍게 만듬 ex.) 비모수 검정 방법론 선택: 윌콕슨의 순위합검정, 만-위트니의 U검정 등 - 전반적인 난이도는 문제집 수준이고, 문제집에서 비슷하게 나온 문제가 많았음 (데이터 에듀 교재 꼭 풀어볼것!!) - 주관식 시험문..

[미국] 미국주식 매매일지 (3/9)

미국주식 수상치 않다. 지난주부터의 미국장 폭락을 보고 눈물을 집어삼켰다. 너무 슬프다. 특히 기술주 중심의 폭락은 너무 뼈가 아프다. 전체적인 방향은 정했다. 나스닥위주의 기술주가 아닌 그동안 못오른, 특히 경기 민감주를 주목하였다. 1. 매수 보잉: 224.04 (5주) 월트디즈니: 193.90 (7주) 화이자: 34.35 (15주) 2. 매도 해당없음 3. 계좌현황 키움 ARKF (ARK Fintech Innovation ETF): 56.8500 (5주) ARKK (ARK Innovation ETF): 136.1175 (4주) ARKG (ARK Genomic Revolution ETF): 103.6550(2주) 한국투자 보잉: 224.04 (5주) 월트디즈니: 193.90 (7주) 화이자: 34.3..

[4과목] 회귀분석

1. 회귀분석 - 변수와 변수 사이의 관계를 알아보기 위한 통계적 방법 - 독립변수의 값에 의하여 종속변수의 값을 예측하기 위함 독립변수(independent variable) : 종속변수에 영향을 미치는 변수 (=설명변수, 예측변수) 종속변수(dependent variable) : 분석의 대상이 되는 변수 (=반응변수, 결과변수) 2. 회귀모형에 대한 가정 선형성 : 독립변수의 변화에 따라 종속변수도 변화하는 선형인 모형 독립성 : 잔차와 독립변수의 값이 관련되어 있지 않음 등분산성 : 오차항들의 분포는 동일한 분산을 가짐 비상관성 : 잔차들끼리 상관이 없어야 함 정상성 : 잔차항이 정규분포를 이뤄야 함 3. 회귀분석 모형에서 확인할 사항 모형이 통계적으로 유의미한가? F분포값과 유의확률(p-value..

[공지] 데이터 자격검정 재검토 제도 (기존 이의제기)

데이터 자격검정(빅데이터분석기사, 데이터아키텍처, SQL, 데이터분석)에 대한 이의신청 제도가 향후 아래와 같이 재검토 제도로 변경됩니다. https://www.dataq.or.kr/www/board/view.do?bbsKey=eyJiYnNhdHRyU2VxIjoxLCJiYnNTZXEiOjUwNzk0OX0=&boardKind=notice 데이터자격시험 www.dataq.or.kr 큰 특이사항은 우선 서술형/실기시험 외 모든 문항에 대해 재검토를 받고, 온라인으로만 손쉽게 신청이 가능하다!!

[4과목] 통계분석 방법론

1. t 검정 두 집단의 평균을 비교하기 위한 검정 (집단의 평균키 = 120 ?) H0: μ = μ0 일표본 t검정: 단일 모집단 대응표본 t검정: 단일 모집단 두번 처리 독립표본 t검정: 두개의 독립된 모집단의 평균 비교 2. ANOVA(분산분석) 그룹 평균 간 차이를 그룹 내 변동에 비교 (A고 1학년의 평균키 = B고 1학년의 평균키 = C고 1학년의 평균 키 ?) 범주형 그룹변수 H0: μ0 = μ1 = μ2 ... F통계량 이용 일원배치 분산분석 (One way): 독립 변수의 개수가 1개 검증: A고 1학년의 평균키 = B고 1학년의 평균키 = C고 1학년의 평균 키 ? 이원배치 분산분석 (Two way): 독립 변수의 개수가 2개 검증1: A고 1학년의 평균키 = B고 1학년의 평균키 = ..

[미국] 미국주식 ETF 매매일지 (2/26)

한달에 한번 적립식으로 넣고 있다. 진짜 미국 증시 난리다.. 특히 나스닥에 기술주들 중심으로 피를 보고 있다 ㅠㅠ 특히 바오기 가반의 ARKG쪽은 폭락이다 ㅠㅠ 난 어차피 적립식이다 계속 몰아서 사면된다!! 가즈아!! 1. 매수 ARKK (ARK Innovation ETF): 130.7600 (1주) ARKF (ARK Fintech Innovation ETF): 54.9750 (2주) 2. 매도 해당없음 3. 계좌현황 ARKF (ARK Fintech Innovation ETF): 56.8500 (5주) ARKK (ARK Innovation ETF): 133.4800 (3주) ARKG (Genomic Revolution ETF): 109.5300(1주)

[4과목] 통계분석의 이해

1. 표본 추출 방법 단순랜덤 추출법(simple random sampling) 계통추출법(systematic sampling) 집락추출법(cluster random sampling) 층화추출법(stratified random sampling) 2. 측정 질적척도(범주형자료, 숫자들의 크기 차이가 계산되지 않는 척도) 명목척도: 어느 집단에 속하는지 분류할 때 (성별, 출생지 등) 순서척도: 서열관계를 측정할 때 (만족도, 학년, 신용등급 등) → 1등이 3등보다 높다는 것은 알지만, 얼마나 높은지는 알수 없음 (사칙연산이 불가능) 양적척도(수치형자료, 숫자들의 크기 차이를 계산할 수 있는 척도) 구간척도: 속성의 양을 측정하는 것으로 구간이나 구간사이의 간격이 의미가 있음 (온도, 지수) → "20도가..

728x90
반응형