ADP(데이터분석 전문가)/스터디노트 28

[2과목] 데이터 처리 프로세스

1. 데이터 웨어하우스 데이터 웨어하우스는 ODS를 통해 정제 및 통합된 데이터가 데이터 분석과 보고서 생성을 위해 적재되는 데이터 저장소 2. 데이터 웨어하우스의 테이블 모델링 기법 스타 스키마 (조인 스키마): Fact Table은 제 3정규형으로 모델링, Dimensional Table은 제 2정규형으로 모델링 - 장점: 스노우 플레이크 스키마에 비해 복잡도가 낮아서 이해하기 쉽고, 쿼리 작성이 용이하고 조인 테이블 개수가 적다. - 단점: 차원 테이블들의 비정규화에 따른 데이터 중복으로 인해 테이블로 데이터를 적재할 때 상대적으로 많은 시간이 소요된다. 스노우 플레이크 스키마: 차원 테이블을 제 3정규형으로 모델링 - 장점: 데이터의 중복이 제거돼 데이터 적재시 시간이 단축된다. - 단점: 스타 ..

[2과목] ETL 개요

1. ETL의 개념 및 특징 ETL(Extraciton, Transformation and Load)은 데이터의 이동 및 변환 절차와 관련된 업계 표준 용어이다. 다양한 데이터 원천으로부터 데이터를 추출 및 변환하여 운영 데이터 스토어(ODS, Operation Data Store), 데이터 웨어하우스(DW, Data Warehouse), 데이터 마트(DM, Data Mart)등에 데이터를 적재하는 작업의 핵심 구성요소이다. MPP(Massive Parallel Processing)을 지원 2. ETL의 작업 단계 3. ODS 구성단계 인터페이스 단계: 다양한 데이터 원천(Source)으로 부터 데이터를 획득하는 단계 스테이징 단계: 데이터 원천들로부터 트랜잭션 데이터들이 추출되어 하나 또는 그 이상의 ..

[1과목] 빅데이터의 위기요인

빅데이터 시대의 위기 요인 1. 사생활 침해 내용: 개인정보가 포함된 데이터를 목적 외에 활용할 경우 사생활 침해를 넘어 사회&경제적 위협으로 변형될 수 있다. 예시: 여행 사실을 트위트 한 사람의 집을 강도가 노리는 고전적 사례 발생, 미국 NSA(National Security Agency)가 매일 17억개의 이메일, 전화통화, 기타 통신 내용 수집 및 저장함 해결: 익명화(**표시) 기술, 난수화(x,y표시) 기술 2. 책임 원칙 훼손 내용: 빅데이터 기본 분석과 예측 기술이 발전하면서 정확도가 증가한 만큼, 분석 대상이 되는 사람들은 예측 알고리즘의 희생양이 될 가능성도 증가한다. 민주주의 국가에서는 잠재적 위협이 아닌 명확한 결과에 대한 책임을 묻고 있어 이에 따른 원리를 훼손할 가능성이 있다...

[1과목] 개인정보 비식별 기술

비식별 기술이란 데이터 셋에서 개인을 식별할 수 있는 요소를 전부 또는 일부 삭제하거나 다른 값으로 대처하는 등의 방법으로 개인을 알아볼 수 없도록 하는 기술 1. 데이터 마스킹 데이터의 길이, 유형, 형식과 같은 속성을 유지한 채, 새롭고 읽기 쉬운 데이터를 익명으로 생성하는 기술 예: 홍길동, 20세, 궁미도 거주, 율도대 -> 홍 * * , 20세, 궁미도 거주, * * 대 2. 가명처리 개인 식별에 중요한 데이터를 식별할 수 있는 다른 값으로 변경하는 기술 다른 값으로 대체 시 일정한 규칙이 노출되지 않도록 주의해야 함 → 난수화[Random number] : 규칙적이지 않게 나열되어 예측이 불가능한 숫자 에: 홍길동, 20세, 궁미도 거주, 율도대 재학 -> 홍길동, 20세, 궁미도 거주, 국내..

[1과목] 데이터의 이해 - 용어 정리

- 메타데이터: 데이터에 관한 구조화된 데이터로 다른 데이터를 설명해주는 데이터 - OLAP(On-line Analytical Processing): 다양한 비즈니스 관점에서 쉽고 빠르게 다차원적인 데이터에 접근하여 의사결정에 활용할 수 있는 정보를 얻을 수 잇는 기술 (데이터 조회 위주 - 단순) - OLTP(On-line Transaction Processing): 호스트 컴퓨터가 데이터베이스를 액세스하고, 바로 처리 결과를 돌려보내는 형태 (데이터 갱신 위주 - 복잡) => OLTP에서 처리된 트랜잭션 데이터를 분석해 제품의 판매 추이, 구매 성향 파악, 재무 회계 분석 등을 프로세싱

[1과목] 빅데이터의 이해

1. 빅데이터의 정의 좁은 의미의 정의 - 가트너 그룹의 3V: Volume + Variety + Velocity (+value까지 4V) 중간 범위의 정의 - 데이터 자체뿐 아니라, 처리, 분석 기술적 변화까지 포함 - 데이터 처리, 저장, 분석 기술 및 아키텍쳐 - 클라우드 컴퓨팅 활용 넓은 범위의 정의 - 인재, 조직 변화까지 포함 - Data Scientist 같은 새로운 인재 필요 - 데이터 중심 조직 2. 빅데이터 활용의 3요소 데이터: 모든 것의 데이터화 기술: 진화하는 알고리즘, 인공지능 인력: 데이터사이언티스트, 알고리즈미스트 3. 빅데이터가 만들어 내는 본질적인 변화 사전처리 -> 사후처리 표본조사 -> 전수조사 질 -> 양 인과관계 -> 상관관계

[1과목] 데이터베이스(database)

1. 데이터베이스의 정의 데이터 베이스(database)라는 용어가 처음 등장한 것은 1950년대에 미국 정부가 전 세계에 산재한 자국 군대의 군비 상황을 집중 관리하기 위하여 컴퓨터 기술로 구현한 도서관을 설립하면서 비롯되었다. 데이터베이스의 1차개념은 정형 데이터만을 관리하였으나, 빅데이터의 출현으로 비정형 데이터를 포함한 2차 개념으로 발전하였다. 데이터베이스를 "문자, 기호, 음성, 화상, 영상 등 상호 관련된다수의 콘텐츠를 정보처리 및 정보통신 기기에 의하여 체계적으로 수집 및 축적하여 다양한 용도와 방법으로 이용할 수 있도록 정리한 정보의 집합체"로 정의한다. - 과학기술 발달의 대부분은 국방과 맞물려있다. 데이터베이스의 출현도 마찬가지인 것 같다. 2. 데이터베이스의 특징 3. DBMS 데이..

[1과목] DIKW 피라미드

DIKW (Data, Information, Knowledge, Wisdom) 피라미트에서는 데이터, 정보, 지식을 통해 최종적으로 지혜를 얻어내는 과정을 계층구조로 설명하고 있다. 1. DIKW의 정의 2. DIKW 피라미드 * 포인트: 정보는 사실이고, 지식은 사실 + 의지 개념, 지혜는 의지 + 판단 3. Insight와 가치 창출 과정 내가 정의하기로는 데이터 사이언티스트는 데이터로부터 Insight를 찾아 Value를 창출하는 일을 하는 사람이라고 생각했다. 그럼 DIKW와 결합해보자. 이런 모양새가 아닐까 생각된다.

728x90
반응형