ADP(데이터분석 전문가)/스터디노트 28

[3과목] 분석과제 발굴 방법론

1. 분석과제 발굴 방법론 개요 하향식 접근법과 상향식 접근법 상향식 (바텀-업) 접근법의 대표적인 방법론: 프로토타입 모델 하향식 (탑-다운) 접근법의 대표적인 방법론: 폭포수 모델 최적의 의사결정은 두 접근방식의 상호 보완 관계 → 디자인 씽킹 2. 하향식 접근법 1) 문제 탐색 ① 비즈니스 모델 기반 문제 탐색 비즈니스 모델 캔버스를 활용한 과제 발굴 방법 5가지 영역 ② 분석 기회 발굴의 범위 확장 분석 기회 발굴의 범위 확장의 4가지 관점 - 거시적 관점의 메가 트렌드: STEEP (social, technological, economic, enviromental, political) - 경쟁자 확대 관점: 대체재, 경쟁자, 신규 진입자 - 시장의 니즈 탐색 관점: 고객, 채널, 영향자 - 역량..

[3과목] 분석 방법론

1. KDD 분석 방법론 KDD(Knowledge Discovery in Databases)는 데이터 마이닝 프로세스 KDD 분석 절차 (5가지 프로스세스) 1) 데이터셋 선택 (Selection) 2) 데이터 전처리 (Preprocessing) 3) 데이터 변환 (Transformation) 4) 데이터 마이닝 (Data Mining) 5) 데이터 마이닝 결과 평가 (Interpretation/Evaluation) 2. CRISP-DM 분석 방법론 CRISP-DM(Cross Industry Standard Process for Data Mining)은 계층적 프로세스 모델로 4개의 레벨과 6단계의 프로세스로 구성 4레벨 구조 6단계의 프로세스 1) 업무이해 (Business Understanding) ..

[3과목] 데이터 분석 기획의 이해

1. 분석 대상과 방법 분석은 분석의 대상과 분석의 방법에 따라 4가지로 나뉨 2. 목표 시점 별 분석 기획 방안 당면한 과제를 빠르게 해결하는 "과제 중심적인 접근 방식"과 지속적인 분석 내재화를 위한 "장기적인 마스터 플랜 방식"으로 나뉨 3. 분석 기획시 고려사항 가용 데이터 (Available data) 적절한 활용 방안과 유즈케이스 (Proper business use case) 장애요소들에 대한 사전 계획 수립 (Low barrier of execution) 4. 분석 방법론 개요 분석방법론의 필수 내용: 절차(procedures), 방법(methods), 도구와 기법(tools&techniques), 템플릿과 산출물(templates&outputs) 5. 분석 방법론 생성과정 6. 방법론의 ..

[2과목] 클라우드 인프라 기술 - 2

1. 메모리 가상화: VMware 기법 VMware는 한대의 컴퓨터로 마치 여러 대의 컴퓨터를 사용하는 것 같은 가상의 공간을 만들어 주는 프로그램 VMware는 하이퍼바이저 내에 Shadow Page Table을 별도로 두어 VPN과 MPN의 중간 변환 과정을 가로챔 (매핑) 매핑 연산을 하드웨어적으로 도와주는 것을 TLB(Translation Lookaside Buffer) 하이퍼바이저의 핵심 모듈은 VMkernel VMkernel: 서비스 콘솔, 디바이스 드라이버들의 메모리 영역을 제외한 나머지 전체 메모리 영역을 모두 관리하면서 가상머신에 메모리를 할당 * 예시) 가상 머신 메모리 할당 - 예를 들어, 여러 개의 가상머신이 동시에 수행중인 경우라면 위의 그림과 같은 메모리 사용 상황이 발생할 수 ..

[2과목] 클라우드 인프라 기술 - 1

1. 클라우드 컴퓨팅 Infrastructure as a Service(IaaS, 아이아스, 이에스) IaaS는 컴퓨팅, 네트워킹, 스토리지 및 기타 인프라스트럭처를 사용하기 위한 서비스이며, 사용자는 필요할 때마다 서비스를 통해 리소스를 구입 Platform as a Service(PaaS, 파스) PaaS는 사용자 정의 응용 프로그램을 개발하고 사용할 수 있는 개발자를 위한 프레임워크를 제공 Software as a Service(SaaS, 사스) SaaS는 타사 공급 업체가 관리하는 사용자에게 응용 프로그램을 제공하기 위해 인터넷을 사용 서버 가상화: 물리적인 서버와 운영체제 사이에 적절한 계층을 추가해 서버를 사용하는 사용자에게 물리적인 자원은 숨기고 논리적인 자원만 보여주는 기술 서버 가상화의 ..

[2과목] 분산 컴퓨팅 기술

1. MapReduce 분산 병렬 컴퓨팅 Map Task 하나가 개의 블록(64MB) Map 함수는 어떤 key-value를 input으로 받아서 각 단어와 관련 발생 횟수를 출력 Reduce 함수는 특정 단어에 대해 생성된 모든 카운트를 합산 1) 구글 MapReduce - Map 함수: 다수의 새로운 key, value의 쌍으로 변환 (suffling과 group by 정렬) - Reduce 함수 2) 하둡 MapReduce ① 클라이언트에서 Job이라 불리는 하둡 작업을 실행 ② 프로그램 바이너리와 입출력 디렉터리와 같은 환경 정보들이 JobTracker에게 전송 ③ JobTracker는 다수의 Task로 쪼갠 후 큐에 저장 (Task는 맵퍼나 리듀서가 수행하는 단위 작업) MapReduce 단계 ..

[2과목] 분산데이터 저장 기술

분산 데이터 저장 기술은 ① 분산 파일 시스템, ② 데이터베이스 클러스터, ③ NoSQL로 구분됨 1. 분산 파일 시스템구글 파일 시스템(GFS, Google File System) - 마스터, 청크서버, 청크 - 청크(chunk): 64MB의 고정된 파일 단위 - 쓰기 연산은 순차적 - 높은 처리율에 중점 - 클라이언트는 파일에 접근하기 위해 마스터로부터 해당 파일의 chunk가 저장된 chunk서버의 위치와 핸들을 먼저 받아온 뒤, 직접 청크서버에게 파일 데이터를 요청함 하둡 분산 파일 시스템(HDFS, Hadoop Distrubited File System) - 네임노드 (=마스터), 데이터노드(=청크서버), 블록(=청크) - 순차적 스트리밍 방식, 배치작업 - 높은 데이터 처리량에 중점 - 보조 ..

[2과목] 대용량의 비정형 데이터 처리 방법

1. 대용량 로그 데이터 수집 가. 로그(log) 로그(log)는 기업에서 발생하는 대표적인 비정형 데이터로, 과거에는 문제 상황 보존을 위해 사용됐고, 최근에는 마케팅/영업 전략 수립을 위한 사용자의 형태 분석 등에 사용된다. 용량이 방대하기 때문에 이를 분석하기 위해서는 고성능과 확장성을 가진 시스템이 필요하다. 로그 데이터 수집 시스템의 예 : 아파치 Flume-NG, 페이스북 Scribe, 아파치 Chukwa 등 ​ 나. 대용량 비정형 데이터 수집 시스템의 특징 초고속 수집 성능과 확장성 데이터 전송 보장 메커니즘 다양한 수집과 저장 플러그인 인터페이스 상속을 통한 애플리케이션 기능 확장 2. 대규모 분산 병렬 처리 (하둡) 하둡(Hadoop)은 대규모 분삭 병렬 처리의 업계 표준인 맵리듀스(Ma..

[2과목] EAI(Enterprise Application Integration)

1. EAI의 개념 및 특징 EAI(Enterprise Application Integration)는 비즈니스 프로세스를 중심으로 기업 내 각종 어플리케이션간의 상호연동이 가능하도록 통합하는 솔루션 EAI를 통해 비즈니스 프로세스를 자동화하고 실시간으로 통합 연계 기존 방식은 복잡하여 비용이 증가 및 통합&표준화의 어려움 EAI 방식은 허브(브로커)를 두고 각 대상 노드(스포크)들은 중계하여 단순화 2. EAI 구성요소 어댑터(Adapter) : 각 정보 시스템과 EAI 허브(Engine)간의 연결성을 확보 버스(BUS) : 어댑터를 매개로 연결된 각 정보 시스템들 간의 데이터 연동 경로 브로커(Broker) : 데이터 연동 규칙을 통제 트랜스포머(Transformer) : 데이터 형식 변환을 담당 3...

[2과목] CDC(Change Data Capture)

1. CDC의 개념 및 특징 CDC(Change Data Capture): 데이터베이스 내 데이터에 대한 변경을 식별해 필요한 후속 처리(데이터 전송/공유 등)를 자동화 하는 기술 또는 설계 기법 데이터 베이스 A에서 B로 데이터를 옮길때는 ETL과정이 필요하나 여러가지 문제 (대용량으로 인한 속도, 기존 데이터 훼손 등)로 CDC작업을 수행 2. CDC 구현 기법 가. Time Stamp on Rows - 변경이 반드시 인지되어야 하는 테이블 내 마지막 변경 시점을 기록하는 타임스탬프 칼럼을 두고, 마지막 변경 타임스탬프 값보다 더 최근의 타임스탬프 값을 갖는 레코드를 변경된 것으로 식별하는 기법이다. ​ 나. Version Numbers on Rows - 변경이 반드시 인지되어야 하는 테이블 해당 레..

728x90
반응형