데이터분석 전문가 35

[2과목] 분산 컴퓨팅 기술

1. MapReduce 분산 병렬 컴퓨팅 Map Task 하나가 개의 블록(64MB) Map 함수는 어떤 key-value를 input으로 받아서 각 단어와 관련 발생 횟수를 출력 Reduce 함수는 특정 단어에 대해 생성된 모든 카운트를 합산 1) 구글 MapReduce - Map 함수: 다수의 새로운 key, value의 쌍으로 변환 (suffling과 group by 정렬) - Reduce 함수 2) 하둡 MapReduce ① 클라이언트에서 Job이라 불리는 하둡 작업을 실행 ② 프로그램 바이너리와 입출력 디렉터리와 같은 환경 정보들이 JobTracker에게 전송 ③ JobTracker는 다수의 Task로 쪼갠 후 큐에 저장 (Task는 맵퍼나 리듀서가 수행하는 단위 작업) MapReduce 단계 ..

[2과목] 분산데이터 저장 기술

분산 데이터 저장 기술은 ① 분산 파일 시스템, ② 데이터베이스 클러스터, ③ NoSQL로 구분됨 1. 분산 파일 시스템구글 파일 시스템(GFS, Google File System) - 마스터, 청크서버, 청크 - 청크(chunk): 64MB의 고정된 파일 단위 - 쓰기 연산은 순차적 - 높은 처리율에 중점 - 클라이언트는 파일에 접근하기 위해 마스터로부터 해당 파일의 chunk가 저장된 chunk서버의 위치와 핸들을 먼저 받아온 뒤, 직접 청크서버에게 파일 데이터를 요청함 하둡 분산 파일 시스템(HDFS, Hadoop Distrubited File System) - 네임노드 (=마스터), 데이터노드(=청크서버), 블록(=청크) - 순차적 스트리밍 방식, 배치작업 - 높은 데이터 처리량에 중점 - 보조 ..

[2과목] 대용량의 비정형 데이터 처리 방법

1. 대용량 로그 데이터 수집 가. 로그(log) 로그(log)는 기업에서 발생하는 대표적인 비정형 데이터로, 과거에는 문제 상황 보존을 위해 사용됐고, 최근에는 마케팅/영업 전략 수립을 위한 사용자의 형태 분석 등에 사용된다. 용량이 방대하기 때문에 이를 분석하기 위해서는 고성능과 확장성을 가진 시스템이 필요하다. 로그 데이터 수집 시스템의 예 : 아파치 Flume-NG, 페이스북 Scribe, 아파치 Chukwa 등 ​ 나. 대용량 비정형 데이터 수집 시스템의 특징 초고속 수집 성능과 확장성 데이터 전송 보장 메커니즘 다양한 수집과 저장 플러그인 인터페이스 상속을 통한 애플리케이션 기능 확장 2. 대규모 분산 병렬 처리 (하둡) 하둡(Hadoop)은 대규모 분삭 병렬 처리의 업계 표준인 맵리듀스(Ma..

[2과목] EAI(Enterprise Application Integration)

1. EAI의 개념 및 특징 EAI(Enterprise Application Integration)는 비즈니스 프로세스를 중심으로 기업 내 각종 어플리케이션간의 상호연동이 가능하도록 통합하는 솔루션 EAI를 통해 비즈니스 프로세스를 자동화하고 실시간으로 통합 연계 기존 방식은 복잡하여 비용이 증가 및 통합&표준화의 어려움 EAI 방식은 허브(브로커)를 두고 각 대상 노드(스포크)들은 중계하여 단순화 2. EAI 구성요소 어댑터(Adapter) : 각 정보 시스템과 EAI 허브(Engine)간의 연결성을 확보 버스(BUS) : 어댑터를 매개로 연결된 각 정보 시스템들 간의 데이터 연동 경로 브로커(Broker) : 데이터 연동 규칙을 통제 트랜스포머(Transformer) : 데이터 형식 변환을 담당 3...

[2과목] CDC(Change Data Capture)

1. CDC의 개념 및 특징 CDC(Change Data Capture): 데이터베이스 내 데이터에 대한 변경을 식별해 필요한 후속 처리(데이터 전송/공유 등)를 자동화 하는 기술 또는 설계 기법 데이터 베이스 A에서 B로 데이터를 옮길때는 ETL과정이 필요하나 여러가지 문제 (대용량으로 인한 속도, 기존 데이터 훼손 등)로 CDC작업을 수행 2. CDC 구현 기법 가. Time Stamp on Rows - 변경이 반드시 인지되어야 하는 테이블 내 마지막 변경 시점을 기록하는 타임스탬프 칼럼을 두고, 마지막 변경 타임스탬프 값보다 더 최근의 타임스탬프 값을 갖는 레코드를 변경된 것으로 식별하는 기법이다. ​ 나. Version Numbers on Rows - 변경이 반드시 인지되어야 하는 테이블 해당 레..

[2과목] 데이터 처리 프로세스

1. 데이터 웨어하우스 데이터 웨어하우스는 ODS를 통해 정제 및 통합된 데이터가 데이터 분석과 보고서 생성을 위해 적재되는 데이터 저장소 2. 데이터 웨어하우스의 테이블 모델링 기법 스타 스키마 (조인 스키마): Fact Table은 제 3정규형으로 모델링, Dimensional Table은 제 2정규형으로 모델링 - 장점: 스노우 플레이크 스키마에 비해 복잡도가 낮아서 이해하기 쉽고, 쿼리 작성이 용이하고 조인 테이블 개수가 적다. - 단점: 차원 테이블들의 비정규화에 따른 데이터 중복으로 인해 테이블로 데이터를 적재할 때 상대적으로 많은 시간이 소요된다. 스노우 플레이크 스키마: 차원 테이블을 제 3정규형으로 모델링 - 장점: 데이터의 중복이 제거돼 데이터 적재시 시간이 단축된다. - 단점: 스타 ..

[1과목] 빅데이터의 위기요인

빅데이터 시대의 위기 요인 1. 사생활 침해 내용: 개인정보가 포함된 데이터를 목적 외에 활용할 경우 사생활 침해를 넘어 사회&경제적 위협으로 변형될 수 있다. 예시: 여행 사실을 트위트 한 사람의 집을 강도가 노리는 고전적 사례 발생, 미국 NSA(National Security Agency)가 매일 17억개의 이메일, 전화통화, 기타 통신 내용 수집 및 저장함 해결: 익명화(**표시) 기술, 난수화(x,y표시) 기술 2. 책임 원칙 훼손 내용: 빅데이터 기본 분석과 예측 기술이 발전하면서 정확도가 증가한 만큼, 분석 대상이 되는 사람들은 예측 알고리즘의 희생양이 될 가능성도 증가한다. 민주주의 국가에서는 잠재적 위협이 아닌 명확한 결과에 대한 책임을 묻고 있어 이에 따른 원리를 훼손할 가능성이 있다...

[1과목] 개인정보 비식별 기술

비식별 기술이란 데이터 셋에서 개인을 식별할 수 있는 요소를 전부 또는 일부 삭제하거나 다른 값으로 대처하는 등의 방법으로 개인을 알아볼 수 없도록 하는 기술 1. 데이터 마스킹 데이터의 길이, 유형, 형식과 같은 속성을 유지한 채, 새롭고 읽기 쉬운 데이터를 익명으로 생성하는 기술 예: 홍길동, 20세, 궁미도 거주, 율도대 -> 홍 * * , 20세, 궁미도 거주, * * 대 2. 가명처리 개인 식별에 중요한 데이터를 식별할 수 있는 다른 값으로 변경하는 기술 다른 값으로 대체 시 일정한 규칙이 노출되지 않도록 주의해야 함 → 난수화[Random number] : 규칙적이지 않게 나열되어 예측이 불가능한 숫자 에: 홍길동, 20세, 궁미도 거주, 율도대 재학 -> 홍길동, 20세, 궁미도 거주, 국내..

[용어] 매쉬업 (mash up)

데이터 매쉬업(mash up)에서 매쉬업은 무슨뜻일까? 여러 컨텐츠를 복합하다. 라는 뜻입니다. 영어 사전에서는 mash up ① 충분히 으깨다. ②엉망진창으로부수뜨리다. 이런 뜻인데, mashup (붙여쓰기)로 고유명사화 되어 원래 서로 다른 곡을 조합하여 새로운 노래를 만들어 낸다 는 음악용어지만, IT분야에서는 웹상에서 웹 서비스 업체들이 제공하는 다양한 정보와 서비스를 혼합하여 새로운 서비스를 개발하는 것 을 의미한다.

728x90
반응형