하둡 2

[2과목] 분산데이터 저장 기술

분산 데이터 저장 기술은 ① 분산 파일 시스템, ② 데이터베이스 클러스터, ③ NoSQL로 구분됨 1. 분산 파일 시스템구글 파일 시스템(GFS, Google File System) - 마스터, 청크서버, 청크 - 청크(chunk): 64MB의 고정된 파일 단위 - 쓰기 연산은 순차적 - 높은 처리율에 중점 - 클라이언트는 파일에 접근하기 위해 마스터로부터 해당 파일의 chunk가 저장된 chunk서버의 위치와 핸들을 먼저 받아온 뒤, 직접 청크서버에게 파일 데이터를 요청함 하둡 분산 파일 시스템(HDFS, Hadoop Distrubited File System) - 네임노드 (=마스터), 데이터노드(=청크서버), 블록(=청크) - 순차적 스트리밍 방식, 배치작업 - 높은 데이터 처리량에 중점 - 보조 ..

[2과목] 대용량의 비정형 데이터 처리 방법

1. 대용량 로그 데이터 수집 가. 로그(log) 로그(log)는 기업에서 발생하는 대표적인 비정형 데이터로, 과거에는 문제 상황 보존을 위해 사용됐고, 최근에는 마케팅/영업 전략 수립을 위한 사용자의 형태 분석 등에 사용된다. 용량이 방대하기 때문에 이를 분석하기 위해서는 고성능과 확장성을 가진 시스템이 필요하다. 로그 데이터 수집 시스템의 예 : 아파치 Flume-NG, 페이스북 Scribe, 아파치 Chukwa 등 ​ 나. 대용량 비정형 데이터 수집 시스템의 특징 초고속 수집 성능과 확장성 데이터 전송 보장 메커니즘 다양한 수집과 저장 플러그인 인터페이스 상속을 통한 애플리케이션 기능 확장 2. 대규모 분산 병렬 처리 (하둡) 하둡(Hadoop)은 대규모 분삭 병렬 처리의 업계 표준인 맵리듀스(Ma..

728x90
반응형