데이터분석 54

[2과목] 분산데이터 저장 기술

분산 데이터 저장 기술은 ① 분산 파일 시스템, ② 데이터베이스 클러스터, ③ NoSQL로 구분됨 1. 분산 파일 시스템구글 파일 시스템(GFS, Google File System) - 마스터, 청크서버, 청크 - 청크(chunk): 64MB의 고정된 파일 단위 - 쓰기 연산은 순차적 - 높은 처리율에 중점 - 클라이언트는 파일에 접근하기 위해 마스터로부터 해당 파일의 chunk가 저장된 chunk서버의 위치와 핸들을 먼저 받아온 뒤, 직접 청크서버에게 파일 데이터를 요청함 하둡 분산 파일 시스템(HDFS, Hadoop Distrubited File System) - 네임노드 (=마스터), 데이터노드(=청크서버), 블록(=청크) - 순차적 스트리밍 방식, 배치작업 - 높은 데이터 처리량에 중점 - 보조 ..

[2과목] EAI(Enterprise Application Integration)

1. EAI의 개념 및 특징 EAI(Enterprise Application Integration)는 비즈니스 프로세스를 중심으로 기업 내 각종 어플리케이션간의 상호연동이 가능하도록 통합하는 솔루션 EAI를 통해 비즈니스 프로세스를 자동화하고 실시간으로 통합 연계 기존 방식은 복잡하여 비용이 증가 및 통합&표준화의 어려움 EAI 방식은 허브(브로커)를 두고 각 대상 노드(스포크)들은 중계하여 단순화 2. EAI 구성요소 어댑터(Adapter) : 각 정보 시스템과 EAI 허브(Engine)간의 연결성을 확보 버스(BUS) : 어댑터를 매개로 연결된 각 정보 시스템들 간의 데이터 연동 경로 브로커(Broker) : 데이터 연동 규칙을 통제 트랜스포머(Transformer) : 데이터 형식 변환을 담당 3...

[2과목] CDC(Change Data Capture)

1. CDC의 개념 및 특징 CDC(Change Data Capture): 데이터베이스 내 데이터에 대한 변경을 식별해 필요한 후속 처리(데이터 전송/공유 등)를 자동화 하는 기술 또는 설계 기법 데이터 베이스 A에서 B로 데이터를 옮길때는 ETL과정이 필요하나 여러가지 문제 (대용량으로 인한 속도, 기존 데이터 훼손 등)로 CDC작업을 수행 2. CDC 구현 기법 가. Time Stamp on Rows - 변경이 반드시 인지되어야 하는 테이블 내 마지막 변경 시점을 기록하는 타임스탬프 칼럼을 두고, 마지막 변경 타임스탬프 값보다 더 최근의 타임스탬프 값을 갖는 레코드를 변경된 것으로 식별하는 기법이다. ​ 나. Version Numbers on Rows - 변경이 반드시 인지되어야 하는 테이블 해당 레..

[1과목] 빅데이터의 위기요인

빅데이터 시대의 위기 요인 1. 사생활 침해 내용: 개인정보가 포함된 데이터를 목적 외에 활용할 경우 사생활 침해를 넘어 사회&경제적 위협으로 변형될 수 있다. 예시: 여행 사실을 트위트 한 사람의 집을 강도가 노리는 고전적 사례 발생, 미국 NSA(National Security Agency)가 매일 17억개의 이메일, 전화통화, 기타 통신 내용 수집 및 저장함 해결: 익명화(**표시) 기술, 난수화(x,y표시) 기술 2. 책임 원칙 훼손 내용: 빅데이터 기본 분석과 예측 기술이 발전하면서 정확도가 증가한 만큼, 분석 대상이 되는 사람들은 예측 알고리즘의 희생양이 될 가능성도 증가한다. 민주주의 국가에서는 잠재적 위협이 아닌 명확한 결과에 대한 책임을 묻고 있어 이에 따른 원리를 훼손할 가능성이 있다...

[용어] 매쉬업 (mash up)

데이터 매쉬업(mash up)에서 매쉬업은 무슨뜻일까? 여러 컨텐츠를 복합하다. 라는 뜻입니다. 영어 사전에서는 mash up ① 충분히 으깨다. ②엉망진창으로부수뜨리다. 이런 뜻인데, mashup (붙여쓰기)로 고유명사화 되어 원래 서로 다른 곡을 조합하여 새로운 노래를 만들어 낸다 는 음악용어지만, IT분야에서는 웹상에서 웹 서비스 업체들이 제공하는 다양한 정보와 서비스를 혼합하여 새로운 서비스를 개발하는 것 을 의미한다.

[1과목] 빅데이터의 이해

1. 빅데이터의 정의 좁은 의미의 정의 - 가트너 그룹의 3V: Volume + Variety + Velocity (+value까지 4V) 중간 범위의 정의 - 데이터 자체뿐 아니라, 처리, 분석 기술적 변화까지 포함 - 데이터 처리, 저장, 분석 기술 및 아키텍쳐 - 클라우드 컴퓨팅 활용 넓은 범위의 정의 - 인재, 조직 변화까지 포함 - Data Scientist 같은 새로운 인재 필요 - 데이터 중심 조직 2. 빅데이터 활용의 3요소 데이터: 모든 것의 데이터화 기술: 진화하는 알고리즘, 인공지능 인력: 데이터사이언티스트, 알고리즈미스트 3. 빅데이터가 만들어 내는 본질적인 변화 사전처리 -> 사후처리 표본조사 -> 전수조사 질 -> 양 인과관계 -> 상관관계

[북러닝] 데이터과학 무엇을 하는가?

예전에도 봣던 책인데, 우연히 북러닝 코스에도 있어 또 한번 읽어보았다. 김옥기 저자님에 대해서는 데이터분석을 종사하면서 종종 들어보았다. (외부강연 등도 많이 하신것으로 알고 있다) 책을 읽으면서 느낀점은 이분은 현업 적용 업무를 많이 하셨구나.. 느꼈다. (내공이 다르달까...?) (데이터 분석 업무를 하다보면 진정한 고수와 허수를 구분할 능력이 늘어가는것 같다..) 데이터 과학 무엇을 하는가? 현직 데이터 과학자가 알려주는 실무 적용 방법! 김옥기 지음 | 이지스퍼블리싱 | 2018년 05월 25일 출간 www.kyobobook.co.kr/product/detailViewKor.laf?ejkGb=KOR&mallGb=KOR&barcode=9791163030096&orderClick=LEa&Kc= 데이..

학습/Book 2021.01.31

[북러닝] 처음 배우는 데이터 과학

북러닝 교재는 처음 배우는 데이터 과학 통계, 수학, 머신러닝, 프로그래밍까지 | 데이터 과학자를 꿈꾸는 히치하이커를 위한 최고의 안내서 필드 케이디 지음 | 최근우 옮김 | 한빛미디어 | 2018년 02월 20일 출간 www.kyobobook.co.kr/product/detailViewKor.laf?ejkGb=KOR&mallGb=KOR&barcode=9791162240472&orderClick=LAG&Kc= 처음 배우는 데이터 과학 - 교보문고 프로그래밍 경험은 많지만 통계나 데이터 분석을 잘 모르거나, 반대로 이론은 잘 알지만 실제로 데이터를 다루는 프로그래밍 경험이 없다면 데이터 과학을 어떻게 공부해야 할지 막막하기 마련 www.kyobobook.co.kr 1. 머신러닝은 초창기 인공지능 연구와 맥..

학습/Book 2021.01.31

[1과목] 데이터베이스(database)

1. 데이터베이스의 정의 데이터 베이스(database)라는 용어가 처음 등장한 것은 1950년대에 미국 정부가 전 세계에 산재한 자국 군대의 군비 상황을 집중 관리하기 위하여 컴퓨터 기술로 구현한 도서관을 설립하면서 비롯되었다. 데이터베이스의 1차개념은 정형 데이터만을 관리하였으나, 빅데이터의 출현으로 비정형 데이터를 포함한 2차 개념으로 발전하였다. 데이터베이스를 "문자, 기호, 음성, 화상, 영상 등 상호 관련된다수의 콘텐츠를 정보처리 및 정보통신 기기에 의하여 체계적으로 수집 및 축적하여 다양한 용도와 방법으로 이용할 수 있도록 정리한 정보의 집합체"로 정의한다. - 과학기술 발달의 대부분은 국방과 맞물려있다. 데이터베이스의 출현도 마찬가지인 것 같다. 2. 데이터베이스의 특징 3. DBMS 데이..

728x90
반응형