학습/Book

[북러닝] 데이터과학 무엇을 하는가?

bonanza 2021. 1. 31. 12:35

예전에도 봣던 책인데, 우연히 북러닝 코스에도 있어 또 한번 읽어보았다.

김옥기 저자님에 대해서는 데이터분석을 종사하면서 종종 들어보았다. (외부강연 등도 많이 하신것으로 알고 있다)

책을 읽으면서 느낀점은 이분은 현업 적용 업무를 많이 하셨구나.. 느꼈다.

(내공이 다르달까...?)

(데이터 분석 업무를 하다보면 진정한 고수와 허수를 구분할 능력이 늘어가는것 같다..)

 

데이터 과학 무엇을 하는가? 현직 데이터 과학자가 알려주는 실무 적용 방법!

김옥기 지음 | 이지스퍼블리싱 | 2018년 05월 25일 출간

 

www.kyobobook.co.kr/product/detailViewKor.laf?ejkGb=KOR&mallGb=KOR&barcode=9791163030096&orderClick=LEa&Kc=

 

데이터 과학 무엇을 하는가? - 교보문고

직접 겪어보지 않으면 모른다. 데이터 과학이란 무엇이며 데이터 과학자가 무슨 일을 하는지. 미국 최대 데이터 회사를 거쳐, 국내 최대 데이터 회사의 센터장을 맡고 있는 저자는 미국 기업과

www.kyobobook.co.kr


 

1. '더 월' 프로젝트를 진두진휘한 사람은 메트라이프의 부사장이자, 애플리케이션 개발 담당 CIO인 호버맨(Hoberman)입니다. 그는 시티은행에서 16년간 근무하다 2012년 메트라이프로 옮겨 왔는데, 입사 후 2개의 프로젝트를 시작했습니다. '시냅스'프로젝트와 'S.W.A.T' 프로젝트의 개념에 대하여 작성하시기 바랍니다.

시냅스 프로젝트는 일종의 사내 인력 풀 구축 프로젝트로 사내 개발자들의 이력서나 링크드인(Linkedin) 프로파일을 JSON에 올려 오픈 포지션이 생성되게 해놓고 데이터베이스에서 적당한 인재를 찾아내는 시스템이다.
S.W.A.T 프로젝트는 내부 직원들의 문제 해결을 돕는 개발 특공대를 구성하는 프로젝트였다. 호버맨은 개발자, 데이터 과학자, 인프라 엔지니어, 아키텍처 그리고 프로그램 매니저 등 최고의 전문가들로 특공대 팀을 조직하였다. 웹 개발에서 부터 자바, 고객 관리 앱 데이터 베이스 그리고 메인 프레임 기술에 이르기까지 최고의 기술을 자랑하는 전문가들로 팀구성을 완료한 것이다.

 

2. 매출 추정에 필요한 변수들이 수집되었으면 본격적인 매출 추정에 들어갑니다. 먼저 데이터 전처리를 하고 전통적인 방법이나 지리 정보를 활용한 중력 모형, 통계 방법의 회귀 모형을 활용하여 매출 추정을 할 수 있습니다. 전통적 매출 추정 방법에서 시장 점유율을 파악하는 방식 4가지에 대하여 작성하시기 바랍니다.

 

1) 총 시장 규모를 직접/간접 경쟁점의 수를 기준으로 배분하는 방식
2) 소매의 경우 경쟁점과 분석 대상 매장의 매장 면적 비율을 비교하는 방식
3) 요식업/서비스업의 경우 경쟁점과 분석 대상 매장의 테이블 좌석수를 기준으로 배분하는 방식
4) 직접/간접 경쟁점의 종업원 수를 기준으로 배분하는 방식 등

 

3. 남의 눈에 띄지 않기 위해서 온갖 노력을 다하는 부정 불법 관련 데이터의 특성상 부정 불법과 정상을 구분하기가 쉽지 않은 경우가 많습니다. 또한 데이터 구조가 비선형에 오염되어 있는 경우가 많고 제대로 관리되지 않은 데이터가 많아 난이도 높은 기술과 지식이 요구됩니다. 부정 불법 감지를 위한 데이터 분석 방법론은 규칙 기준 감지 방법, 분석 모델 활용 방법, 이상치 감지 방법, 소셜 네트워크 분석 방법입니다.

[1] (
서술) 교재의 내용을 참고하여 이상치 감지 방법과 소셜 네트워크 분석 방법의 개념에 대해 구체적으로 작성하시기 바랍니다.

이상치 감지 방법은 과거 사례가 알려져 있지 않은 데이터(unsupervised)에 주로 사용하는데, 새로운 기법의 부정 불법 사건을 감지하는 데는 효과가 있으나, 기존 기법을 감지하는 데는 비효율적이다. 그리고 과거 부정 이력 데이터에 대한 지식을 요구하지 않아서 기존의 정상적인 행동을 우선적으로 걸러내는 작업에 주로 사용된다.
소셜 네트워크 분석 방법은 이상치 감지 방법 중의 하나로 데이터 상호간의 연결관계 패턴을 시각화하여 부정 불법을 찾아내는 기법이다. 사건이나 사람의 연결관계에 존재하는 특이한 패턴을 찾아내는 것이 장점이며, 최근에는 보험 사기나 테러리스트 적발, 가짜 석율 판매 적발에 활용하기도 한다.

 


[2] (
논술) 1번 문항의 답안으로 작성한 이상치 감지 방법과 소셜 네트워크 분석 방법의 개념을 기반으로, 귀하가 데이터의 부정 또는 불법 사용을 감지한다고 가정할 때 부정 불법 감지를 위한 데이터 분석 방안을 구체적으로 작성하시기 바랍니다.

 

무정 불법 감지를 위한 데이터 분석을 한다면, 우선 이상치 감지 방법으로 기초 통계, 군집 분석, 주성분 분석등을 수행한다. 이를 바탕으로 소셜 네트워크 분석 방법으로 데이터 상호 간의 연결관계의 패턴을 시각화하여 임계치(threshold)를 정하고 이 임계치를 벗어나는 것을 부정 불법으로 의심하는 것이다. 예를 들어, 어떤 보험 회사의 전체 고객의 수령하는 평균 보상 액수나 빈도보다 훨씬 높은 빈도와 액수로 보험금을 수령하는 계약자가 있다면, 이를 둘러싼 사용자들의 관계를 시각화하여 보험 사기 여부를 조사할 수 있다.

 

반응형