학습/Book

[북러닝] 처음 배우는 데이터 과학

bonanza 2021. 1. 31. 11:57

북러닝 교재는

 

처음 배우는 데이터 과학 통계, 수학, 머신러닝, 프로그래밍까지 | 데이터 과학자를 꿈꾸는 히치하이커를 위한 최고의 안내서

필드 케이디 지음 | 최근우 옮김 | 한빛미디어 | 2018년 02월 20일 출간

www.kyobobook.co.kr/product/detailViewKor.laf?ejkGb=KOR&mallGb=KOR&barcode=9791162240472&orderClick=LAG&Kc=

 

처음 배우는 데이터 과학 - 교보문고

프로그래밍 경험은 많지만 통계나 데이터 분석을 잘 모르거나, 반대로 이론은 잘 알지만 실제로 데이터를 다루는 프로그래밍 경험이 없다면 데이터 과학을 어떻게 공부해야 할지 막막하기 마련

www.kyobobook.co.kr

 


1. 머신러닝은 초창기 인공지능 연구와 맥락을 같이 합니다. 머신러닝은 표 데이터에 사용 가능한 여러 기법을 통틀어 부르는 말입니다. 지도학습, 비지도학습, 과적합의 개념에 대하여 작성하시기 바랍니다.

지도학습: 입력에 맞는 출력값을 이용해 학습하는것

비지도학습: 출력 데이터 없이 입력 변수만 가지고 있는 머신러닝

과적합: 학습 데이터에서는 완벽하게 작동하는 것 같지만 학습에 사용하지 않은 데이터를 사용하면 잘 작동하지 않는, 즉 일반화를 못하는 것을 의미

 

2. 확률은 우리가 관찰한 데이터를 설명하는 방법론입니다. 반면 통계는 데이터를 이용해 기저 현상을 추측합니다. 베르누이 확률변수, 이항확률변수, 연속확률변수, 이산확률변수의 개념에 대하여 작성하시기 발바니다.

베르누이 확률변수: 동전을 던졌을 때 나오는 결과를 나타내는 확률변수

이항확률변수: 앞면이 나올 확률이 p인 동전을 n번 던졌을 때 왁면의 개수를 나타내는 확률변수

연속확률변수: 실수처럼 연속하는 구간을 값의 범위로 갖는 확률변수 

이산확률변수: 불연속한 값을 범위로 갖는 확률변수

 

3. 코드를 배포할 때는 데이터 과학자가 소프트웨어 개발자의 역할까지 수행해야 하는 경우가 종종 있습니다. 알고리즘이 복잡할수록 사람이 알고리즘 개발과 구현을 모두 맡는 것이 효율적이기 때문입니다.

 [1] (서술) 교재의 내용을 참고하여 배치 분석 코드, 실시간 분석 코드, 결과 코드를 검증하기 위한 시험 코드의 개념에 대해 구체적으로 작성하시기 바랍니다.

 배치분석코드는 가지고 있는 데이터 전체를 한번에 분석하는 코드입니다.

실시간
분석 코드는 데이터를 실시간으로 추가해 분석하는 코드입니다. 일반적으로 전체 시스템의 모듈로 작동합니다.

결과 코드를 검증하기 위한 시험코드는 실시간 데이터 분석 코드를 시험할 때는 보통 전체 코드를 작게 쪼갠 유닛 테스트로 시험합니다. 배치 데이터 분석 코드라면 검증용 입출력 예제 데이터가 주어지는 경우도 있습니다. , 예제 데이터를 이용해 코드에 입력값을 주고 실제로 원하는 출력이 나오는지 확인합니다.

 

 [2] (논술) 1 문항의 답안으로 작성한 배치 분석 코드, 실시간 분석 코드, 결과 코드를 검증하기 위한 시험 코드의 개념을 기반으로, 귀하가 코드를 배포한다고 가정할 코드 배포 고려사항을 구체적으로 작성하시기 바랍니다.

 코드를 적용할 시스템이 실시간으로 학습하고 예측해야 되는 시스템이라면 실시간 데이터 분석 코드를 정리하여 전달하고, 시스템에 추가적인 학습과 예측이 필요 없는 시스템이라면 배치 분석 코드만 배포합니다. 실시간 적용 시스템이라면 코드 구현 속도를 위해 작게 쪼갠 유닛 테스트를 시행하고, 실시간이 아닌 시스템이라면 갖고 있는 새로운 데이터를 통해 원하는 출력이 나오는지를 확인합니다. 이를 위해서는 해당 시스템의 데이터가 들어와서 수집되는 시스템이 있는지 어떤 방식인지를 고려하여 코드를 구현할 필요가 있습니다.
반응형