파이썬 28

[4과목] R기초

1. 데이터 분석 도구의 현황 분석도구 비교 SAS SPSS R Python 프로그램 비용 유료, 고가 유료, 고가 오픈소스, 무료 오픈소스, 무료 설치용량 대용량 대용량 모듈화로 간단 모듈화로 간단 (배우기 쉬움) 다양한 모듈 지원 및 비용 별도구매 별도구매 오픈소스 오픈소수 최신 알고리즘 및 기술반영 느림 다소 느림 매우 빠름 매우 빠름 (기계학습에 능숙) 학습자료 입수의 편의성 유료 도서 위주 유료 도서 위주 공개 논문 및 자료 많음 공개 논문 및 자료 많음 질의를 위한 공개 커뮤니티 NA NA 매우 활발 매우 활발 유지보수 쉽다 쉽다 어렵다 어렵다 2. 대화형 모드와 배치모드 대화형 모드 (interactive mode): 프롬프트에 코딩을 하여 결과를 바로 알 수 있음 배치모드 (batch mo..

[3과목] 분석 방법론

1. KDD 분석 방법론 KDD(Knowledge Discovery in Databases)는 데이터 마이닝 프로세스 KDD 분석 절차 (5가지 프로스세스) 1) 데이터셋 선택 (Selection) 2) 데이터 전처리 (Preprocessing) 3) 데이터 변환 (Transformation) 4) 데이터 마이닝 (Data Mining) 5) 데이터 마이닝 결과 평가 (Interpretation/Evaluation) 2. CRISP-DM 분석 방법론 CRISP-DM(Cross Industry Standard Process for Data Mining)은 계층적 프로세스 모델로 4개의 레벨과 6단계의 프로세스로 구성 4레벨 구조 6단계의 프로세스 1) 업무이해 (Business Understanding) ..

[Pandas] .to_csv 시 한글 깨짐

python의 문자열 인식 방법은 기본적으로 unicode라고 한다. (한글을 지원하지 않는다) df.to_csv("df.csv") 그럼 아래와 같이 깨진다. 한글을 쓰려면 Encoding을 해줘야한다. 한글 깨졌을 때 엔코딩 방법은 크게 두개이다. 1. 'utf-8' df.to_csv("df.csv", encoding='utf-8') 그럼 아래와 같이 깨진다. 2. 'euc-kr' df.to_csv("df.csv", encoding='euc-kr') 그럼 안 깨진다. to_csv 시에는 'utf-8' 보다는 'euc-kr'을 쓰면 된다!

[사설] 데이터 분석가(Data analyst) vs 데이터 과학자(Data scientist)

·흔히, 일상에서 많이 물어보는 질문이 있다. 데이터 분석가(Data analyst)와 데이터 과학자(Data scientist)의 차이가 뭔가? 쉽게 대답하기 힘들것이다. 아마 명확한 차이에 대해 정립해본적이 없을테니.. 나 또한, 이에 대해 고민해보지 않아 실제 면접에 나왔을 때 대답하느라 혼났다. 시중에 서적에서 찾아보자. 과거에 읽었던 책에 있는 데이터 분석가(Data analyst)와 데이터 과학자(Data scientist)의 차이이다. 데이터 분석가는 데이터 정제 및 원인 분석과 결과 분석 작업(현황분석)을 주로 하고, 일부 경험 있는 분석가는 드물게 추정 작업(예측 분석)도 한다. 데이터 과학자는 현황 분석보다는 주로 산업별 전문 지식을 갖고 예측 최적화 작업을 한다. - "데이터 과학 무..

[오류] matplotlib 한글깨짐 해결 (2)

기존 블로그에서 안되는 경우들이 발생한다. -> 대부분 font의 경로를 못잡는 경우이다. 2021/01/15 - [시각화] - [오류] matplotlib 한글깨짐 해결 (1) [오류] matplotlib 한글깨짐 해결 (1) 한글을 분석할때 발생하는 현상인 한글 깨짐 현상을 해결해보자. 현상은 다음과 같다. 필요 라이브러리: matplotlib 우선 matplotllib을 import해야된다. * 일반적으로 matplotlib내 pyplot 모듈을 쓰고, 보통 databonanza.tistory.com 이럴때는 font의 경로를 직접잡아주자! 필요라이브러리: matplotlib matplotlib에서는 font_manager라는 모듈이 있다. 1. 사용할 수 있는 font 경로 확인 import ma..

[matplotlib] matplotlib 한글깨짐 해결 (1)

한글을 분석할때 발생하는 현상인 한글 깨짐 현상을 해결해보자. 현상은 다음과 같다. 필요 라이브러리: matplotlib 우선 matplotllib을 import해야된다. * 일반적으로 matplotlib내 pyplot 모듈을 쓰고, 보통은 plt로 정의한다. import matplotlib.pyplot as plt plt.text(0.5,0.5,'한글') plt.xlabel('시간') plt.ylabel('값') plt.show() 그림과 같이 한글이 깨진다. (그림 내 한글 표시, x축, y축 라벨 등) 1. 한글 폰트 받기 - 우리에 Naver 형님들은 한글폰트를 무료로 배포하고 있다. - 다운로드: hangeul.naver.com/2017/nanum [네이버 한글한글 아름답게 : 글꼴모음] 한글의..

[티스토리] Git gist를 이용한 티스토리 블로그에 코드 넣기

티스토리에서는 훌륭한 코드 블럭이 있다. 하지만, github에 있는 코드를 Gist라는 기능을 이용해 티스토리 블로그에 코드를 넣을 수 있다. - 예시: 2021/01/06 - [시각화] - [시각화] 위키피디아를 이용한 워드클라우드 구현(word cloud) [시각화] 위키피디아를 이용한 워드클라우드 구현(word cloud) 키워드 분석시 많이 쓰이는 방법이 두가지가 있다. (1) 키워드 네트워크 (keyword network) - 한 문장안에 어떠한 단워와 같이 언급되었는지를 확인 - 보통은 뉴스같은데에서 많이 쓰임 (2) 워드클라 databonanza.tistory.com * GitHub Gist(깃허브 지스트)란 코드, 메모, 스니펫(작은 부분)을 즉시 공유할 수 있는 서비스입니다. (inst..

학습/블로그 2021.01.11

[가상환경] 가상환경 확인/생성/활성화/패키지 설치/삭제

(1) 가상환경 확인 $ conda info --envs (2) 가상환경 생성 $ conda create --name 가상환경명 - env2라는 이름의 가상환경 생성 (3) 가상환경 활성화 $ conda activate 가상환경명 - 가상환경 변경: (base)에서 (env2)로 변경 (4) 패키지 설치 $ conda install 패키지명 (6) 가상환경 비활성화 $ conda deactivate (7) 가상환경 삭제 $ conda remove --name 가상환경명 --all - base환경에서 시행할 것!

[python] pip install과 conda install의 차이

패키지 설치시 일반적인 방법은 다음과 같다. $ pip install 설치패키지 * 그런데 어떠한 블로그에는 다음과 같이 알려준다. $ conda install 설치패키지 과연 무슨 차이가 있는 것일까? 여러 블로그에는 pip는 python만 한정된 패키지 관리자이고, conda 는 python 뿐만 아니라 c, java등에도 포함도니 패키지 관리자라고 한다. (잘은 모르겠지만, 맞는거 같다.) 하지만 이러한 표현보다 더 사용자 측면에서 차이가 나는것을 정리하고자 한다. 1. pip와 conda의 차이 pip와 conda 는 쉽게 얘기하면, pip는 안드로이드 Google Play store이고, conda는 삼성 갤럭시 스토어이다. pip는 python의 정식 지원을 받는 패키지만을 관리하는 관리자이고..

728x90
반응형