키워드 분석 - 한국 위키피디아를 이용한 워드클라우드
한국 wikipedia에서 키워드 추출을 위해서는 한국 자연어처리가 필요하다
필요 라이브러리: wordcloud, matplotlib, wikipediaapi
from wordcloud import WordCloud
import matplotlib.pyplot as plt
import wikipediaapi
- wikipedia와 wikipediaapi는 다른 라이브러리임
(참고: https://pypi.org/project/wikipedia/ 와 pypi.org/project/Wikipedia-API/ )
* wikipedia-api 라이브러리 설치방법
pip install wikipedia-api
- 코드 설명
- 한글일때 중요한건 읽을때 encoding이 필요하다 (utf-8)
- 불용어 처리
#한글 읽을때는 encoding을 utf-8로 설정
f = open("stopwords_korean.txt", "rt", encoding="utf-8")
lines = f.readlines()
#txt 읽을 때 \n표시를 제거
stop_words = []
for line in lines:
line = line.replace('\n', '')
stop_words.append(line)
f.close()
- 한글 불용어는 python의 일반적인 라이브러리에서 없음 (wordcloud, nltk 에서도 없음)
(한국어의 슬픔ㅠㅠ)
- stopwords_korean.txt 파일 다운로드
(참고: www.ranks.nl/stopwords/)
Korean Stopwords
www.ranks.nl
반응형
'데이터사이언스 > 시각화' 카테고리의 다른 글
[matplotlib] matplotlib 한글폰트 마이너스 표현 깨짐 (0) | 2021.01.15 |
---|---|
[오류] matplotlib 한글깨짐 해결 (2) (0) | 2021.01.15 |
[matplotlib] matplotlib 한글깨짐 해결 (1) (0) | 2021.01.15 |
[시각화] 위키피디아를 이용한 워드클라우드 구현(word cloud) (0) | 2021.01.06 |