데이터사이언스/시각화

[시각화] 한국 위키피디아를 이용한 워드클라우드(wordcloud)

bonanza 2021. 1. 6. 21:00

키워드 분석 - 한국 위키피디아를 이용한 워드클라우드

한국 wikipedia에서 키워드 추출을 위해서는 한국 자연어처리가 필요하다

필요 라이브러리: wordcloud, matplotlib, wikipediaapi
from wordcloud import WordCloud
import matplotlib.pyplot as plt
import wikipediaapi

 - wikipedia와 wikipediaapi는 다른 라이브러리임

 (참고: https://pypi.org/project/wikipedia/  pypi.org/project/Wikipedia-API/ )

* wikipedia-api 라이브러리 설치방법

pip install wikipedia-api

 

  • 코드 설명

 - 한글일때 중요한건 읽을때 encoding이 필요하다 (utf-8)

 

  • 불용어 처리
#한글 읽을때는 encoding을 utf-8로 설정
f = open("stopwords_korean.txt", "rt", encoding="utf-8")
lines = f.readlines()
#txt 읽을 때 \n표시를 제거
stop_words = []
for line in lines:
    line = line.replace('\n', '')
    stop_words.append(line)
f.close()

- 한글 불용어는 python의 일반적인 라이브러리에서 없음 (wordcloud, nltk 에서도 없음)

   (한국어의 슬픔ㅠㅠ)

 - stopwords_korean.txt 파일 다운로드

stopwords_korean.txt
0.01MB

   (참고: www.ranks.nl/stopwords/)

 

Korean Stopwords

 

www.ranks.nl

 

반응형