[시각화] 한국 위키피디아를 이용한 워드클라우드(wordcloud)

데이터사이언스/시각화

[시각화] 한국 위키피디아를 이용한 워드클라우드(wordcloud)

bonanza 2021. 1. 6. 21:00

키워드 분석 - 한국 위키피디아를 이용한 워드클라우드

한국 wikipedia에서 키워드 추출을 위해서는 한국 자연어처리가 필요하다

필요 라이브러리: wordcloud, matplotlib, wikipediaapi

from wordcloud import WordCloud
import matplotlib.pyplot as plt
import wikipediaapi

- wikipedia와 wikipediaapi는 다른 라이브러리임

(참고: https://pypi.org/project/wikipedia/ 와 pypi.org/project/Wikipedia-API/ )

* wikipedia-api 라이브러리 설치방법

pip install wikipedia-api

코드 설명

- 한글일때 중요한건 읽을때 encoding이 필요하다 (utf-8)

불용어 처리

#한글 읽을때는 encoding을 utf-8로 설정
f = open("stopwords_korean.txt", "rt", encoding="utf-8")
lines = f.readlines()
#txt 읽을 때 \n표시를 제거
stop_words = []
for line in lines:
    line = line.replace('\n', '')
    stop_words.append(line)
f.close()

- 한글 불용어는 python의 일반적인 라이브러리에서 없음 (wordcloud, nltk 에서도 없음)

(한국어의 슬픔ㅠㅠ)

- stopwords_korean.txt 파일 다운로드

stopwords_korean.txt

0.01MB

(참고: www.ranks.nl/stopwords/)

Korean Stopwords

www.ranks.nl

저작자표시 변경금지

'데이터사이언스 > 시각화' 카테고리의 다른 글

[matplotlib] matplotlib 한글폰트 마이너스 표현 깨짐 (0)	2021.01.15
[오류] matplotlib 한글깨짐 해결 (2) (0)	2021.01.15
[matplotlib] matplotlib 한글깨짐 해결 (1) (0)	2021.01.15
[시각화] 위키피디아를 이용한 워드클라우드 구현(word cloud) (0)	2021.01.06

현재글[시각화] 한국 위키피디아를 이용한 워드클라우드(wordcloud)

『Data Bonanza』

[시각화] 한국 위키피디아를 이용한 워드클라우드(wordcloud)

키워드 분석 - 한국 위키피디아를 이용한 워드클라우드

'데이터사이언스 > 시각화' 카테고리의 다른 글

'데이터사이언스/시각화'의 다른글

티스토리툴바

[시각화] 한국 위키피디아를 이용한 워드클라우드(wordcloud)

키워드 분석 - 한국 위키피디아를 이용한 워드클라우드

'데이터사이언스 > 시각화' 카테고리의 다른 글

'데이터사이언스/시각화'의 다른글

관련글

티스토리툴바