绘图系列|R-wordcloud2包绘制词云 - 成就云开发者社区

前段时间读完大刘的流浪地球，本来想着写点东西... 结果“懒癌”了，今天就先弄个词云凑合吧( ╯□╰ )。

词云首先需要将下载好的“流浪地球”的文本文件读入R，然后使用jieba包对文本进行分词，然后绘制词云。

一数据准备

载入所需的R包，准备好流浪地球的txt格式的文本文件。

代码语言：javascript

复制

library(jiebaRD) 
library(jiebaR) 
library(wordcloud2)

二分词，统计词频

使用jieba包对文本进行分词。

代码语言：javascript

复制

engine = worker()
segment("流浪地球.txt",engine)

data <- scan('流浪地球.segment.2019-04-09_22_36_54.txt',sep='\n',what='',encoding="UTF-8")

data2 <- freq(data)

data2 <- qseg[data]

data.words <- data2

head(data.words)

三去掉停词

过滤掉类似“的”，“你”，“我们”等类似的无意义的停词，并可根据自己需要设置词频的个数。

代码语言：javascript

复制

#过滤掉1个字的词

data.words <- subset(data.words, nchar(as.character(data.words))>1)

#过滤停词

stop=read.table(file=file.choose(),colClasses="character")

stopwords=c(NULL)

for(i in 1:dim(stop)[1]){

stopwords=c(stopwords,stop[i,1])

}

for(j in 1:length(stopwords)){

data.words <- subset(data.words,data.words!=stopwords[j])

}

四统计词频

4.1 统计词频

代码语言：javascript

复制

data.freq <- table(unlist(data.words))

data.freq <- rev(sort(data.freq))

data.freq <- data.frame(word=names(data.freq), freq=data.freq)

4.2 根据需要过滤频次

代码语言：javascript

复制

#按词频过滤词，过滤掉只出现过一次的词，这里可以根据需要调整过滤的词频数
data.freq=subset(data.freq, data.freq$freq.Freq>=2) 
head(data.freq)
   word freq.Var1 freq.Freq
1   地球      地球       164
2   太阳      太阳        95
3 发动机    发动机        60
4   人类      人类        35
5   地面      地面        30
6   木星      木星        28

五绘制词云

5.1 图形设定为“star”

代码语言：javascript

复制

wordcloud2(data.freq[,2:3],color = "random-light", backgroundColor = "grey",shape = 'star')

5.2 汉字图形展示

代码语言：javascript

复制

letterCloud(data.freq[,2:3],word="地球",size = 2)

5.3 指定图形

指定的背景图需要在R包的example文件夹中，本例为微信的开机图，然而不像，，，鬼知道咋回事啊。

代码语言：javascript

复制

world = system.file("examples/download1.jpg",package = "wordcloud2")
wordcloud2(data.freq[,2:3], figPath = world, size = 1,color = "black")

OK，词云绘制完毕。

你确定你不想看看你喜欢的书，杂志，都主要是说的些什么？

你确定你不想看看唐诗三百首，都主要是用的哪些词？

你确定你不想看看四六级，考研英语，都主要有哪些高频词汇，不是省了买本书？

你确定你不想看看各种影评，弹幕都是吐槽或者感概的啥？