文本挖掘| 某作者文章的词频统计排序

R语言之文本挖掘

其实,现在的互联网数据大多数是非结构化的,比如谷歌,雅虎,搜狐等网站的文本数据已经泛滥成灾。文本挖掘有很多的用处,比如了解患者对罕见癌症的关注度,统计政府演讲报告词频高低,情感分析,作家常用词等等,接下来了解一下喜欢的作者列夫·托尔斯泰的代表作品中的常用词有哪些?

01

下载Graf Leo Tolstoy作品

#下载Graf Leo Tolstoy(伯爵列夫·托尔斯泰)的代表作

《War and Peace》战争与和平

《Anna Karenina》安娜·卡列尼娜

《The Awakening》复活

《Best Russian Short Stories》俄国短篇小说

进入官网http://www.gutenberg.org查找相应书籍的ebooks的编号。利用gutenberg_download()函数下载。

代码语言:javascript
复制
>tolstoy<gutenberg_download(c(2600,1399,17352,13437))
>tolstoy

02

分词

代码语言:javascript
复制
> library(tidytext)
> tidy_tolstoy<-tolstoy%>%unnest_tokens(word,text)
> tidy_tolstoy

3

删除停用词

#首先查看一下停用词

代码语言:javascript
复制
> data(stop_words)
> View(stop_words)

#删除停用词

代码语言:javascript
复制
>tidy_tolstoy_stop<-tidy_tolstoy%>%anti_join(stop_words)

04

统计词个数并降序

代码语言:javascript
复制
> tidy_tolstoy_stop%>%count(word,sort=TRUE)

#可以对比一下删除停用词前后的结果

代码语言:javascript
复制
>tidy_tolstoy%>%count(word,sort=TRUE)

05

#绘图

#把word出现次数n>1000的进行绘图

代码语言:javascript
复制
>library(ggplot2)
> tidy_tolstoy_stop%>%count(word,sort=TRUE)%>%filter(n>1000)
%>%mutate(word=reorder(word,n))%>%ggplot(aes(word,n))
+geom_col(color="grey20",fill="#336A97")+ylab("Number")
+labs(title="Leo Tolstoy's masterpiece",caption="Origin:http://www.gutenberg.ory
+ Desigener:LXL")+coord_flip()+theme(plot.title = element_text(face = "bold",
hjust = 0.5,size=20,color = "black"),plot.caption = element_text(face = "bold",size = 10),
panel.grid=element_blank(),panel.background=element_rect(fill='grey90'),
axis.text.x=element_blank())

小结

通过比较,可知列夫·托尔斯泰的代表作品《War and Peace》战争与和平、《Anna Karenina》安娜·卡列尼娜、《The Awakening》复活、《Best Russian Short Stories》俄国短篇小说中出现频率最高的是prince,其次是time.....此外,利用文本挖掘工具,我们还可以了解历年英语考研真题/专业考研题目中出现频率最高的有哪些?为考研顺利上岸设计有针对性的复习重点。