爬虫篇：使用Python动态爬取某大V微博，再用词云分析

这是我用大V冯大辉老师最近5000多条微博内容做的词云，大家可以围观一下。

之前也写了一篇用python 来爬取朋友的QQ说说，大家也可以围观一下

Python爬虫：动态爬取QQ说说并生成词云，分析朋友状况

好了，开始进入正题：

代码语言：javascript

复制

#coding:utf-8
"""

爬取冯大辉老师的微博

代码都在github上：https://github.com/pythonchannel
"""
import time

from selenium import webdriver

from lxml import etree

import word_cloud_py as wcp

import sys
reload(sys)

#这里需要指定字符编码

sys.setdefaultencoding( "utf-8" )
def get_content(f_name):
#你的微博帐号
username = &#39;xxxx&#39;
psd = &#39;xxxx&#39;

#获取浏览器驱动
driver = webdriver.Firefox()

# 浏览器窗口最大化
driver.maximize_window()

driver.get(&#39;http://weibo.com/login.php&#39;)
print(&#39;login............................&#39;)

#给登录框与密码赋值
driver.find_element_by_id(&#39;loginname&#39;).send_keys(username)
driver.find_element_by_class_name(&#39;password&#39;).find_element_by_name(&#39;password&#39;).send_keys(psd)

#点击登录按钮
driver.find_element_by_xpath(&#39;//*[@id=&#34;pl_login_form&#34;]/div/div[3]/div[6]/a/span&#39;).click()

# 这里因为登录，需要有一个延时，不能直接切换到新网页去
time.sleep(3)

# 登录成功后，再用浏览器地址定向到大辉老师的微博列表页，没有什么技巧，自己去找的
driver.get(&#34;https://weibo.com/p/1005051577826897/home?from=page_100505_profile&amp;wvr=6&amp;mod=data&amp;is_all=1#place&#34;)

while True:
        # 下拉滚动条，从1开始到3结束 分2次加载完每页数据
        for i in range(1,6):
            height = 20000*i#每次滑动20000像素
            strWord = &#34;window.scrollBy(0,&#34;+str(height)+&#34;)&#34;
            driver.execute_script(strWord)
            time.sleep(4)

        selector = etree.HTML(driver.page_source)
        divs = selector.xpath(&#39;//*[@id=&#34;Pl_Official_MyProfileFeed__22&#34;]/div/div/div[1]/div[4]&#39;)

      #  mode =a 不清空连续写入
        with open(&#39;{}.txt&#39;.format(f_name),&#39;a&#39;) as f:
            for div in divs:
                wb_content = div.xpath(&#39;./div[3]/text()&#39;)
                wb_time = div.xpath(&#39;./div[2]/a/text()&#39;)
                wb_content = wb_content[0] if len(wb_content) &gt; 0 else &#39;&#39;
                wb_time = wb_time[0] if len(wb_time) &gt; 0 else &#39;&#39;
                wb_content = wb_content.strip()  # 去掉左右两边的空格
                wb_time = wb_time.strip()
                print wb_content, wb_time
                f.write(wb_content+&#39;\n&#39;)

        #分析得知当为最后一页时，最后的page next S_txt1 S_line1不见了
        if driver.page_source.find(&#39;page next S_txt1 S_line1&#39;) == -1:
            print &#39;没有下一页了&#39;
            break

        # 找到“下一页”的按钮元素，原本想用xpath与classname，都失败了
        # 这里我是用css来定位的，page next S_txt1 S_line1 在空格之间加&#39;.&#39; 来连接
        submit = driver.find_element_by_css_selector(&#39;.page.next.S_txt1.S_line1&#39;)
        submit.click()

if name == 'main':

f_name = 'ddddd'

get_content(f_name)

wcp.create_word_cloud(f_name)

特别注意一下，生成词云的代码在github上word_cloud_py文件中，调用方法就行了。