多进程爬取电影 - 成就云开发者社区

代码语言：javascript
复制
这是一个多进程爬取电影的爬虫，因为下载电影的话用单进程是在苦不堪言，速度感人
一开始就遇到了一个大坑，尅是只是用了多进程，但是没有使用队列，最后发现下载下来的数据虽然
按照我预想的规则l+0000 .ts 这种格式来命名了，但是有个致命的地方，本来文件名字就是无序的，
然后没有使用队列的多进程又再一次打乱了顺序，导致最后拼接的电影成了ppt，然后就各种百度谷歌，
现学现卖吧，写了这个多进程的队列爬虫，下载速度还过得去，还有待优化呀。
 
import requests
import random
import multiprocessing
import time
 
headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36'
         ' (KHTML, like Gecko) Chrome/78.0.3904.70 Safari/537.36'} # 请求头
t=[
    '47.75.194.109:80',
    '202.117.121.253:8080',
    '47.101.134.187:8888',
    '112.74.185.33:80',
    '47.101.134.187:8888',
    '112.74.185.33:80',
    '118.24.7.218:80',
    '47.75.62.90:80',
    '47.52.209.8:80',
    '118.25.49.225:80',
]
# 代理ip池，可以去各大免费的代理ip网站上面爬下来自己维护一份可用的代理池，多线程的时候用得到
ht={'http':random.choice(t)} # 构造代理ip # 用random里面的choice 从ip列表里面随机抽一个ip来请求
def get_url():
    url = 'https://v3.szjal.cn'
    with open('./index.m3u8','r')as f:
        a=f.readlines() # 我这里是读取本地的文件，逐行读取
        aa=[]
        for x in a:
            if '/' in x: # 因为文件隔行就是一行干扰字符，所以跳过他，干扰字符是# 开头，
                        # 需要的链接地址是/开头，所以用if就可以判断了
                # aa.append(url+x[:-1]) # 返回一份列表 这里是用来测试队列是否按照index.m3u8的循环排列的
                q.put(url+x[:-1]) # 如果是正确的链接就加入队列中给多进程调用 这里进行了连接拼接操作
    # return aa
    
    
def download(url1,n):
    movies=requests.get(url1,headers=headers,proxies=ht).content
    with open(fr'./t/l{n}.ts','wb+')as f:
        f.write(movies)
        print('保存成功',url1) # 保存成功后返回提示信息
 
 
if __name__ == '__main__':
    s_time = time.time()
    q=multiprocessing.Queue() # 创建空的队列
    pool = multiprocessing.Pool(20) # 开启20个进程
    n=0 # 启动计数，用来重命名文件，
 
    while not q.empty(): # 如果队列不为空就一直执行下面的进程
        n+=1
        pool.apply_async(download,(q.get(),'%04d' % n)) # 开启多进程并传入n作为命名参数，共4位数字，不够用0占位
    pool.close() # 进程满了之后禁止在添加新的任务
    pool.join() # 进程阻塞
 
    print('总共用时：',int(time.time()-s_time),'s')
 
爬虫就到这了，有兴趣玩爬虫的可以一起玩玩呀