scrapy （四）基本配置 - 成就云开发者社区

今天小婷儿给大家分享的是scrapy （四）基本配置。

scrapy （四）基本配置

scrapy使用细节配置

一、建立项目

scrapy genspider 名字不带http的根网址

默认模板：class HuaSpider(scrapy.Spider)：

改变模板：scapy genspider -t crwal 名字(hua2) 不带http的根网址:

(class Hua2Spider(CrawlSpider)

INFO、ERROR......
LOG_LEVEL = 'ERROR'

LOG_FILE = './log.txt'

是否遵守各大网站的爬虫规则（robots），默认是True，为了得到我们想要的数据，设置ROBOTSTXT_OBEY为F alse: ROBOTSTXT_OBEY = False

查看各大网站的规则：根网址+/robots.txt，例如https://www.baidu.com/robots.txt

1) 在setting中打开以下配置

DOWNLOADER_MIDDLEWARES = {

'postproject.middlewares.PostprojectDownloaderMiddleware': 543,

}

2）在middlewares.py中添加代理

在class PostprojectDownloaderMiddleware(object):

def process_request(self, request, spider):

公开代理格式：request.meta['proxy'] ='http://ip:port'

私密代理格式：request.meta['proxy'] = 'http://username:password@ip:port'

3）回到setting，解开下载中间件DOWNLOADER_MIDDLEWARES