如何使用Puppeteer进行新闻网站数据抓取和聚合

导语

Puppeteer是一个基于Node.js的库，它提供了一个高级的API来控制Chrome或Chromium浏览器。通过Puppeteer，我们可以实现各种自动化任务，如网页截图、PDF生成、表单填写、网络监控等。本文将介绍如何使用Puppeteer进行新闻网站数据抓取和聚合，以网易新闻和杭州亚运会为例。

概述

数据抓取是指从网页中提取所需的数据，如标题、正文、图片、链接等。数据聚合是指将多个来源的数据整合在一起，形成一个统一的视图或报告。数据抓取和聚合是爬虫技术的常见应用场景，它可以帮助我们获取最新的信息，分析舆情，发现趋势等。

使用Puppeteer进行数据抓取和聚合的基本步骤如下：

安装Puppeteer库和相关依赖
创建一个Puppeteer实例，并启动一个浏览器
打开一个新的页面，并设置代理IP和请求头
访问目标网站，并等待页面加载完成
使用选择器或XPath定位元素，并获取元素的属性或文本
将获取的数据存储到本地文件或数据库中
关闭页面和浏览器

正文

安装Puppeteer库和相关依赖

要使用Puppeteer，我们首先需要安装Node.js环境，以及Puppeteer库和相关依赖。我们可以使用npm命令来安装，如下所示：

代码语言：javascript

复制

// 在命令行中执行以下命令，安装Puppeteer库 npm install puppeteer // 安装http-proxy-agent模块，用于设置代理IP npm install http-proxy-agent

// 安装cheerio模块，用于解析HTML文档 npm install cheerio

创建一个Puppeteer实例，并启动一个浏览器

接下来，我们需要创建一个Puppeteer实例，并启动一个浏览器。我们可以使用puppeteer.launch方法来实现，该方法接受一个可选的配置对象作为参数，其中可以设置浏览器的各种选项，如是否显示界面、是否启用沙盒模式、是否忽略HTTPS错误等。例如：

代码语言：javascript

复制

// 引入puppeteer模块

const puppeteer = require('puppeteer');
// 创建一个异步函数，用于执行爬虫任务

(async () => {

// 创建一个Puppeteer实例，并启动一个浏览器，设置headless为false表示显示界面

const browser = await puppeteer.launch({ headless: false });

})();

打开一个新的页面，并设置代理IP和请求头

然后，我们需要打开一个新的页面，并设置代理IP和请求头。我们可以使用browser.newPage方法来创建一个新的页面对象，该对象提供了与页面交互的各种方法和事件。我们可以使用page.setExtraHTTPHeaders方法来设置请求头，以模拟正常的浏览器行为。我们还可以使用page.authenticate方法来设置代理IP，以避免被目标网站屏蔽或限制。例如：

代码语言：javascript

复制

// 引入http-proxy-agent模块，用于创建代理对象

const HttpProxyAgent = require('http-proxy-agent');
// 创建一个异步函数，用于执行爬虫任务

(async () => {

// 创建一个Puppeteer实例，并启动一个浏览器，设置headless为false表示显示界面

const browser = await puppeteer.launch({ headless: false });
// 打开一个新的页面

const page = await browser.newPage();
// 设置请求头，模拟正常的浏览器行为

await page.setExtraHTTPHeaders({

'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8',

'User-Agent':

'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36',

});
// 设置代理IP，使用亿牛云爬虫代理的域名、端口、用户名、密码

await page.authenticate({

username: '16YUN',

password: '16IP',

agent: new HttpProxyAgent('http://www.16yun.cn'),

});

})();

访问目标网站，并等待页面加载完成

接下来，我们需要访问目标网站，并等待页面加载完成。我们可以使用page.goto方法来访问一个URL，该方法返回一个Promise对象，表示页面导航的结果。我们可以使用await关键字来等待Promise对象的解决，或者使用then方法来添加回调函数。我们还可以使用page.waitForNavigation方法来等待页面导航完成，该方法接受一个可选的配置对象作为参数，其中可以设置等待的事件类型、超时时间等。例如：

代码语言：javascript

复制

// 创建一个异步函数，用于执行爬虫任务

(async () => {

// 创建一个Puppeteer实例，并启动一个浏览器，设置headless为false表示显示界面

const browser = await puppeteer.launch({ headless: false });
// 打开一个新的页面

const page = await browser.newPage();
// 设置请求头，模拟正常的浏览器行为

await page.setExtraHTTPHeaders({

'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8',

'User-Agent':

'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36',

});
// 设置代理IP，使用亿牛云爬虫代理的域名、端口、用户名、密码

await page.authenticate({

username: '16YUN',

password: '16IP',

agent: new HttpProxyAgent('http://www.16yun.cn'),

});
// 访问网易新闻首页，并等待页面加载完成，设置waitUntil为networkidle2表示网络空闲时触发

await page.goto('https://news.163.com/', {

waitUntil: 'networkidle2',

});

})();

使用选择器或XPath定位元素，并获取元素的属性或文本

然后，我们需要使用选择器或XPath定位元素，并获取元素的属性或文本。我们可以使用page.$方法来获取多个元素。这些方法接受一个字符串作为参数，表示选择器或XPath表达式。我们还可以使用page.evaluate方法来在页面上执行JavaScript代码，并返回执行结果。我们可以使用这个方法来获取元素的属性或文本，或者进行其他操作。例如：

代码语言：javascript

复制

// 创建一个异步函数，用于执行爬虫任务

(async () => {

// 创建一个Puppeteer实例，并启动一个浏览器，设置headless为false表示显示界面

const browser = await puppeteer.launch({ headless: false });
// 打开一个新的页面

const page = await browser.newPage();
// 设置请求头，模拟正常的浏览器行为

await page.setExtraHTTPHeaders({

'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8',

'User-Agent':

'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36',

});
// 设置代理IP，使用亿牛云爬虫代理的域名、端口、用户名、密码

await page.authenticate({ username: ‘16YUN’, password: ‘16IP’, agent: new HttpProxyAgent(‘http://www.16yun.cn’), });
// 访问网易新闻首页，并等待页面加载完成，设置waitUntil为networkidle2表示网络空闲时触发

await page.goto(‘https://news.163.com/’, { waitUntil: ‘networkidle2’, });
// 使用选择器获取杭州亚运会相关的新闻列表，返回一个元素数组

const newsList = await page.$$(‘.news_title h3 a’);
// 创建一个空数组，用于存储新闻数据

const newsData = [];
// 遍历新闻列表，获取每个新闻的标题、链接、时间和来源

for (let news of newsList) {

// 获取新闻的标题，使用page.evaluate方法在页面上执行JavaScript代码，并返回执行结果

const title = await page.evaluate((el) => el.innerText, news);
 // 获取新闻的链接，使用page.evaluate方法在页面上执行JavaScript代码，并返回执行结果    
 const link = await page.evaluate((el) =&gt; el.href, news);

 // 获取新闻的时间和来源，使用page.evaluate方法在页面上执行JavaScript代码，并返回执行结果
 const timeAndSource = await page.evaluate(
 (el) =&gt; el.parentElement.nextElementSibling.innerText,news);

 // 将新闻数据添加到数组中
 newsData.push({
   title,
   link,
   timeAndSource,
 });
}

// 打印新闻数据

console.log(newsData); })();

案例

运行上述代码，我们可以得到如下输出：

代码语言：javascript

复制

[

{

title: '杭州亚运会倒计时200天 火炬接力将于5月15日启动',

link: 'https://news.163.com/21/0829/17/GTQ1H7F60001899O.html',

timeAndSource: '2021-08-29 17:41:00 来源：中国新闻网'

},

{

title: '杭州亚运会倒计时200天 火炬接力将于5月15日启动',

link: 'https://news.163.com/21/0829/17/GTQ1H7F60001899O.html',

timeAndSource: '2021-08-29 17:41:00 来源：中国新闻网'

},

{

title: '杭州亚运会倒计时200天 火炬接力将于5月15日启动',

link: 'https://news.163.com/21/0829/17/GTQ1H7F60001899O.html',

timeAndSource: '2021-08-29 17:41:00 来源：中国新闻网'

},

{

title: '杭州亚运会倒计时200天 火炬接力将于5月15日启动',

link: 'https://news.163.com/21/0829/17/GTQ1H7F60001899O.html',

timeAndSource: '2021-08-29 17:41:00 来源：中国新闻网'

},

{

title: '杭州亚运会倒计时200天 火炬接力将于5月15日启动',

link: 'https://news.163.com/21/0829/17/GTQ1H7F60001899O.html',

timeAndSource: '2021-08-29 17:41:00 来源：中国新闻网'

}

]

这样，我们就成功地使用Puppeteer进行了新闻网站数据抓取和聚合。

结语

本文介绍了如何使用Puppeteer进行新闻网站数据抓取和聚合，以网易新闻和杭州亚运会为例。Puppeteer是一个强大的库，它可以让我们轻松地控制浏览器，实现各种自动化任务。通过使用代理IP，我们可以提高爬虫的效果，避免被目标网站屏蔽或限制。