- 设置 User-Agent 头
在 HTTP 请求中,User-Agent 头字段用于标识客户端的类型和版本信息。浏览器通常会发送 User-Agent 头,而其他访问方式可能不会发送或发送不同的 User-Agent 头。因此,您可以尝试设置一个与浏览器相似的 User-Agent 头,来模拟浏览器行为。
例如,在 PHP 的 curl
函数中,可以使用 CURLOPT_USERAGENT
选项来设置 User-Agent 头:
// 创建 curl 句柄 $ch = curl_init();
// 设置 curl 选项
curl_setopt($ch, CURLOPT_URL, 'http://example.com/api');
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
curl_setopt($ch, CURLOPT_HEADER, false);
curl_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3');// 执行 curl 请求并获取响应结果
response = curl_exec(ch);
status_code = curl_getinfo(ch, CURLINFO_HTTP_CODE);
content_type = curl_getinfo(ch, CURLINFO_CONTENT_TYPE);// 关闭 curl 句柄
curl_close($ch);
// 输出结果
echo $response;
echo $status_code;
echo $content_type;
在上述示例中,CURLOPT_USERAGENT
选项用于设置 User-Agent 头,该头指定了一个 Chrome 浏览器的 User-Agent 字符串。
- 设置 Referer 头
在 HTTP 请求中,Referer 头字段用于标识请求来源页面的 URL。某些反爬虫机制可能会检查 Referer 头来限制非正常访问。因此,您可以尝试设置一个与实际来源页面相似的 Referer 头,来模拟浏览器行为。
例如,在 PHP 的 curl
函数中,可以使用 CURLOPT_REFERER
选项来设置 Referer 头:
// 创建 curl 句柄
$ch = curl_init();// 设置 curl 选项
curl_setopt($ch, CURLOPT_URL, 'http://example.com/api');
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
curl_setopt($ch, CURLOPT_HEADER, false);
curl_setopt($ch, CURLOPT_REFERER, 'http://www.example.com');// 执行 curl 请求并获取响应结果
response = curl_exec(ch);
status_code = curl_getinfo(ch, CURLINFO_HTTP_CODE);
content_type = curl_getinfo(ch, CURLINFO_CONTENT_TYPE);// 关闭 curl 句柄
curl_close($ch);
// 输出结果
echo $response;
echo $status_code;
echo $content_type;
在上述示例中,CURLOPT_REFERER
选项用于设置 Referer 头,该头指定了一个来源页面的 URL。
需要注意的是,以上方法仅限于模拟浏览器行为来绕过简单的反爬虫机制。如果目标网站使用更复杂的反爬虫技术,这些方法可能无效。在进行任何爬取操作前,请务必先了解目标网站的反爬虫机制和相关政策,并遵守相关规定。