PHP爬虫实战：百万级知乎用户数据采集与分析

158 浏览量更新于2024-08-30 收藏 110KB PDF 举报

本文档深入探讨了如何使用PHP编写百万级别的爬虫，对知乎平台上的用户数据进行抓取和分析。首先，作者强调了开发前的准备工作，包括选择Linux系统（Ubuntu 14.04）作为开发环境，并在虚拟机（VMWare）中安装，以及确保PHP（版本5.6或更高）、MySQL（版本5.5或更高）等关键软件的安装。此外，由于知乎用户数据通常需要登录才能访问，因此安装curl和pcntl扩展对于处理cookies和模拟浏览器行为至关重要。文章的核心部分讲解了如何利用PHP的curl扩展进行网页抓取。curl扩展允许开发者与服务器进行交互，获取HTML数据。在访问知乎用户个人页面时，由于需要cookie信息来保持用户身份，作者分享了如何获取并保存自己的cookie信息，将其以“__utma=?;__utmb=?;”等形式组织成字符串。然后在curl请求中，通过`curl_setopt()`函数设置cookie和用户代理（User-Agent）头，确保请求的合法性。具体示例代码展示了如何构造URL，初始化curl会话，设置请求参数，如忽略头部信息（`CURLOPT_HEADER,0`）、携带自定义cookie（`CURLOPT_COOKIE`）、设置User-Agent以及接收返回的文件流（`CURLOPT_RETURNTRANSFER`）。同时，通过`CURLOPT_FOLLOWLOCATION,1`参数使得curl能够处理重定向，从而成功访问个人页面。抓取110万用户数据后，作者并未在提供的内容中详述具体的分析过程，但可以推测这部分可能涉及数据清洗、存储、以及利用PHP的数据处理工具（如数组、循环、数据库操作等）对用户信息进行统计分析，如用户分布、活跃度、兴趣偏好等。对于想要进行类似项目的朋友，这是一份宝贵的参考资料，可以帮助他们理解和实践PHP爬虫技术在大规模数据抓取中的应用。

PHP爬虫之百万级别知乎用户数据爬取与分析爬虫之百万级别知乎用户数据爬取与分析

主要介绍了PHP百万级别知乎用户数据爬取与分析的相关资料,需要的朋友可以参考下

这次抓取了110万的用户数据，数据分析结果如下：

开发前的准备开发前的准备

安装安装Linux系统（系统（Ubuntu14.04），在），在VMWare虚拟机下安装一个虚拟机下安装一个Ubuntu；；

安装安装PHP5.6或以上版本；或以上版本；

安装安装MySQL5.5或以上版本；或以上版本；

安装安装curl、、pcntl扩展。扩展。

使用使用PHP的的curl扩展抓取页面数据扩展抓取页面数据

PHP的curl扩展是PHP支持的允许你与各种服务器使用各种类型的协议进行连接和通信的库。

本程序是抓取知乎的用户数据，要能访问用户个人页面，需要用户登录后的才能访问。当我们在浏览器的页面中点击一个用户头像链接进入

用户个人中心页面的时候，之所以能够看到用户的信息，是因为在点击链接的时候，浏览器帮你将本地的cookie带上一齐提交到新的页面，

所以你就能进入到用户的个人中心页面。因此实现访问个人页面之前需要先获得用户的cookie信息，然后在每次curl请求的时候带上cookie

信息。在获取cookie信息方面，我是用了自己的cookie，在页面中可以看到自己的cookie信息：

一个个地复制，以”__utma=?;__utmb=?;”这样的形式组成一个cookie字符串。接下来就可以使用该cookie字符串来发送请求。

初始的示例：

$url = 'http://www.zhihu.com/people/mora-hu/about'; //此处mora-hu代表用户ID

$ch = curl_init($url); //初始化会话

curl_setopt($ch, CURLOPT_HEADER, 0);

curl_setopt($ch, CURLOPT_COOKIE, $this->config_arr['user_cookie']); //设置请求COOKIE

curl_setopt($ch, CURLOPT_USERAGENT, $_SERVER['HTTP_USER_AGENT']);

curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); //将curl_exec()获取的信息以文件流的形式返回，而不是直接输出。

curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);

$result = curl_exec($ch);

return $result; //抓取的结果

运行上面的代码可以获得mora-hu用户的个人中心页面。利用该结果再使用正则表达式对页面进行处理，就能获取到姓名，性别等所需要抓

取的信息。

1、图片防盗链、图片防盗链

在对返回结果进行正则处理后输出个人信息的时候，发现在页面中输出用户头像时无法打开。经过查阅资料得知，是因为知乎对图片做了防

盗链处理。解决方案就是请求图片的时候在请求头里伪造一个referer。

在使用正则表达式获取到图片的链接之后，再发一次请求，这时候带上图片请求的来源，说明该请求来自知乎网站的转发。具体例子如下：

function getImg($url, $u_id)

{

if (file_exists('./images/' . $u_id . ".jpg"))

{

return "images/$u_id" . '.jpg';

}

if (empty($url))

{

return '';

}

$context_options = array(

'http' =>

array(

'header' => "Referer:http://www.zhihu.com"//带上referer参数

　　)

　　);

$context = stream_context_create($context_options);

$img = file_get_contents('http:' . $url, FALSE, $context);

file_put_contents('./images/' . $u_id . ".jpg", $img);

return "images/$u_id" . '.jpg';

}

2、爬取更多用户、爬取更多用户

抓取了自己的个人信息后，就需要再访问用户的关注者和关注了的用户列表获取更多的用户信息。然后一层一层地访问。可以看到，在个人

中心页面里，有两个链接如下：

这里有两个链接，一个是关注了，另一个是关注者，以“关注了”的链接为例。用正则匹配去匹配到相应的链接，得到url之后用curl带上

cookie再发一次请求。抓取到用户关注了的用于列表页之后，可以得到下面的页面：

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38629274

粉丝: 4
资源: 898

PHP爬虫实战：百万级知乎用户数据采集与分析

知乎用户数据爬取与分析：Python实现与可视化

知乎用户数据爬取与分析实战：scrapy和pandas的应用

Python实现知乎话题数据爬取与可视化分析

php实现爬取和分析知乎用户数据

phpspider:php爬虫，demo包含淘宝、天猫、京东等详情页的爬取

知乎网站抓取

基于PHP的育儿 php问答爬虫.zip

基于PHP的蓝途问答爬虫站程序源码.zip

phpspiderPHP蜘蛛爬虫框架

一个简单的python爬虫，原生python+BeautifulSoup

最新资源