【免费】基于机器学习的问答推荐算法设计-论文初稿1.0DEV1

需积分: 0 150 浏览量更新于2023-11-24 评论收藏 815KB DOCX 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

资源详情

资源评论

资源推荐

电子科技大学学士学位论文

第三章爬虫基础

3.1 爬虫基本原理

互联网上的信息储存在成千上万的服务器之中，早期，人们在做搜索引擎的时候，

网站的信息都是通过人工录入的，但随着互联网的发展，这些人工录入的数据的量，早

已不能满足人们，于是便有了爬虫的诞生，爬虫诞生之初是为了搜索引擎所服务的，而

不是现在大家常见的盗取他人网站等不良用途。

爬虫是一个自动提取网页信息的程序，它为搜索引擎提供搜索数据的来源，是搜索

引擎的重要组成部分。传统意义上的爬虫，是由一个或者若干的起始网页开始，按照一

定规则，不断从当前的链接中过滤筛选出所需要的链接放入爬取队列，再根据一定的规

则，选择队列中的链接继续爬取，直到队列为空，从而爬取到海量的数据，为搜索引擎

提供的数据保证。爬虫一般运行流程图如图 3-1 所示：

图 3-1 爬虫一般运行流程图

3.2 爬虫搜索策略分类

搜索策略，即选取什么样的网页爬取的策略。根据爬虫在爬取数据过程中采取的搜

索策略不同，一般分为以下三种策略：

1. 广度优先搜索：广度优先搜索，和其他广度优先的算法一样，优先保证算法广度，即

在爬取过程中，先将当前层次的所有网页都爬取完毕，再进行下一层次的网页内容爬

爬虫程序启动,初始化完

成,初始URL加入队列

从队列中选择一个URL

爬虫运行完毕

下载网页

网页中有无其他URL

(经过算法筛选)

将网页中指向的其他

URL(经过算法筛选)加入

队列

当前URL处理完毕

队列为空

队列不空有

无

爬虫基础

取。这个算法的核心思想是，认为越靠近初始网页的网页，相关程度越高，所以根据

广度优先算法获取到的网页，整体上相关程度会高一些，但实则随着网页层次的深入，

大量的不相关网页也会被爬取，降低爬取速度。

2. 深度优先搜索：深度优先搜索，和其他深度优先算法一样，优先保证算法深度，即在

爬取过程中，先从初始页面，获取到一个链接后，直接爬取该链接内容，继续再从这

个链接获取下一个链接，这样处理完一条路线后，再次处理下一条路线。这个算法也

并不复杂，但是由于深度优先算法，优先爬取离初始页面远的页面，这样爬取到的页

面相关程度很低，价值不高，一般很少采用。但由于知乎网问答页面组织方式的特殊

性，本系统的爬虫采用的是深度优先算法，后面会详细叙述。

3. 最佳优先搜索：这个搜索策略下，会有一个分析算法，用于分析相应链接与主题相关

程度，用于评判一个链接的好坏程度，该搜索策略下，会从队列中选取分析算法筛选

出来的有效链接开始爬取网页，每次都只爬取分析算法认为有效的链接，减少了爬取

无用网页带来的爬取速度减慢问题。算法核心在于如何设计分析算法。最佳优先搜索

策略本质上是一个局部最优算法。

3.3 爬虫常见问题以及解决办法

爬虫基本原理十分简单，但由于爬虫的辨识度太高，即爬虫的机械重复程度很高，

很容易识别出爬虫，一些网站就会对一些来历不明或者用意不明的爬虫进行识别和限制，

一旦识别出非搜索引擎爬虫，就会采用各种各样的手段限制你的动作，比如限制请求数

目，暂时封禁相应 IP 访问，暂时封禁相关帐号，暂时封禁相关网段等。

解决办法有很多，下面简单说明几个方法：

1. 构造合理的 HTTP 请求头

HTTP 的请求头是在你每次向网络服务器发送请求时，传递的一组属性和配置信息。

HTTP 定义了十几种的请求头类型，不过大多数都不常用。只有下面的 7 个字段被大多

数浏览器用来初始化所有网络请求，表 3-1 是我浏览谷歌的时候的请求头情况。

表 3-1 HTTP 请求头

属性

内容

Host

https://www.google.com

Connection

keep-alive

text/html，application/xhml+xml，application/xml;q=0.9，

image/webp，*/*;q=0.8

User-Agent

Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:59.0)

Gecko/20100101 Firefox/59.0

电子科技大学学士学位论文

Referrer

https://www.google.com

Accept-Encoding

gzip， deflate， br

Accept-Language

zh-CN ， zh;q=0.8 ， zh-TW;q=0.7 ， zh-HK;q=0.5 ， en-

US;q=0.3，en;q=0.2

虽然网站会对请求头都检查一遍，但最重要的还是 User-Agent 参数，你需要把 User-

Agent 改成不容易引起怀疑的内容才行，如果你使用了一些三方库的时候，一般都需要手

动修改 user-Agent 的值，不然很容易被检测出并查封，比如 python 的标准库 urlib 中，默

认的 user-agent 值为 Python-urllib/3.4，这很容易就被查封。

2. 设置 cookie

Cookie 是存储在用户侧的一个被加密的数据，一般 cookie 对于服务器来说，都代表

了一个用户的相关数据，即可以用来识别用户，如果你的爬虫被网站封禁了，如果网站

在你的用户侧存储了 cookie，那么有可能网站就是通过 cookie 找到了你，并封禁了你的

cookie 的相关访问。这种情况最简单的方式就是直接禁止服务器写入 cookie，防止网站

根据 cookie 而封禁访问。

但有些网站是必须有 cookie 才能访问的，因为需要保持用户的登录状态(如知乎)，

这时候我们可以保存多个 cookie，当有 cookie 被封禁的时候，我们可以切换到其他 cookie

即可。

3. 降低访问频率

一般情况下，为了提升爬虫效率，大部分情况下都会将爬虫设计成多线程，使得爬

虫在短时间内爬取到大量页面上的数据，会给服务器带来压力，因此一般网站都会有过

载保护，会阻止访问速度异常的连接，解决这种情况的最好办法就是相应降低访问速率。

4. 注意隐藏的元素

网站为了反爬虫，一些网站会在表单中故意设计一些对用户隐藏的元素。这些隐含

字段可以让字段的值对浏览器可见，但是对用户不可见，除非查看网页源代码。如果你

的爬虫无差别的把隐藏元素都爬出来了，那么就很容易被网站识别出来，只要被网站发

现，就有可能立马被封账号或者 IP，所以在提交表单一般需要先看一下元素的相关属性

再进行爬取。

5. 使用代理

由于 IP 的不可伪造性，很多网站对爬虫的封禁，都是针对 IP 的，如果你的 IP 被网

站封禁了，那么最有用的手段就是采用代理 IP 访问的方式来伪装你的请求头。代理 IP

可以在很多云服务网站中找到。

剩余58页未读，继续阅读

鸣泣的海猫

粉丝: 22
资源: 293

会员权益专享

基于机器学习的问答推荐算法设计-论文初稿1.0

评论0

会员权益专享

最新资源

基于机器学习的问答推荐算法设计-论文初稿1.0

评论0

基于机器学习的问答推荐算法设计-论文初稿1.0 1

基于机器学习的问答推荐算法设计-论文初稿0.91

基于机器学习的问答推荐算法设计-论文初稿0.51

h12-521 v1.0 机器视觉hcip题库

基于机器学习算法的分类写个论文大纲

python机器学习的推荐算法

基于传统机器学习算法估算FR-Pue站点的潜热通量

基于机器学习的景点推荐算法

写基于机器学习的图像搜索算法的论文摘要

机器学习实战：基于scikit-learn和tensorflow

基于机器学习的分析算法

机器学习算法包括哪些算法

基于机器学习的目标检测算法的前景

基于机器学习的旅游景点推荐算法

基于机器学习的wi-fi流量

基于机器学习的目标检测算法优点

python 实现推荐算法

基于机器学习的路径规划算法

推荐系统算法学习路线

基于机器学习算法降水

会员权益专享

最新资源