"基于机器学习的问答推荐算法设计与实现 - 论文初稿0.9 - 副本1"

需积分: 0 79 浏览量更新于2024-01-12 收藏 814KB DOCX 举报

基于机器学习的问答推荐算法设计-论文初稿0.9 - 副本1 摘要本文的研究基于搜索引擎的四大过程，通过使用爬虫程序从知乎网上爬取问题和答案信息，并对数据进行预处理，建立相关的搜索引擎索引。与传统的人工拟合排序公式不同，我们使用LTR（Learning to Rank）思想作为搜索结果排序的指导思想。我们训练了一个LambdaMART模型用于结果排序，并成功构建了一个可视化问答搜索系统。通过这个系统，我们解决了传统搜索引擎在网页排序中需要考虑越来越多因素的问题，无法继续使用人工拟合的方式计算相关度的问题。关键词：机器学习、LTR、问题答案推荐、LambdaMART、文本处理、关键词提取、爬虫、搜索引擎、索引摘要本文的研究基于搜索引擎的四大过程，首先通过爬虫程序从知乎网爬取问题和答案信息。接下来，我们对爬取的数据进行预处理，包括数据清洗、去重和标准化等步骤，使得数据更利于后续的处理和分析。然后，我们建立了相关的搜索引擎索引，以便于有效地检索问题和答案。与传统的人工拟合排序公式不同，本文选用了LTR（Learning to Rank）思想作为搜索结果排序的指导思想。LTR是一种基于机器学习的排序方法，通过训练模型来自动学习排序的规则和权重。我们使用了LambdaMART算法来训练排序模型。LambdaMART是一种常用的LTR算法，它在强化学习的理论基础上，通过训练一系列决策树模型来得到最终的排序模型。为了实现问题答案的推荐，我们首先对问题和答案的文本进行处理，包括分词、去除停用词和词干提取等步骤，以便于机器学习算法的输入。然后，我们使用关键词提取的方法来提取问题和答案的关键信息，以便于更准确地匹配用户的搜索意图。在训练LambdaMART模型时，我们采用了问题和答案的文本特征作为输入，以及问题和答案的相关性作为输出。通过大量的训练数据和迭代优化，我们得到了一个高效且准确的排序模型。最后，我们实现了一个可视化问答搜索系统，用户可以通过界面输入问题，系统会根据用户的输入和学习到的排序模型，快速给出相关的问题和答案。通过实验评估，我们发现与传统的基于人工拟合排序公式的方法相比，采用LTR思想的算法在问题答案的推荐上有着更好的性能。综上所述，本文设计了一种基于机器学习的问答推荐算法。该算法通过爬虫程序获取问题和答案信息，并进行数据预处理和搜索引擎索引建立。采用LTR思想作为排序的指导思想，并训练了LambdaMART模型用于结果排序。通过实现一个可视化问答搜索系统，我们解决了传统搜索引擎无法考虑多种因素的问题，提高了问题答案的相关性计算的准确性和效率。关键词：机器学习、LTR、问题答案推荐、LambdaMART、文本处理、关键词提取、爬虫、搜索引擎、索引

电子科技大学学士学位论文

第三章爬虫基础

3.1 爬虫基本原理

互联网上的信息储存在成千上万的服务器之中，早期，人们在做搜索引擎的时候，

网站的信息都是通过人工录入的，但随着互联网的发展，这些人工录入的数据的量，早

已不能满足人们，于是便有了爬虫的诞生，爬虫诞生之初是为了搜索引擎所服务的，而

不是现在大家常见的盗取他人网站等不良用途。

爬虫是一个自动提取网页信息的程序，它为搜索引擎提供搜索数据的来源，是搜索

引擎的重要组成部分。传统意义上的爬虫，是由一个或者若干的起始网页开始，按照一

定规则，不断从当前的链接中过滤筛选出所需要的链接放入爬取队列，再根据一定的规

则，选择队列中的链接继续爬取，直到队列为空，从而爬取到海量的数据，为搜索引擎

提供的数据保证。爬虫一般运行流程图如图 3-1 所示：

图 3-1 爬虫一般运行流程图

3.2 爬虫搜索策略分类

搜索策略，即选取什么样的网页爬取的策略。根据爬虫在爬取数据过程中采取的搜

索策略不同，一般分为以下三种策略：

1. 广度优先搜索：广度优先搜索，和其他广度优先的算法一样，优先保证算法广度，即

在爬取过程中，先将当前层次的所有网页都爬取完毕，再进行下一层次的网页内容爬

爬虫程序启动,初始化完

成,初始URL加入队列

从队列中选择一个URL

爬虫运行完毕

下载网页

网页中有无其他URL

(经过算法筛选)

将网页中指向的其他

URL(经过算法筛选)加入

队列

当前URL处理完毕

队列为空

队列不空有

无

爬虫基础

取。这个算法的核心思想是，认为越靠近初始网页的网页，相关程度越高，所以根据

广度优先算法获取到的网页，整体上相关程度会高一些，但实则随着网页层次的深入，

大量的不相关网页也会被爬取，降低爬取速度。

2. 深度优先搜索：深度优先搜索，和其他深度优先算法一样，优先保证算法深度，即在

爬取过程中，先从初始页面，获取到一个链接后，直接爬取该链接内容，继续再从这

个链接获取下一个链接，这样处理完一条路线后，再次处理下一条路线。这个算法也

并不复杂，但是由于深度优先算法，优先爬取离初始页面远的页面，这样爬取到的页

面相关程度很低，价值不高，一般很少采用。但由于知乎网问答页面组织方式的特殊

性，本系统的爬虫采用的是深度优先算法，后面会详细叙述。

3. 最佳优先搜索：这个搜索策略下，会有一个分析算法，用于分析相应链接与主题相关

程度，用于评判一个链接的好坏程度，该搜索策略下，会从队列中选取分析算法筛选

出来的有效链接开始爬取网页，每次都只爬取分析算法认为有效的链接，减少了爬取

无用网页带来的爬取速度减慢问题。算法核心在于如何设计分析算法。最佳优先搜索

策略本质上是一个局部最优算法。

3.3 爬虫常见问题以及解决办法

爬虫基本原理十分简单，但由于爬虫的辨识度太高，即爬虫的机械重复程度很高，

很容易识别出爬虫，一些网站就会对一些来历不明或者用意不明的爬虫进行识别和限制，

一旦识别出非搜索引擎爬虫，就会采用各种各样的手段限制你的动作，比如限制请求数

目，暂时封禁相应 IP 访问，暂时封禁相关帐号，暂时封禁相关网段等。

解决办法有很多，下面简单说明几个方法：

1. 构造合理的 HTTP 请求头

HTTP 的请求头是在你每次向网络服务器发送请求时，传递的一组属性和配置信息。

HTTP 定义了十几种的请求头类型，不过大多数都不常用。只有下面的 7 个字段被大多

数浏览器用来初始化所有网络请求，表 3-1 是我浏览谷歌的时候的请求头情况。

表 3-1 HTTP 请求头

属性

内容

Host

https://www.google.com

Connection

keep-alive

text/html，application/xhml+xml，application/xml;q=0.9，

image/webp，*/*;q=0.8

User-Agent

Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:59.0)

Gecko/20100101 Firefox/59.0

电子科技大学学士学位论文

Referrer

https://www.google.com

Accept-Encoding

gzip， deflate， br

Accept-Language

zh-CN ， zh;q=0.8 ， zh-TW;q=0.7 ， zh-HK;q=0.5 ， en-

US;q=0.3，en;q=0.2

虽然网站会对请求头都检查一遍，但最重要的还是 User-Agent 参数，你需要把 User-

Agent 改成不容易引起怀疑的内容才行，如果你使用了一些三方库的时候，一般都需要手

动修改 user-Agent 的值，不然很容易被检测出并查封，比如 python 的标准库 urlib 中，默

认的 user-agent 值为 Python-urllib/3.4，这很容易就被查封。

2. 设置 cookie

Cookie 是存储在用户侧的一个被加密的数据，一般 cookie 对于服务器来说，都代表

了一个用户的相关数据，即可以用来识别用户，如果你的爬虫被网站封禁了，如果网站

在你的用户侧存储了 cookie，那么有可能网站就是通过 cookie 找到了你，并封禁了你的

cookie 的相关访问。这种情况最简单的方式就是直接禁止服务器写入 cookie，防止网站

根据 cookie 而封禁访问。

但有些网站是必须有 cookie 才能访问的，因为需要保持用户的登录状态(如知乎)，

这时候我们可以保存多个 cookie，当有 cookie 被封禁的时候，我们可以切换到其他 cookie

即可。

3. 降低访问频率

一般情况下，为了提升爬虫效率，大部分情况下都会将爬虫设计成多线程，使得爬

虫在短时间内爬取到大量页面上的数据，会给服务器带来压力，因此一般网站都会有过

载保护，会阻止访问速度异常的连接，解决这种情况的最好办法就是相应降低访问速率。

4. 注意隐藏的元素

网站为了反爬虫，一些网站会在表单中故意设计一些对用户隐藏的元素。这些隐含

字段可以让字段的值对浏览器可见，但是对用户不可见，除非查看网页源代码。如果你

的爬虫无差别的把隐藏元素都爬出来了，那么就很容易被网站识别出来，只要被网站发

现，就有可能立马被封账号或者 IP，所以在提交表单一般需要先看一下元素的相关属性

再进行爬取。

5. 使用代理

由于 IP 的不可伪造性，很多网站对爬虫的封禁，都是针对 IP 的，如果你的 IP 被网

站封禁了，那么最有用的手段就是采用代理 IP 访问的方式来伪装你的请求头。代理 IP

可以在很多云服务网站中找到。

剩余58页未读，继续阅读

ali-12

粉丝: 31
资源: 328

"基于机器学习的问答推荐算法设计与实现 - 论文初稿0.9 - 副本1"

基于机器学习的问答推荐算法设计-论文初稿0.91

基于机器学习的问答推荐算法设计-论文初稿0.81

基于机器学习的问答推荐算法设计-论文初稿1.0DEV 1

基于机器学习算法的分类写个论文大纲

python机器学习的推荐算法

基于传统机器学习算法估算FR-Pue站点的潜热通量

基于机器学习的景点推荐算法

机器学习实战：基于scikit-learn和tensorflow

写基于机器学习的图像搜索算法的论文摘要

基于机器学习的分析算法

最新资源