用python做一个搜索引擎(Pylucene)的实例代码 - CSDN文库

3 浏览量更新于2023-03-03 5 收藏 136KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

资源详情

资源推荐

用用python做一个搜索引擎做一个搜索引擎(Pylucene)的实例代码的实例代码

1.什么是搜索引擎？什么是搜索引擎？

搜索引擎是“对网络信息资源进行搜集整理并提供信息查询服务的系统，包括信息搜集、信息整理和用户查询三部分”。如图1

是搜索引擎的一般结构，信息搜集模块从网络采集信息到网络信息库之中（一般使用爬虫）；然后信息整理模块对采集的信息

进行分词、去停用词、赋权重等操作后建立索引表（一般是倒排索引）构成索引库；最后用户查询模块就可以识别用户的检索

需求并提供检索服务啦。

图1 搜索引擎的一般结构

2. 使用使用python实现一个简单搜索引擎实现一个简单搜索引擎

2.1 问题分析问题分析

从图1看，一个完整的搜索引擎架构从互联网搜集信息开始，可以使用python编写一个爬虫，这是python的强项。

接着，信息处理模块。分词？停用词？倒排表？what？什么乱七八糟的？不用管它，我们有前辈们造好的轮子—

Pylucene(lucene的python封装版本，Lucene能够帮助开发者为软件、系统增添检索功能。Lucene是一套用于全文检索和搜寻

的开源程序库)。使用Pylucene可以简单的帮助我们完成对采集到的信息进行处理，包括索引的建立和搜索。

最后，为了能在网页上使用我们的搜索引擎，我们使用flask这个轻量级 Web 应用框架做一个小网页获取搜索语句并反馈搜索

结果。

2.2 爬虫设计爬虫设计

主要搜集以下内容：目标网页的标题、目标网页的主要文字内容、目标网页指向其他页面的URL地址。网络爬虫的工作流程如

图2所。爬虫的主要数据结构是队列。首先，起始的种子节点进入队列，然后从队列中取出一个节点访问，抓取该节点页面上

的目标信息，再将该节点页面指向其他页面的URL链接放进队列，再从队列中取出新的节点进行访问，直至队列为空。通过队

列“先进先出”的特点实现广度优先的遍历算法，逐个访问站点的每一页面。

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38609089

粉丝: 5
资源: 925

会员权益专享

图片转文字

全年可省5，000元立即开通

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈