没有合适的资源?快使用搜索试试~ 我知道了~
首页搜索引擎高级体系结构设计文档
目录 一.综述 4 二.关注点 5 2.1 功能需求 5 2.2 质量需求 6 2.3 约束 8 三.体系结构需求定义 8 3.1 体系结构需求描述及体系结构约束 8 3.2 用例视图 20 3.3非功能需求的可验证性场景描述 21 四.初始体系结构 29 4.2 初始体系结构 30 4.3 初始体系结构——逻辑视图 32 4.4 初始体系结构——开发视图 32 4.5 初始体系结构——进程视图 37 4.6 初始体系结构——部署视图 38 五.设计决策 40 5.1 决策列表 40 六.最终的高层结构 45 6.1 逻辑视图 45 6.2 开发视图 58 6.3 进程视图 108 6.4 部署视图 110 七.风格 112 7.1 层次式风格 112 7.1.1 相关功能 112 7.1.2 所考虑的质量要求和决策依据 112 7.1.3 所影响的模型视图部分 112 7. 2管道/过滤器风格 112 7.2.1 相关功能 112 7.2.2 所考虑的质量要求和决策依据 113 7.2.3 所影响的模型视图部分 113 7.3 存储库风格 113 7.3.1 相关功能 113 7.3.2 所考虑的质量要求和决策依据 113 7.3.3 所影响的模型视图部分 113 7.4 隐式调用风格 114 7.4.1 相关功能 114 7.4.2 所考虑的质量要求和决策依据 114 7.4.3 所影响的模型视图部分 115 7.5面向对象风格 115 7.5.1 相关功能 115 7.5.2 所考虑的质量要求和决策依据 115 7.5.3 所影响的模型视图部分 116
资源详情
资源评论
资源推荐

搜索引擎初始体系结构设计
目录
一.综述....................................................................................................................................................3
二.关注点................................................................................................................................................4
2.1 功能需求.....................................................................................................................................4
2.2 质量需求.....................................................................................................................................5
2.3 约束.............................................................................................................................................5
三.体系结构需求定义............................................................................................................................6
3.1 体系结构需求描述及体系结构约束.........................................................................................6
3.2 用例视图...................................................................................................................................14
3.3 非功能需求的可验证性场景描述...........................................................................................14
四.初始体系结构..................................................................................................................................20
4.2 初始体系结构...........................................................................................................................21
4.3 初始体系结构——逻辑视图...................................................................................................22
4.4 初始体系结构——开发视图...................................................................................................23
4.5 初始体系结构——进程视图...................................................................................................27
4.6 初始体系结构——部署视图...................................................................................................28
五.设计决策..........................................................................................................................................30
5.1 决策列表...................................................................................................................................30
六.最终的高层结构..............................................................................................................................34
6.1 逻辑视图...................................................................................................................................34
6.2 开发视图...................................................................................................................................43
6.3 进程视图...................................................................................................................................78
页 1

搜索引擎初始体系结构设计
6.4 部署视图...................................................................................................................................80
七.风格..................................................................................................................................................82
7.1 层次式风格...............................................................................................................................82
7.1.1 相关功能........................................................................................................................82
7.1.2 所考虑的质量要求和决策依据....................................................................................82
7.1.3 所影响的模型视图部分................................................................................................82
7. 2 管道/过滤器风格.....................................................................................................................82
7.2.1 相关功能........................................................................................................................82
7.2.2 所考虑的质量要求和决策依据....................................................................................82
7.2.3 所影响的模型视图部分................................................................................................82
7.3 存储库风格...............................................................................................................................83
7.3.1 相关功能........................................................................................................................83
7.3.2 所考虑的质量要求和决策依据....................................................................................83
7.3.3 所影响的模型视图部分................................................................................................83
7.4 隐式调用风格...........................................................................................................................83
7.4.1 相关功能........................................................................................................................83
7.4.2 所考虑的质量要求和决策依据....................................................................................83
7.4.3 所影响的模型视图部分................................................................................................84
7.5 面向对象风格...........................................................................................................................84
7.5.1 相关功能........................................................................................................................84
7.5.2 所考虑的质量要求和决策依据....................................................................................84
7.5.3 所影响的模型视图部分................................................................................................84
页 2

搜索引擎初始体系结构设计
一.综述
本文档描述了搜索引擎系统的体系结构设计。设计思路如下:
本文档的余下部分将从关注点、体系结构需求定义、初始体系结构、设计决策、最终的高层结
构、风格六个方面进行描述。
页 3

搜索引擎初始体系结构设计
二.关注点
实现一个搜索引擎。
2.1 功能需求
编号 名称 描述
1
网页扒取 实现对网页的采集工作。开始时,程序由某一组特定的网页开
始,抽取页面中的链接,同时将访问过的网页存储,如此反复进
行,以获取足够的网页。在采集文档的同时, 记录各文档的地址信
息、修改时间、文档长度等状态信息,用于站点资源的监视和资
料库的更新。在采集过程中,还可以构造适当的启发策略,来指
导机器人的路径选择和采集范围,以减少文档采集的盲目性。
2
内容处理 对收集到的内容进行处理,提取特征元素。特征元素包括:标
题、正文内容、链入/链出等。
3
全文索引 为收集到的内容建立索引以便于检索。
4
快速检索 要求根据用户提供的检索条件实现快速的匹配。首先分析用户检
索时给出的提问式,再访问搜索引擎已经建立的索引,并通过一
定的匹配算法,获得相应的检索结果。
5
排序 由于网络上信息数量非常庞大, 可能会产生一个相当大的结果集,
那么如何精简结果以及如何将最重要的结果首先返回给用户就显
得十分重要。最常用的方法是将结果按相关度进行排序, 把引擎认
为最相关的结果放在最前面。
6
用户接口 为用户提供适当的交互界面,要能够对用户输入词汇进行解析
(例如,去除高频无关词汇,识别查询目的等)。
页 4

搜索引擎初始体系结构设计
2.2 质量需求
编号 类别 名称 内容
1
性能属性 及时网页扒取 每隔三天要对所包含的网页库更新一次,即保证存储库中网
页的有效期在三天以内,同时对于不同的网站保证不同的刷
新率,若对于比较重要的新闻或者门户网站,应当将刷新频
率保证在 1 小时内。
2
性能属性 及时的系统反应能力 每次搜索产生的系统的反应时间≤10s。
3
性能属性 大量数据爬取能力 保证大量数据的爬取能力,应当能够保证多机器同时并发进
行,机器的数量≥3。
4
性能属性 存储大容量数据能力 能够分布式使用多台机器的存储设备,并具有可扩展性,能
够在 2 小时内添加新的数据存储设备以扩充存储容量
5
可靠性 快速发现故障 能够在 1 分钟内发现各服务器及进程的故障
6
可靠性 数据的容灾能力 如果发生故障,尤其是存储库发生故障,实验要求在 4 小时
内能够恢复工作。
7
可用性 符合商业目标 要求系统实现竞价策略,即可按照加权的方式对某些搜索结
果的先后顺序进行调整。
8
易用性 模糊查询功能 在进行查询过程中,能够实现模糊查询的能力,能够返回查
询内容的相关结果(例如查询“南京大学”,能够返回“南大”的
信息)。
9
安全性 词汇法律规范 实验中要求进行候选敏感词过滤,且敏感词随时可以调整。
10
安全性 安全措施 系统要有安全措施,储存的内容应该加密,但无需采用过度
复杂的加密法,只需简单的加密方法即可。
11
可修改性 根据变更的需求进行改
变
可能的变更点包括:爬取算法;对爬取网页的解析规则;加
密算法;检索匹配算法;排序算法;摘要提取算法;用户输
入词汇解析算法。
2.3 约束
页 5
剩余63页未读,继续阅读


















安全验证
文档复制为VIP权益,开通VIP直接复制

评论8