没有合适的资源?快使用搜索试试~ 我知道了~
首页全文检索详细设计文档.docx
全文检索详细设计文档.docx
需积分: 48 26 下载量 49 浏览量
更新于2023-03-16
评论 1
收藏 2.17MB DOCX 举报
基于elasticSearch做的全文检索,这是详细设计文档。包括结构化数据的检索,非结构化数据(文档类,如word,pdf等)检索。结构化数据,基于logstash导入。非结构化(文档),可以通过接口,本地扫描/远程扫描进入ES。
资源详情
资源评论
资源推荐
全文检索详细设计文档
版本号 编辑人 编辑内容 编辑日期
王振军
1. 实现技术
采用 Elasticsearch6.8+ 来实现。
全文检索功能的实现基于 Elasticsearch,目前已有
ELK(、、)的环境,Elasticsearch 的版本号为
6.8.0。
目前的开发框架为 spring4.3.8,所以会涉及到 spring 和 Elasticsearch 的集成。
在数据的处理上,会涉及到结构化数据、半结构化数据、非结构化数据。
结构化数据的存储会存在关系型数据库如 Oracle 中,然后基于 Elasticsearch 来实现这
部分数据的检索功能。
半结构化数据可以存储在如 中,然后也基于 Elasticsearch 来实现检索功能,也
可以直接存储在 Elasticsearch 中,并用 Elasticsearch 来实现检索功能,也可以直接存
储在 Elasticsearch 中。
非结构化数据的处理,如 word 文档、pdf 文档、csv、Excel 等,需要借助
Elasticsearch 的插件或 的插件来实现全文检索。
本文档将分为 ( 版本)与 Elasticsearch(6.8.0)的集成,数据的处理等
几个部分。
2. 整体架构
3. Elasticsearch 环境
目前已有 集群环境,版本为 。
3.1. 高可用
避免单点,搭建至少两台 服务器组成集群环境,在服务器端出现故障时可以做到主
从切换,具备高可用性。
3.2. 可扩展
集群本身支持扩展,扩展节点时,副本数也应该相应调整,调整规则见第 节中的
副本规划。
4. 分词器规划
对日志进行检索,如果是纯英文日志,用默认分词器即可。
默认对中文分词是一个一个字来解析,这种情况会导致解析过于复杂,效率低下。
对业务数据、文档进行检索,目前基本上都是中文,所以需要中文分词器。中文分词
器的选择,用 ! 分词器。
对于中英文混合的数据、文档进行检索时,需要对 ! 分词器进行改造:
"#$$%#&
"""#$ $%#&
"""""#$ !$%#&
"""""""#$'!$%#&
"""""""""#$ $%#$('$)
"""""""""#$*!$%#$*$)
"""""""""#$+$%#,
"""""""""""#$''$
"""""""""#-
"""""""#.
"""""#.
"""#.
"#.
.
! 作为中文分词器,它在处理文档过程中遇到英文时,利用空格和标点将英
文单词取出来,同时也会对其转全小写处理。其实这和真正的英文分词已经很接近了,
只有一墙之隔:词干提取。一个真正的英文分词器除了分割提取单词和全小写处理以
外,还会把单词回溯成词根。
使用 * 作为分词器,使用 '' 作为过滤器。'' 是 自带
的一个提取词干的算法。它将在 * 对文档完成分词之后,将其中的英文单词做提取词
干处理。
剩余43页未读,继续阅读
chuixue24
- 粉丝: 287
- 资源: 4
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- stc12c5a60s2 例程
- Android通过全局变量传递数据
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0