模糊查找算法的创新设计与实现

需积分: 0 145 浏览量更新于2024-08-05 收藏 325KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

"这篇文章主要介绍了如何设计和实现一种基于模糊相似度的模糊查找算法，它扩展了传统的字符串匹配方法，适用于情报检索中的模糊查询需求。文章提出了模糊相似度、分词和模糊比较级别的概念，并利用KMP算法进行改进，实现了Fuzzysearch()函数，以分级别的模糊查找功能。" 在信息技术领域，模糊查找算法是一种非常实用的技术，特别是在信息检索系统中，当用户对查询条件表达不精确或存在拼写错误时。本文提出的模糊查找算法关注的是在字符串比较时的相似度，而不仅仅是精确匹配。它引入了一个名为“模糊相似度”的概念，这是通过计算用户查询关键字与数据库字段中相同字符的比例来定义的，比例扩大10倍并取整以适应用户界面的精度设置。分词是另一个关键点，指的是将用户输入的整个句子分解成具有实际意义的词汇。这个过程涉及到分词算法，通常用于处理自然语言，如汉语，因为汉语的词汇没有明显的边界。在本文中，分词是实现模糊查找的前提，因为它将用户查询转化为单个可比较的词汇单元。模糊比较级别则是用户在查询时对查询精度的设定。用户可以根据需要设置不同的模糊级别，算法会根据这个级别筛选出匹配程度更高的结果。这种方法允许用户在不完全记住确切信息的情况下，也能找到相关的结果，增加了检索的灵活性和准确性。为了实现这种模糊查找，作者基于经典的KMP（Knuth-Morris-Pratt）算法进行了改进。KMP算法本身用于高效地进行字符串匹配，避免了不必要的回溯。在模糊查找的背景下，KMP算法被扩展以考虑字符的相似度，而不是简单的存在性。 Fuzzysearch()函数是这种改进的体现，它负责执行基于模糊相似度的匹配。这个函数在模糊比较级别上工作，对每个查询词与数据库中的字段进行比较，返回那些达到用户设定模糊级别的匹配项。这种方法提高了检索效率，同时也保证了检索结果的相关性。总结来说，这篇论文提供了一种创新的模糊查找策略，它结合了分词、模糊相似度和KMP算法的改良，以满足情报检索中对模糊查询的需求。这种实现不仅增强了系统的用户友好性，还提高了在面对不精确查询时的信息检索能力。

资源详情

资源推荐

第

卷第

期

!$%$

年

月

&’( ) !" * +’ ) ,

-./0*!$%$

在情报系统中对信息的检索通常是利用把信息

转换成字符串的方式来进行! 但是在实际应用中往

往对需要获得的信息的具体查询条件不够明确!因

而模糊查找就显得特别重要" 现有的模糊查找基本

上仅是对字符串进行截断匹配! 但实际情报检索中

对模糊查找的信息并不局限于截断匹配"例如!输入

查找信息时!经常会受汉语同音字的影响!误将#情

报科学$!输入为#情抱科学$%由此可见!模糊查找实

现的意义极为重大

! 并且在这个领域里的研究基本

上还没开始" 本文创造性地设计一种分词算法并基

于

123

算法改进出几个函数实现一种按模糊相似

度进行模糊查找的算法! 其主要原理是通过用户设

定模糊比较级别来对字符串的模糊匹配进行数据筛

选!从而获得用户所需信息"

设计实现的原理及相关定义的提出

1.1

相关概念

⑴

模糊相似度& 本文将用户查询关键字与数据

库相应字段按照字符进行比较! 相同字符所占比例

称为查询字段的模糊相似度! 实际应用时本文将模

糊相似度扩大

倍后取整’这样做的目的是方便用

户接口处精度的设置(%

⑵

分词& 将用户输入的一个完整句子按照词典

有实体意义的词进行拆分的过程称之为分词! 实现

这一过程所用的方法称之为分词算法%

⑶

模糊比较级别& 把用户查询过程中对查询精

情报科学

收稿日期!

2009-11-30

作者简介!郑志宏"

1959-

#$女$吉林省吉林市人$副教授$主要从事应用数学方面研究

;

郑志高%

1988-

&$男$湖北麻城人$主

要从事计算机软件与网络’人工智能方面研究

;

王玉婷"

1989-

女$湖北麻城人$主要从事政府经济学’公共行

政’新主义制度方向

模糊查找算法的设计实现

郑志宏

$郑志高

$王玉婷

’

吉林化工学院理学院)吉林吉林

%45$55

)

中南财经政法大学工商管理学院)湖北武汉

64$$$$

(

摘要：根据

KMP

算法的设计理念和基本模式$提出了分词’模糊相似度的概念和一个模糊匹配

的函数

Fuzzysearch()

( 根据该算法按照模糊相似度的匹配实现分级别的模糊查找)

关键词：模糊查找*模糊相似度*分词*

KMP

算法

中图分类号&

734%8)6

文献标识码&

文章编号&

%$$8:8,46

’

5$%$

(

$,:$;%<:$6

!"#$%& ’&( )*+,"*"&-.-$/& /0 12334 5".678 9,%/6$-8*

ZHENG Zhi-hong

, ZHENG Zhi-gao

, WANG Yu-ting

’

%. School of Science,Jilin Institute of Chemical Technology

Jilin %45$55

China

)

5)School of

Business Administration,Zhongnan University of Economics and Law

Wuhan 64$$$$

China)

9:#-6.7-

9==’>?@/A B’ BC0 ?0D@A/ =’/=0EBD F/? BC0 GFD@= H’?0( ’I BC0 123 F(A’>@BCH* BC@D EFE0>

E>0D0/B0? BC0 =’/=0EB ’I BC0 D.G :J’>? H0BC’? F/? BC0 I.KKL D@H@(F>@BL* BC0/* J0 ?0D@A/0? F I.KKL

HFB=C@/A I./=B@’/ /FH0? M.KKLD0F>=C NO) 9==’>?@/A B’ BC0 I.KKL D@H@(F>@BL F/? BC0 HFB=C@/A F(A’>@BCH

J0 ?0D@A/0? BC0 I./=B@’/ JC@=C F=C@0P0? BC0 D.G:(0P0( ’I I.KKL D0F>=C@/A)

;"4</6(#

I.KKL D0F>=C QI.KKL D@H@(F>@BL

)

D.G:J’>?Q 123 F(A’>@BCH

情报科学

下载后可阅读完整内容，剩余4页未读，立即下载

乖巧是我姓名

粉丝: 33
资源: 343

模糊查找算法的创新设计与实现

android客户端实现模糊查找

易语言源码易语言模糊查找窗口源码.rar

c语言实现单链表模糊查找的算法设计

学生信息管理系统概要设计关键算法

无分隔符字典的算法设计

1、设计一个通讯录容器保存读者信息。其中应该实现一般通讯录中的基本信息（新增、删除），也需要实现不同的检索功能（姓名、电话等）。

ElasticSearch设计文档

design FTS

电赛控制类saiti

南京工业大学在辽宁2020-2024各专业最低录取分数及位次表.pdf

下单系统的Spnigboot和微信小程序实现（全栈微信小程式下单）.zip

基于Java开发的智能文件管家设计源码

基于YoloV8的简单目标检测和跟踪，使用KMNET进行鼠标移动（处理多目标移动抖动，处理鼠标平滑移动）.zip

基于Vue和JavaScript的心旅途个性化推荐旅游平台设计源码

基于Python的AutoLine自动化测试开源平台设计源码

微信小程序图像裁剪工具_ e-cropper.zip

基于MATLAB的答题卡识别系统 带一个GUI可视化界面，通过输入答题卡旋转校正，边缘检测，霍夫曼变换检测答题卡填涂区域

最新资源

基于MATLAB的答题卡识别系统带一个GUI可视化界面，通过输入答题卡旋转校正，边缘检测，霍夫曼变换检测答题卡填涂区域