中文信息检索的模糊匹配算法优化与应用

需积分: 44 5 浏览量更新于2024-09-11 收藏 303KB PDF 举报

"该文主要探讨了中文信息检索系统中模糊匹配算法的研究与实现，针对用户输入和数据库条目存在的局部偏差问题，提出了一种改进的过滤算法，以解决同音字/近音字混用的现象，提高了检索系统的召回率，并在实际应用中实现了接近‘子线性’的效率。" 在现代信息检索系统中，尤其是中文环境，用户的查询往往存在拼写错误、同音字或近音字等问题，这给基于关键词精确匹配的检索技术带来了挑战。传统的检索方法可能无法有效地找出与用户输入相关的数据库条目，导致检索结果的不准确。为了解决这一问题，该研究借鉴并改进了Tarhio和Ukkonen的过滤算法，将其应用于中文信息检索的模糊匹配场景。该文提出的算法主要针对汉字拼音输入法中常见的同音字和近音字混淆现象。在中文环境中，一个汉字可能有多个读音，而不同的读音可能对应多个汉字，这使得同音词和近音词的出现频率较高。通过扩展到广义的Edit Distance（编辑距离）理论，该算法能够计算两个字符串之间的相似度，允许一定的字符插入、删除和替换，以适应同音字和近音字的情况。编辑距离算法是一种衡量字符串相似性的方法，它计算了将一个字符串转换为另一个字符串所需的最少单字符操作次数。在此基础上，论文提出的改进算法通过优化过滤策略，减少了不必要的计算，从而提高了检索效率。实验结果显示，这种改进的模糊匹配算法显著提高了中文信息检索系统的召回率，即能够找到更多与用户查询相关的条目，同时在实际应用中，算法的运行时间接近“子线性”，意味着对于大规模数据集，其性能表现良好。此外，论文还讨论了如何结合动态规划来优化算法的执行过程，确保在处理大量数据时仍能保持高效。动态规划是一种在计算机科学中用于解决最优化问题的策略，它可以避免重复计算，通过存储中间结果来减少计算量。关键词涉及的技术点包括计算机应用、中文信息处理、模糊匹配、过滤算法和动态规划。这些概念共同构成了提高中文信息检索系统性能的核心要素。这项工作对于提升用户查询体验，增强信息检索系统的鲁棒性和实用性具有重要意义，对于中文信息检索领域的研究和开发具有重要参考价值。

第２ｌ卷第６期　

２００７年１１月　

中文信息学报　

ＪＯＵＲＮＡＬ　ＯＦ　ＣＨＩＮＥＳＥ　ＩＮＦＯＲＭＡＴＩＯＮ　ＰＲＯＣＥＳＳＩＮＧ　

Ｖｏ１．２ｌ，Ｎｏ．６　

ＮＯＶ．，２００７　

文章编号：１００３—００７７（２００７）０６—００５９－０６　

中文信息检索系统的模糊匹配算法研究和实现　

王静帆，邬晓钧，夏云庆，郑方　

（清华大学计算机系清华信息科学与技术国家实验室　

技术创新和开发部语音和语言技术中心，北京１０００８４）　

摘要：在现代中文信息检索系统中，用户输入的字符串和实际数据库中的条目往往存在局部偏差，而基于关键词　

匹配的检索技术不能很好地解决这一问题。本文参考并改进了Ｔａｒｈｉｏ和Ｕｋｋｏｎｅｎ提出的过滤算法　］，针对汉字　

拼音输入法中常出现的同音字／近音字混用现象，将算法进一步扩展到广义的Ｅｄｉｔ　Ｄｉｓｔａｎｃｅ上。实验表明，本文提　

出的算法能有效提高中文信息检索系统的召回率，在实际应用中可达到“子线性”的效率。　

关键词：计算机应用；中文信息处理；模糊匹配；过滤算法；动态规划　

中图分类号：ＴＰ３９ｌ　文献标识码：Ａ　

Ａｎ　Ａｐｐｒｏｘｉｍａｔｅ　Ｓｔｒｉｎｇ　Ｍａｔｃｈｉｎｇ　Ａｌｇｏｒｉｔｈｍ　ｆｏｒ　Ｃｈｉｎｅｓｅ　Ｉｎｆｏｒｍａｔｉｏｎ　Ｒｅｔｒｉｅｖａｌ　Ｓｙｓｔｅｍｓ　

ＷＡＮＧ　Ｊｉｎｇ～ｆａｎ，ＷＵ　Ｘｉａｏ—ｊ　ｕｎ，ＸＩＡ　Ｙｕｎ—ｑｉｎｇ，ＺＨＥＮＧ　Ｆａｎｇ　

（Ｄｅｐｔ．ｏｆ　Ｃｏｍｐｕｔｅｒ　Ｓｃｉ．＆Ｔｅｃｈ．Ｔｓｉｎｇｈｕａ　Ｕｎｉｖｅｒｓｉｔｙ，　

Ｃｅｎｔｅｒ　ｆｏｒ　Ｓｐｅｅｃｈ　ａｎｄ　Ｌａｎｇｕａｇｅ　Ｔｅｃｈｎｏｌｏｇｉｅｓ，Ｄｉｖｉｓｉｏｎ　ｏｆ　Ｔｅｃｈｎｉｃａｌ　Ｉｎｎｏｖａｔｉｏｎ　ａｎｄ　Ｄｅｖｅｌｏｐｍｅｎｔ，　

Ｔｓｉｎｇｈｕａ　Ｎａｔｉｏｎａｌ　Ｌａｂｏｒａｔｏｒｙ　ｆｏｒ　Ｉｎｆｏｒｍａｔｉｏｎ　Ｓｃｉｅｎｃｅ　ａｎｄ　Ｔｅｃｈｎｏｌｏｇｙ，Ｂｅｉｊｉｎｇ　１０００８４，Ｃｈｉｎａ）　

Ａｂｓｔｒａｃｔ：Ｉｎ　ｔｈｅ　ｍｏｄｅｒｎ　Ｃｈｉｎｅｓｅ　ｉｎｆｏｒｍａｔｉｏｎ　ｒｅｔｒｉｅｖａｌ　ｓｙｓｔｅｍｓ，ｃｌａｓｓｉｃａｌ　ｋｅｙｗｏｒｄ　ｂａｓｅｄ　ｓｔｒｉｎｇ　ｍａｔｃｈｉｎｇ　ｃａｎ　ｎｏｔ　

ｗｏｒｋ　ｗｈｅｎ　ｔｈｅ　ｉｎｐｕｔ　ｓｔｒｉｎｇ　ｉｓ　ｄｉｆｆｅｒｅｎｔ　ｆｒｏｍ　ｔｈｅ　ｅｎｔｒｉｅｓ　ｉｎ　ｔｈｅ　ｄａｔａｂａｓｅ．Ｔｈｉｓ　ｐａｐｅｒ　ｐｒｏｐｏｓｅｄ　ａ　ｍｅｔｈｏｄ　ｂａｓｅｄ　ｏｎ　

Ｔａｒｈｉｏ　ａｎｄ　Ｕｋｋｏｎｅｎ’Ｓ　ｆｉｌｔｅｒｉｎｇ　ａｌｇｏｒｉｔｈｍ　ｔＯ　ｓｏｌｖｅ　ｔｈｅ　ｐｒｏｂｌｅｍ．Ｂｅｃａｕｓｅ　ｔｈｅ　Ｃｈｉｎｅｓｅ　Ｐｉｎｙｉｎ　ｔｙｐｅｗｒｉｔｉｎｇ　ｕｓｕａｌｌｙ　ｃｏｎ—　

ｓｉｓｔｓ　Ｃｈｉｎｅｓｅ　ｃｈａｒａｃｔｅｒｓ　ｗｉｔｈ　ｔｈｅ　ｓａｍｅ　ｏｒ　ｓｉｍｉｌａｒ　ｐｒｏｎｕｎｃｉａｔｉｏｎｓ，ｗｅ　ｄｅｆｉｎｅｄ　ａ　ｓｐｅｃｉａｌ　Ｅｄｌｔ　Ｄｉｓｔａｎｃｅ　ａｎｄ　ｅｘｐｅｎｄｅｄ　

ｏｕｒ　ｍｅｔｈｏｄ　ａｃｃｏｒｄｉｎｇｌｙ．Ｔｈｅ　ｅｘｐｅｒｉｍｅｎｔａｌ　ｒｅｓｕｌｔｓ　ｓｈｏｗｅｄ　ｔｈａｔ　ｏｕｒ　ａｌｇｏｒｉｔｈｍ　ｃａｎ　ｉｍｐｒｏｖｅ　ｔｈｅ　ｒｅｃａｌｌ　ｒａｔｅ　ｏｆ　ｔｈｅ　ｒｅ—　

ｔｒｌｅｖａｌ　ｓｙｓｔｅｍｓ　ａｎｄ　ｏｂｔａｉｎ　ｐｒａｃｔｉｃａｌ　ｓｕｂ—ｌｉｎｅａｒ　ｃｏｍｐｌｅｘｉｔｙ．　

Ｋｅｙ　ｗｏｒｄｓ：ｃｏｍｐｕｔｅｒ　ａｐｐｌｉｃａｔｉｏｎ；Ｃｈｉｎｅｓｅ　ｉｎｆｏｒｍａｔｉｏｎ　ｐｒｏｃｅｓｓｉｎｇ；ａｐｐｒｏｘｉｍａｔｅ　ｍａｔｃｈｉｎｇ；ｆｉｌｔｅｒ　ａｌｇｏｒｉｔｈｍ；ｄｙｎａｍｉｃ　

ｐｒｏｇｒａｍｍｉｎｇ　

１　引言　

现有的信息检索系统大部分采用基于关键词匹　

配的检索技术ｌ＿２］。在实际应用中，用户往往凭借印　

象进行检索，有时只能模糊地描述查询目标，输入的　

关键词无法和数据集合中保存的数据完全一致；另　

一

方面，在构建数据集时引入的错误（如ＯＣＲ识别错　

误等）也可能造成这些数据无法被用户获取。在上述　

情况下，传统的检索系统将难以从数据集中查找到所　

需要的信息。本文采用模糊匹配方法查找数据集中　

和用户输人相似的项，并根据相似度排序输出结果，　

以部分解决上述问题。模糊匹配方法还可以用于其　

他领域，如入侵检测、信息过滤、基因检测等＿３“　

中文用户大部分使用拼音输入法。用户输入查　

询串时选词错误造成的同音字替换是很典型的一种　

现象；方言、发音习惯等造成的音近字替换（如南方　

方言中，ｚｈ和ｚ不分）是第二种典型的错误现象。本　

文针对这些错误，提出了一种考虑同音字／近音字替　

换的距离度量方法，在此基础上建立模糊匹配算法。　

收稿Ｅｔ期：２００７－０１—０９定稿Ｅｌ期：２００７　０９　１０　

作者简介：王静帆（１９８２一），女，硕士生，研究方向为自然语言处理；邬晓钧（１９７６一），男，博士，助研，研究方向为ＶＩ语对　

话系统和自然语言处理；郑方（１９６７一），男，博士，教授，研究方向为语音信号处理。　

维普资讯 http://www.cqvip.com

下载后可阅读完整内容，剩余5页未读，立即下载

zjren-hhit

粉丝: 0
资源: 3

中文信息检索的模糊匹配算法优化与应用

中文模糊匹配算法

基于拼音索引的中文模糊匹配算法

改进的模糊匹配算法在中文信息检索中的应用

基于Lucene的语段模糊匹配中文检索系统设计与实现 (2009年)

基于Android系统的联系人最大匹配检索算法设计与实现.pdf

加权的布尔型文本匹配算法研究.doc

基于拼音索引的中文模糊匹配算法提升信息检索性能

中文模糊匹配算法优化：同音字/近音字处理与编辑距离扩展

Java字符串模糊匹配算法：算法选择与比较，不同算法的优劣分析

字符串模糊匹配算法在Java中的应用：从案例到实战

最新资源