没有合适的资源?快使用搜索试试~ 我知道了~
首页提升效率:基于Aho-Corasick的AAI算法优化可变长度通配符匹配
本文档探讨了在2015年针对带可变长度通配符的模式匹配问题的研究,这是一个关键的工程技术议题,特别是在生物信息学、文本索引和信息获取等领域,这些应用通常涉及高效地在大规模数据中搜索具有特殊格式的模式。现有的算法在处理此类问题时,其时间复杂度通常是多项式级别的,这意味着随着文本长度、模式长度以及通配符间距的增长,计算效率会显著下降。 作者提出了基于Aho-Corasick自动机的AAI(Pattern Matching with Wildcards)算法,该算法引入了动态规划的思想和有效的修剪技术来优化性能。Aho-Corasick自动机是一种高效的字符串匹配结构,它能够在一个文本串中查找多个模式的同时保持线性时间复杂度。AAI算法在此基础上进一步提升了处理能力,它的主要优势在于时间复杂度为O(n+m+α),其中n代表文本的长度,m为模式的长度,α则是所有子模式在文本中出现的总数。这表明算法对模式数量的变化有较好的适应性。 空间复杂度方面,AAI算法占用的空间为O(m+B),其中B是模式中通配符间距下限的总和。这意味着算法的空间需求相对较小,适合处理大量模式和文本的情况。 为了验证算法的有效性,文中提供了真实数据和人工数据的实验结果,展示了AAI算法在实际场景中的优越性能,尤其是在处理大规模文本和复杂模式约束时,其效率和准确性得到了显著提升。总结来说,这篇论文在解决带可变长度通配符的模式匹配问题上取得了一项重要的技术突破,对于提高相关领域的数据处理速度和准确性具有重要意义。
资源详情
资源推荐
2015,51(15)
1 引言
目前,带通配符约束的模式匹配越来越受重视,特
别是在生物信息学
[1-2]
、文本索引
[3]
和信息获取
[4-5]
等几个
应用领域,同时也是模式挖掘技术的核心与基础。例
如,在 20 世纪 90 年代,许多巨大的有关蛋白质模式的数
据库被建立,如 PROSITE 数据库
[6]
,这种模式用于在一
个较长的基因序列中搜索这种蛋白质的一个可能出现。
由于在可变长度的通配符约束和模式长度的双重
带可变长度通配符的模式匹配算法
沈 璐
1,2
,纪 允
1
,纪冬宝
3
,李 萍
4
SHEN Lu
1,2
, JI Yun
1
, JI Dongb ao
3
, LI Ping
4
1.合肥工业大学 计算机与信息学院,合肥 230009
2.芜湖职业技术学院 电气系,安徽 芜湖 241006
3.安徽现代电视技术有限公司,合肥 230088
4.安徽林业职业技术学院 信息与艺术系,合肥 230031
1.School of Computer and Information, Hefei University of Technology, Hefei 230009, China
2.Department of Electrical E ngineering, Wuhu Institute of Technology, Wuhu, Anhui 24 1006, China
3.Anhui Modern TV Technology Co., Ltd, Hefei 230088, Chin a
4.Department of Information and Art, Anhui Vocational and Technical College of Forestry, Hefei 230031, China
SHEN Lu, JI Yun, JI Dongbao, e t al. Pattern matching with variable length wildcards . Computer Engineeri ng and
Applications, 2015, 51(15):43-47.
Abstract: Current works on computing the number of all matches of pattern with variable length wildcards in text need
polynomial time, and have been greatly influenc ed by the length of the text, pattern, a nd wildcards interval. This paper
proposes an algorithm AAI(pA ttern mAtching with wIldc ards)ba sed on Ah o-corasick a utomaton which adopts dynamic
programming and effective pruni ng strategies. Let n and m be the length of P and T, respectively. The algorithm AAI need
time
O (n + m + α)
and space
O (m + B)
, where α is the total number of occurren ces of the subpatterns in P w ithin S, B is the
sum of the lower bonds of the wildcards. Experimental results from different aspects validate that AAI is more stable and
eff ective than other peers on b oth artificial and real-worl d data.
Key words: pattern matching; wildcards; dynamic p rogramming; Aho-Corasick auto maton
摘 要:针对目前已有的算法在计算带有可变长度通配符的模式在文本中的出现次数问题时,需要的时间是多项式
级别,而且受文本长度、模式长度和通配符间距的影响比较大。提出了一种基于 Aho-Corasic k 自动机的 AAI(pAttern
mAtching with wIldcards) 算法,计算中采用了动态规划思想和有效的修剪技术。AA I 算法的时间复杂度和空间复
杂度分别为
O (n + m + α)
和
O (m + B)
,其中
n
和
m
分别表示文本和模式的长度,
α
是所有子模式在文本中出现的数
目,
B
是模式中通配符间距下限的总和。通过真实数据和人工数据的实验结果表明,AAI算法与同类算法相比具备
显著的优势。
关键词:模式匹配;通配符;动态规划;Aho-Corasick自动机
文献标志码:A 中图分类号:TP39 doi:10.3778/j.issn.1002-8331.1308-0067
基金项目:安徽省高等学校省级一般教学研究项目(No.20101264)。
作者简介:沈璐(1978—),男,副教授,主要研究方向为数据挖掘;纪允(1988—),男,硕士研究生,主要研究方向为数据挖掘;纪冬宝
(1983—),男,高级工程师,主要研究方向为数据挖掘,智能计算等;李萍(1994—),女,主要研究方向为数据挖掘。
E-mail:jiyun1988@126.com
收稿日期:2013-0 8-07 修回日期:2013-1 0-12 文章编号:1002-8 331(2015)15-0043-05
CNKI网络优先出版:2013-11-25, http://ww w.cnki.net/kcms/detail/11.2 127.TP.20131125.1535.016.html
C omputer Engineering and Applications计算机工程与应用
43
下载后可阅读完整内容,剩余5页未读,立即下载
weixin_38538381
- 粉丝: 6
- 资源: 907
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- C++标准程序库:权威指南
- Java解惑:奇数判断误区与改进方法
- C++编程必读:20种设计模式详解与实战
- LM3S8962微控制器数据手册
- 51单片机C语言实战教程:从入门到精通
- Spring3.0权威指南:JavaEE6实战
- Win32多线程程序设计详解
- Lucene2.9.1开发全攻略:从环境配置到索引创建
- 内存虚拟硬盘技术:提升电脑速度的秘密武器
- Java操作数据库:保存与显示图片到数据库及页面
- ISO14001:2004环境管理体系要求详解
- ShopExV4.8二次开发详解
- 企业形象与产品推广一站式网站建设技术方案揭秘
- Shopex二次开发:触发器与控制器重定向技术详解
- FPGA开发实战指南:创新设计与进阶技巧
- ShopExV4.8二次开发入门:解决升级问题与功能扩展
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功