Lucene驱动的海量数据库全文检索：灵活性与多线程技术

需积分: 22 132 浏览量更新于2024-08-12 收藏 335KB PDF 举报

本文主要探讨了"基于Lucene的海量数据库全文检索的设计与实现"这一主题，发表于2011年的《湖南工业大学学报》第二十五卷第二期。作者徐叶强、朱艳辉、栗春亮和王文华来自湖南工业大学计算机与通信学院，他们提出了一种创新的解决方案，旨在提高大规模数据库的全文检索效率和灵活性。在该研究中，作者利用了Apache Lucene，一个广泛用于全文搜索引擎的开源软件框架，作为核心技术。Lucene以其高效和可扩展性闻名，特别适合处理海量数据。作者将关系数据库引入系统设计，这样可以根据不同的源数据库类型进行灵活配置，相较于传统的配置文件方法，这种方法提供了更高的适应性和易用性。论文的核心技术包括多线程编程的应用，通过动态机制实现了对不同源数据库中记录的高效抽取、转换和索引构建。这种并行处理方式极大地提高了处理速度，使得系统能够同时处理多个任务，从而支持大规模数据的实时检索。此外，论文还强调了自动索引更新功能，允许系统定期进行自我维护，确保检索结果的及时性和准确性。这在实际应用中具有重要意义，因为随着数据的增长，实时更新索引可以保证搜索性能的持久稳定。作者还讨论了多种检索方式，这意味着用户可以根据需要选择精确匹配、模糊匹配、短语检索等高级查询功能，提高了检索的灵活性和用户体验。这在信息检索领域是非常关键的，因为它能满足不同用户的个性化需求。这篇论文展示了如何巧妙地结合Lucene技术和关系数据库，以构建一个高性能、灵活且易于维护的海量数据库全文检索系统。这对于处理大数据时代的文本检索挑战，以及优化企业级应用的搜索性能具有重要的参考价值。

第２５卷第２期　

２０１１年３月　

湖南ｌＩ业大学学报　

Ｊｏｕｒｎａｌ　ｏｆ　Ｈｕｎａｎ　Ｕｎｉｖｅｒｓｉｔｙ　ｏｆ　Ｔｅｃｈｎｏｌｏｇｙ　

Ｖｏｌ－２５　Ｎｏ．２　

Ｍａｒ．２０１ｌ　

基于Ｌｕｃｅｎｅ的海量数据库全文检索的设计与实现　

徐叶强，朱艳辉，栗春亮，王文华　

（湖南１　业大学计算机与通信学院，湖南株洲４１２００８）　

摘　要：基于Ｌｕｃｅｎ．ｅ实现了一个海量数据库全文检索的原型。把关系数据库引入了本系统，可针对不　

同类型的源数据库灵活配置，比采用配置文件更加灵活；采用多线程，通过动态机制来实现不同类型源数　

据库中记录的抽取、转换、建立索引；提供定时自动更新索引的功能；提供多种检索方式。　

关键词：Ｌｕｃｅｎｅ；关系数据库；全文检索　

中图分类号：ＴＰ３９１　文献标志码：Ａ　文章编号：１６７３—９８３３（２０１１）０２—００８１—０４　

Ｔｈｅ　Ｄｅｓｉｇｎ　ａｎｄ　Ｉｍｐｌｅｍｅｎｔａｔｉｏｎ　ｏｆ　Ｍａｓｓｉｖｅ　Ｄａｔａｂａｓｅ　

Ｆｕｌｌ—Ｔｅｘｔ　Ｒｅｔｒｉｅｖａｌ　Ｂａｓｅｄ　ｏｎ　Ｌｕｃｅｎｅ　

Ｘｕ　Ｙｅｑｉａｎｇ，Ｚｈｕ　Ｙａｎｈｕｉ，Ｌｉ　Ｃｈｕｎｌｉａｎｇ，Ｗａｎｇ　Ｗｅｎｈｕａ　

（Ｓｃｈｏｏｌ　ｏｆＣｏｍｐｕｔｅｒ　ａｎｄ　Ｃｏｍｍｕｎｉｃａｔｉｏｎ，Ｈｕｎａｎ　Ｕｎｉｖｅｒｓｉｔｙ　ｏｆＴｅｃｈｎｏｌｏｇｙ，Ｚｈｕｚｈｏｕ　Ｈｕｎａｎ　４１２００８，Ｃｈｉｎａ）　

Ａｂｓｔｒａｃｔ：Ｐｒｏｐｏｓｅｓ　ａ　ｄａｔａｂａｓｅ　ｆｕｌｌ—ｔｅｘｔ　ｒｅｔｒｉｅｖａｌ　ｍｏｄｅｌ　ｂａｓｅｄ　ｏｎ　Ｌｕｃｅｎｅ．Ａｉｍｉｎｇ　ａｔ　ｄｉｆｆｅｒｅｎｔ　ｓｏｕｒｃｅ　ｄａｔａｂａｓｅｓ　

ｃｏｎｆｉｇｕｒａｔｉｏｎ，ｔｈｅ　ｄａｔａｂａｓｅｓ　ｃｕｓｔｏｍｉｚｅｄ　ｖｉａ　ｒｅｌａｔｉｏｎ　ｄａｔａｂａｓｅ　ｉｓ　ｍｏｒｅ　ｆｌｅｘｉｂｌｅ　ｔｈａｎ　ｃｕｓｔｏｍｉｚｅｄ　ｖｉａ　ｃｏｎｆｉｇｕｒａｔｉｏｎ　ｆｉｌｅ．Ｔｈｅ　

ｓｕｐｐｏｒｔ　ｔｏ　ｋｉｎｄｓ　ｏｆ　ｄａｔａｂａｓｅ　ｆｏｒ　ｅｘｔｒａｃｔｉｎｇ，ｅｘｃｈａｎｇｉｎｇ　ａｎｄ　ｉｎｄｅｘｉｎｇ　ｂａｓｅｄ　ｏｎ　ｔｈｒｅａｄｓ　ｐｒｏｇｒａｍｍｉｎｇ　ａｎｄ　ｐｏｌｙｍｏｒｐｈｉｓｍ　ａｒｅ　

ｉｍｐｌｅｍｅｎｔｅｄ．Ｔｈｅ　ｆｕｎｃｔｉｏｎ　ｏｆ　ｐｅｒｉｏｄｉｃ　ｉｎｄｅｘｉｎｇ　ｕｐｄａｔｅ　ａｎｄ　ｋｉｎｄｓ　ｏｆ　ｑｕｅｒｙ　ｒｅｑｕｉｒｅｍｅｎｔｓ　ａｒｅ　ｐｒｏｖｉｄｅｄ．　

Ｋｅｙｗｏｒｄｓ：Ｌｕｃｅｎｅ；ｒｅｌａｔｉｏｎａｌ　ｄａｔａｂａｓｅ；ｆｕｌｌ—ｔｅｘｔ　ｒｅｔｒｉｅｖａｌ　

０　引言　

随着互联网的飞速发展，数据量与日俱增，越　

来越多的大型企业或集团的核心业务数据都存储在　

关系数据库管理系统（ＲＤＢＭＳ）中。但传统的关系　

数据库缺乏对存储在库中字段的内容进行检索和分　

析的核心功能，解决这个问题的关键是建立一条有　

效的包含数据整合、高速查询、信息分析的、将数　

据转化为信息的途径。从目前信息科学技术的发展　

来看，海量信息的全文检索技术是最先进、最适合　

的解决途径。　

国内外相继出现了一些全文检索产品，国内比　

较有代表性的如易宝北信信息技术有限公司设计和　

开发的全文信息检索和管理系统ＴＲＳ等，而国外比　

较著名的有ＩＢＭ公司研发的关系型数据库ＤＢ２其中　

的Ｔｅｘｔ　Ｅｘｔｅｎｄｅｒ，Ｏｒａｃｌｅ公司的Ｏｒａｃｌｅ　Ｔｅｘｔ，Ｍｉｃｒｏｓｏｆｔ　

公司开发的ｓＱＬ　Ｓｅｒｖｅｒ和开源的Ｌｕｃｅｎｅ…全文检索　

工具包。利用大型关系数据库本身提供的检索服务　

还有较多不足，所以不适合作为开发平台。而Ｌｕｃｅｎｅ　

是Ａｐａｃｈｅ软件基金会Ｊａｋａｒｔａ项目组的一个子项目，　

是一个纯Ｊａｖａ编写的开放源代码的全文检索工具　

包。作为一个开放源代码项目，Ｌｕｃｅｎｅ自问世之后，　

收稿日期：２０１０－１２—１７　

基金项目：湖南省自然科学基金资助项目（１０ＪＪ３００２），教育部人文＿丰十会科学研究青年基金资助项目（０９ＹＪＣＺＨ０１９），中国　

包装总公司科研基金资助项目（２００８一ＸＫ１　３）　

作者简介：徐叶强（１９８２一），男，安徽芜湖人，湖南工业大学硕士生，主要研究方向为文本分类，信息检索，　

Ｅ—ｍａｉｌ：ｘ．ｙ．ｑ１９８２０ｔ１６＠１６３．ｃｏｍ　

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38732924

粉丝: 1
资源: 931

Lucene驱动的海量数据库全文检索：灵活性与多线程技术

一种基于Lucene检索引擎的全文数据库的研究与实现

基于Lucene的Oracle数据库全文检索.pdf

基于Lucene索引的数据库全文检索 (2014年)

lucene全文检索设计与实现

基于LUCENE的藏文全文检索的研究 (2009年)

基于Lucene3.6进行全文检索的小案例

基于Lucene的全文检索的Java实现.pdf

基于Lucene的实时全文检索系统（含论文）

lucene检索数据库

基于Lucene_XML全文检索的应用及效率测试研究

最新资源