大数据下高阶熵压缩全文自索引的创新技术
137 浏览量
更新于2024-07-15
1
收藏 1.02MB PDF 举报
本文主要探讨了"高阶熵压缩的全文自索引"这一研究主题,针对大数据时代下快速增长的数据量,提出了一个高效且关键的问题解决方案。论文首先由西安电子科技大学计算机学院的霍红卫、陈晓阳、陈龙刚和于强四位作者合作完成,他们分别在算法设计与分析、大数据压缩索引与检索、压缩数据结构等领域有所专长。
论文的核心内容是提出了一种针对长度为n的文本T的压缩索引算法,特别关注的是k阶经验熵(Hk(T)),这是一个衡量文本信息复杂度的重要统计量,它基于文本中字符出现的频率分布。在设定k≤clogσn-1且c<1的前提下,这种压缩索引能够占用空间仅为2nHk(T) + n + o(n)位,这里的σ代表字符表的大小。这个设计使得空间效率得到了显著提升,尤其是当文本信息具有较高的熵值时。
值得一提的是,本文提出的压缩索引构建过程具备线性时间复杂度,这意味着在实际应用中,即使处理大规模数据,也能保持高效的实时构建能力。为了进一步优化性能,文中还引入了混合编码方法,根据1在gap序列中的分布动态调整编码策略,这在节省空间方面实现了额外的o(n)位开销。
实验部分展示了这种高阶熵压缩索引在pizza&Chilicorpus上的优秀表现,对比主流压缩索引,它在压缩率和查询时间上都显示出显著优势。这对于大数据存储和检索场景具有重要的实际意义,尤其是在减少存储需求和提高查询响应速度方面。
最后,文章的关键词包括大数据、压缩索引、自索引、高阶熵和混合编码,这些关键词揭示了论文的核心技术和关注点。论文的成果不仅理论价值高,而且具有很强的实用性,可供其他研究者参考和借鉴。有兴趣的读者可以通过Github获取作者们开发的压缩索引软件,进行更深入的学习和应用探索。
2021-09-18 上传
2022-07-14 上传
2021-02-26 上传
点击了解资源详情
点击了解资源详情
点击了解资源详情
2024-11-27 上传
2024-11-27 上传
2024-11-27 上传
weixin_38666823
- 粉丝: 5
- 资源: 971
最新资源
- Raspberry Pi OpenCL驱动程序安装与QEMU仿真指南
- Apache RocketMQ Go客户端:全面支持与消息处理功能
- WStage平台:无线传感器网络阶段数据交互技术
- 基于Java SpringBoot和微信小程序的ssm智能仓储系统开发
- CorrectMe项目:自动更正与建议API的开发与应用
- IdeaBiz请求处理程序JAVA:自动化API调用与令牌管理
- 墨西哥面包店研讨会:介绍关键业绩指标(KPI)与评估标准
- 2014年Android音乐播放器源码学习分享
- CleverRecyclerView扩展库:滑动效果与特性增强
- 利用Python和SURF特征识别斑点猫图像
- Wurpr开源PHP MySQL包装器:安全易用且高效
- Scratch少儿编程:Kanon妹系闹钟音效素材包
- 食品分享社交应用的开发教程与功能介绍
- Cookies by lfj.io: 浏览数据智能管理与同步工具
- 掌握SSH框架与SpringMVC Hibernate集成教程
- C语言实现FFT算法及互相关性能优化指南