科技论文图像检索技术研究

需积分: 9 1 下载量 8 浏览量 更新于2024-09-07 收藏 514KB PDF 举报
"这篇论文研究了基于文本的科技论文图像检索技术,主要涉及图像提取算法和相关文本提取算法。作者马德奎、马军和王瑜来自山东大学计算机科学与技术学院以及重庆农村商业银行,他们探讨了建立科技论文图像检索系统的需求,并解决了系统构建的关键问题。论文提出了一种新的图像提取算法,通过将文档转化为图像,利用颜色直方图、一阶和二阶颜色矩等特征来识别并提取科技论文中的内容图像,取得了94.3%的高准确率。此外,还提出了一种基于规则的相关文本提取方法,实验显示,结合标题和周边文本为图像建立索引的效果最佳。此研究对科技论文检索系统的功能扩展具有重要意义,特别是在处理PDF文档中的图像提取时,避免了因多幅小图拼接或叠加导致的图像分割错误。" 论文深入讨论了科技论文在线平台的快速增长带来的检索挑战,尤其是在跨专业领域。科技论文中的图像,如流程图、曲线图等,含有丰富的信息,能辅助用户快速准确地评估检索结果。然而,目前缺乏专门针对这些图像的检索系统。为此,论文提出了两种方法:一是直接解析PDF文档提取图像,但这种方法可能因图像拼接或叠加而产生问题;二是将PDF文档转为图像后再提取,此方法能更好地处理上述问题。 论文提出的图像提取算法首先将文档转换为图像,接着利用图像底层特征来区分内容图像,提高了提取的准确性。另一方面,相关文本提取算法则利用标题、摘要、关键词和周边文本,通过不同组合为图像建立索引,实验结果显示,标题与周边文本的组合最有效。这一研究成果对于开发科技论文图像检索系统具有重要指导价值,能够为科研人员提供更加精准和便捷的检索体验。