改进的中文网页新闻正文抽取算法:提高准确性和效率

需积分: 0 0 下载量 15 浏览量 更新于2024-08-05 收藏 189KB PDF 举报
本文主要探讨了"改进的中文静态网页新闻正文自动抽取算法"这一主题,由何春辉和王孟然两位作者在2018年发表于东莞理工学院学报。网页新闻正文自动抽取是信息抽取领域的核心问题,特别是对于短文本段落的处理,现有的基于行块分布的方法效果不理想。针对这一问题,研究人员提出了创新的算法。 首先,作者改进了行块分割策略,设计了一种更有效的行块分布函数,这有助于更好地理解和组织网页内容。他们认识到在新闻正文中找到合适的起始和结束行块对于准确抽取至关重要,因此引入了最长公共子序列作为判别标准,这种方法可以快速定位正文内容,提高定位精度。 实验部分在1000个新闻网站上进行了详尽的评估,结果显示新算法具有显著的优势。平均抽取准确率达到了95.0%,这意味着算法在抽取新闻正文中表现出极高的识别能力;平均召回率高达96.54%,意味着算法能有效找到大部分的新闻正文;正文平均遗失率仅有1.6%,表明算法对文本内容的完整性把握良好。此外,单个网页的平均抽取耗时仅为0.13秒,体现出算法在大规模网页抽取任务中的高效性。 这种改进的算法对解决网页新闻正文自动抽取的效率和准确性问题做出了显著贡献,对于信息检索、文本挖掘以及敏感信息监测等应用场景具有重要的实际价值。尽管基于模式匹配和DOM树的方法有各自的优点,但它们在复杂性和通用性上存在局限,而新算法通过优化策略和算法设计,克服了这些问题,使得网页新闻正文抽取更加智能和自动化。这无疑为相关领域的研究和实践提供了新的思路和解决方案。