加权频繁子树相似度在网页评论信息抽取中的应用

需积分: 3 0 下载量 48 浏览量 更新于2024-09-08 收藏 1.35MB PDF 举报
"基于加权频繁子树相似度的网页评论信息抽取" 本文研究的主要问题是针对当前网页信息抽取方法中存在的问题,如高人力成本和低抽取精度。为了改善这些问题,研究者提出了一种名为WTS(Weighted Tree Substructure,加权频繁子树)的新型信息抽取方法,特别适用于网页评论内容的提取。该方法主要应用于电子商务平台如京东和苏宁的用户评论数据,旨在高效且准确地获取产品评论的关键信息。 首先,WTS方法通过利用网页的视觉特征进行预处理,这一步骤被称为“网页剪枝”,旨在减少非相关信息并聚焦于评论区域。这一阶段有助于简化网页结构,使得后续的分析更加高效。 接着,WTS引入了一种深度加权的相似度度量算法,用于识别和抽取最佳频繁子树。频繁子树是数据挖掘中的一种概念,它表示数据库中频繁出现的模式。在本研究中,这些子树代表了评论信息的常见结构。通过赋予不同层级的节点不同的权重,可以更准确地捕捉到评论内容中的关键元素,提高抽取的准确性。 最后,利用子树对齐技术,WTS能够识别出评论信息的路径,并进一步解析评论内容。子树对齐是一种匹配和比较不同但相似的子树结构的技术,有助于从复杂的网页结构中抽取出一致的信息序列,从而提取出有价值的评论详情。 实验部分,研究者对比了WTS方法与已有的D-EEM和POL方法在产品评论信息抽取上的表现。结果显示,WTS在抽取精度和效率上都具有一定的优势,表明其在处理网页评论信息抽取任务时更为有效。 此外,本研究得到了多项科研基金的支持,包括国家自然科学基金、广东省自然科学基金、广东省科技计划以及广州市科技计划等多个项目。参与研究的学者分别来自广东工业大学计算机学院和佛山科学技术学院,他们在机器学习、人工智能、数据挖掘等领域有深入的研究。 WTS方法通过创新的加权频繁子树相似度计算和子树对齐技术,解决了传统信息抽取方法的不足,提升了网页评论信息抽取的效率和准确性,对于电商平台的评论分析和产品评价挖掘具有重要的实践价值。