加权频繁子树相似度在网页评论信息抽取中的应用
需积分: 3 48 浏览量
更新于2024-09-08
收藏 1.35MB PDF 举报
"基于加权频繁子树相似度的网页评论信息抽取"
本文研究的主要问题是针对当前网页信息抽取方法中存在的问题,如高人力成本和低抽取精度。为了改善这些问题,研究者提出了一种名为WTS(Weighted Tree Substructure,加权频繁子树)的新型信息抽取方法,特别适用于网页评论内容的提取。该方法主要应用于电子商务平台如京东和苏宁的用户评论数据,旨在高效且准确地获取产品评论的关键信息。
首先,WTS方法通过利用网页的视觉特征进行预处理,这一步骤被称为“网页剪枝”,旨在减少非相关信息并聚焦于评论区域。这一阶段有助于简化网页结构,使得后续的分析更加高效。
接着,WTS引入了一种深度加权的相似度度量算法,用于识别和抽取最佳频繁子树。频繁子树是数据挖掘中的一种概念,它表示数据库中频繁出现的模式。在本研究中,这些子树代表了评论信息的常见结构。通过赋予不同层级的节点不同的权重,可以更准确地捕捉到评论内容中的关键元素,提高抽取的准确性。
最后,利用子树对齐技术,WTS能够识别出评论信息的路径,并进一步解析评论内容。子树对齐是一种匹配和比较不同但相似的子树结构的技术,有助于从复杂的网页结构中抽取出一致的信息序列,从而提取出有价值的评论详情。
实验部分,研究者对比了WTS方法与已有的D-EEM和POL方法在产品评论信息抽取上的表现。结果显示,WTS在抽取精度和效率上都具有一定的优势,表明其在处理网页评论信息抽取任务时更为有效。
此外,本研究得到了多项科研基金的支持,包括国家自然科学基金、广东省自然科学基金、广东省科技计划以及广州市科技计划等多个项目。参与研究的学者分别来自广东工业大学计算机学院和佛山科学技术学院,他们在机器学习、人工智能、数据挖掘等领域有深入的研究。
WTS方法通过创新的加权频繁子树相似度计算和子树对齐技术,解决了传统信息抽取方法的不足,提升了网页评论信息抽取的效率和准确性,对于电商平台的评论分析和产品评价挖掘具有重要的实践价值。
2019-07-22 上传
2019-07-22 上传
2019-07-22 上传
2019-07-22 上传
2019-07-22 上传
weixin_39840387
- 粉丝: 790
- 资源: 3万+
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫