web-spam数据集介绍
时间: 2024-05-28 16:12:24 浏览: 193
SpamData数据集
5星 · 资源好评率100%
Web-Spam是一个用于检测Web页面是否为垃圾页面的数据集。它由两个子集组成:一个是页面级别的子集,另一个是网站级别的子集。每个子集包含Web页面的URL、正文内容和标签。标签指示该页面是否属于垃圾页面。
这个数据集由斯坦福大学的Gianluca Demartini教授和Cornell大学的Thorsten Joachims教授创建。他们收集了来自不同来源的Web页面,并使用机器学习方法标记这些页面是否为垃圾页面。
Web-Spam数据集可用于开发和测试各种Web页面垃圾检测算法和模型。它已被广泛用于研究和实践中,包括机器学习、信息检索、网络安全等领域。
阅读全文