使用图卷积网络检测垃圾评论

需积分: 16 8 下载量 135 浏览量 更新于2024-07-16 收藏 4.03MB PPTX 举报
"这篇资源是关于使用图卷积网络(GCN)进行垃圾评论检测的CIKM 2019最佳应用论文。阿里巴巴的研究团队提出了一个名为GAS(GCN-based Anti-Spam method)的方法,针对大型电商平台闲鱼(Xianyu)上的评论数据进行分析,以解决大规模数据中的广告伪装和评论变形等挑战。" 在电子商务平台中,用户评论对于商品评价和交易决策至关重要。然而,随着平台规模的扩大,垃圾评论,如广告、欺诈信息等,成为了一个严重的问题。为了保护用户免受这些有害信息的影响,需要开发有效的垃圾评论检测系统。 图卷积网络(GCN)是一种在图结构数据上进行深度学习的工具,它可以从节点的邻接关系中学习特征表示。在垃圾评论检测任务中,GCN被用来处理用户与商品之间的二分图(bipartite graph),其中用户(U)、商品(I)和评论(E)构成了图的节点和边。GCN通过多层的信息传播和聚合,能够捕捉到用户、商品和评论之间的复杂关联。 在构建Xianyu图时,用户节点的邻居是他们评论过的商品,而商品节点的邻居则是评论它们的用户。为了处理异质性数据,即用户和商品的属性不同,研究者采用了异质图卷积网络(HetGCN)。异质图允许不同类型的节点和边,使得模型可以更好地捕获不同类型的交互信息。 方法的核心部分包括聚合子层和组合子层。聚合子层负责从每个节点的邻居那里收集信息,而组合子层则将这些信息整合成新的节点表示。此外,考虑到评论的时间序列特性,研究者引入了时间相关的采样策略。选择最近的M条评论进行考虑,当候选评论不足M个时,用占位符填充。这种方法优于随机子采样,因为它保持了邻居分布的稳定性,避免了因重新采样导致的邻居信息丢失。 对于评论的表示,使用文本卷积神经网络(TextCNN)先对评论进行预训练,得到评论嵌入。而对于用户和商品,GCN同样会考虑其与评论的关联。另外,图注意力网络(GAT)可能也被用于增强模型的表示能力,通过注意力机制赋予不同邻居不同的权重。 这个工作利用GCN的强大学习能力,结合电子商务平台特有的数据结构和时间信息,有效地提升了垃圾评论的检测效果,展示了深度学习技术在处理复杂网络数据中的潜力。