基于PU学习的图卷积网络:社交媒体高质量内容识别

需积分: 10 0 下载量 135 浏览量 更新于2024-08-06 收藏 369KB PDF 举报
"本文提出了一种名为GCN-PU的基于正无标记学习的图卷积网络模型,用于从社交媒体的海量多媒体文章中识别高质量内容。GCN-PU利用异构网络结合文本和社交信息,通过图卷积网络融合得到高阶特征,同时结合全局视觉布局信息增强特征表示。此外,采用PU学习处理大量未标注数据,提高模型训练效率和识别准确性。实验证明,GCN-PU相比现有方法在F值上有超过3%的提升。" 在当前的信息化时代,社交媒体已经成为人们获取信息、分享观点的重要平台,其中蕴含着丰富的多媒体文章。这些文章的质量直接影响到用户的信息获取体验和系统的推荐效果。传统的高质量内容识别方法通常依赖大量人工标注的数据,然而这种依赖性不仅成本高昂,而且难以应对社交媒体的快速更新和海量信息。 针对这一问题,GCN-PU模型创新地将正无标记(Positive and Unlabeled,PU)学习引入到模型训练中。PU学习允许模型在仅有正面样本(高质量文章)和未标注样本的情况下进行学习,极大地扩展了可用数据的范围,提高了模型的泛化能力。在GCN-PU模型中,通过构建一个异构网络,将社交媒体文章的文本内容和社交信息如点赞、评论、分享等融入统一框架,利用图卷积网络(Graph Convolutional Network, GCN)对这些多源信息进行深度融合,提取出高阶特征。这有助于模型理解文章的复杂语义和社交影响力。 不仅如此,GCN-PU模型还考虑了多媒体文章的视觉元素。它引入了全局视觉布局信息,用于捕获文章的综合视觉质量特征,这些特征可以补充由图卷积网络得到的文本和社交信息特征,使得模型能够全面评估文章的高质量内容。 在实际应用中,GCN-PU模型在真实社交媒体数据集上的实验验证了其优越性。相比于传统方法,GCN-PU在衡量识别性能的F值上有显著提升,达到3%以上。这表明GCN-PU模型在处理大规模无标注数据时,能更有效地识别出社交媒体中的高质量文章,对于提升信息推荐系统和搜索引擎的性能具有重要意义。 总结来说,GCN-PU模型通过结合图卷积网络、异构网络结构以及PU学习策略,成功地解决了社交媒体环境中高质量内容识别的挑战。它在减少对人工标注依赖的同时,提高了模型的准确性和鲁棒性,为未来社交媒体信息处理提供了新的研究方向和技术支撑。