基于PU学习的图卷积网络：社交媒体高质量内容识别

需积分: 10 135 浏览量更新于2024-08-06 收藏 369KB PDF 举报

"本文提出了一种名为GCN-PU的基于正无标记学习的图卷积网络模型，用于从社交媒体的海量多媒体文章中识别高质量内容。GCN-PU利用异构网络结合文本和社交信息，通过图卷积网络融合得到高阶特征，同时结合全局视觉布局信息增强特征表示。此外，采用PU学习处理大量未标注数据，提高模型训练效率和识别准确性。实验证明，GCN-PU相比现有方法在F值上有超过3%的提升。" 在当前的信息化时代，社交媒体已经成为人们获取信息、分享观点的重要平台，其中蕴含着丰富的多媒体文章。这些文章的质量直接影响到用户的信息获取体验和系统的推荐效果。传统的高质量内容识别方法通常依赖大量人工标注的数据，然而这种依赖性不仅成本高昂，而且难以应对社交媒体的快速更新和海量信息。针对这一问题，GCN-PU模型创新地将正无标记（Positive and Unlabeled，PU）学习引入到模型训练中。PU学习允许模型在仅有正面样本（高质量文章）和未标注样本的情况下进行学习，极大地扩展了可用数据的范围，提高了模型的泛化能力。在GCN-PU模型中，通过构建一个异构网络，将社交媒体文章的文本内容和社交信息如点赞、评论、分享等融入统一框架，利用图卷积网络（Graph Convolutional Network, GCN）对这些多源信息进行深度融合，提取出高阶特征。这有助于模型理解文章的复杂语义和社交影响力。不仅如此，GCN-PU模型还考虑了多媒体文章的视觉元素。它引入了全局视觉布局信息，用于捕获文章的综合视觉质量特征，这些特征可以补充由图卷积网络得到的文本和社交信息特征，使得模型能够全面评估文章的高质量内容。在实际应用中，GCN-PU模型在真实社交媒体数据集上的实验验证了其优越性。相比于传统方法，GCN-PU在衡量识别性能的F值上有显著提升，达到3%以上。这表明GCN-PU模型在处理大规模无标注数据时，能更有效地识别出社交媒体中的高质量文章，对于提升信息推荐系统和搜索引擎的性能具有重要意义。总结来说，GCN-PU模型通过结合图卷积网络、异构网络结构以及PU学习策略，成功地解决了社交媒体环境中高质量内容识别的挑战。它在减少对人工标注依赖的同时，提高了模型的准确性和鲁棒性，为未来社交媒体信息处理提供了新的研究方向和技术支撑。

weixin_38548704

粉丝: 3
资源: 931

基于PU学习的图卷积网络：社交媒体高质量内容识别

Keras实现的FaceNet人脸识别技术

高质量中文网络文本关系抽取数据集发布

微博话题网络测量：内容传播、结构特性和用户行为

面向突发事件画像的社交媒体图像分类研究.docx

面向网络文本的高质量中文关系抽取数据集.zip

人脸识别程序

面向文本的本体学习

几篇有关人脸识别的论文

人脸识别系统研究与实现——程序

面向电信CRM的数据挖掘应用研究.docx

最新资源