微博谣言检测：一种基于半监督学习的改进Co-Forest算法

需积分: 49 50 浏览量更新于2024-09-07 5 收藏 910KB PDF 举报

“一种用于微博谣言检测的半监督学习算法，基于Co-Forest并结合SMOTE和分层抽样解决不平衡数据问题，通过代价敏感的加权投票法提高预测准确率。” 在当前的社交媒体环境中，微博成为了信息传播的重要平台，但同时也成为谣言滋生的温床。微博谣言检测是维护网络环境健康、防止虚假信息传播的关键任务。传统的机器学习方法往往需要大量标记数据，然而在实际应用中，获取标注数据既耗时又成本高昂，尤其是在谣言数据类别不平衡的情况下，模型的性能会显著下降。针对这一问题，本文提出了一种基于半监督学习的微博谣言检测算法。核心是利用Co-Forest算法，这是一种能够处理大量未标记数据的分类方法。在Co-Forest的基础上，文章引入了SMOTE（Synthetic Minority Over-sampling Technique）算法，该算法通过生成合成样本来平衡类别不均衡的数据分布，确保模型在训练过程中对少数类（如谣言）的关注度得以提升。同时，为了进一步优化对未标记样本的预测，文章采用了分层抽样的方法，以确保各类别的比例更加均衡。此外，文章还结合了代价敏感的加权投票法。在分类过程中，代价敏感学习考虑了不同错误类型的不同代价，对于误判谣言的代价通常会高于误判非谣言，因此在投票过程中给予谣言类更高的权重，从而提高了对谣言的检测准确率。通过在10组UCI标准数据集和2组实际微博谣言数据上的实验，该方法显示出了良好的性能和有效性。实验结果证明，即使只有少量的标注数据，该算法也能有效地检测微博中的谣言，这对于实际应用来说具有重要的实用价值。总结来说，这篇论文提出的半监督学习算法是一种针对微博谣言检测的有效解决方案，它通过SMOTE和分层抽样解决数据不平衡问题，结合Co-Forest算法和代价敏感的加权投票策略，提升了在少量标注数据情况下的谣言识别能力。这种方法为社交媒体信息的真实性评估提供了新的思路，并可能被扩展到其他领域的大规模、不平衡数据问题。

weixin_39840650

粉丝: 411
资源: 1万+

微博谣言检测：一种基于半监督学习的改进Co-Forest算法

fyp_py：在线社交网络上的谣言检测研究最后一年研究项目的源代码

ACL 2020 论文——谣言检测_FakeNewsDetection_目标检测_GCAN_谣言_谣言检测_

新浪微博谣言检测研究

基于深度学习的微博谣言检测研究_陈思瑾.caj

论文研究-基于深层特征和集成分类器的微博谣言检测研究.pdf

基于RoBERTa-BiSRU++-AT的微博谣言早期检测模型.docx

论文研究-基于复杂网络的谣言传播模型.pdf

论文研究-一种基于多模式影响力的微博信息扩散预测方法.pdf

基于机器学习的微博突发事件分析与谣言检测.zip

基于人工智能推理引擎在微博数据挖掘中的应用分析.pdf

最新资源