维基百科隐藏付费编辑检测：深度学习方法与性能评估

需积分: 5 116 浏览量更新于2024-06-21 收藏 2.9MB PDF 举报

本篇硕士论文主要探讨了如何通过计算机科学的机器学习方法来检测维基百科中未公开的付费编辑问题。作者Nikesh Joshi针对这个具有挑战性的任务，设计了一种新颖的框架，其核心是利用文章内容和创建者编辑历史模式进行分析。首先，研究者构建了一个基于机器学习的模型，它通过分析文章内容特征和用户编辑行为，尤其是关注那些可能与付费编辑相关的模式。为了验证这种方法的有效性，论文作者开发了一个专门的数据集，其中包含了已知的未公开付费文章的事实和相关用户的编辑历史记录。实验结果显示，该模型能够达到较高的性能指标，如AUROC值为0.98和平均精度为0.91，这表明模型在区分公开与未公开的付费文章上有很高的准确性。接着，论文引入了循环神经网络（RNN）特别是长短期记忆（LSTM）变体，进一步提升对用户编辑历史模式的理解。这种模型在识别未公开付费编辑的任务上表现更为出色，达到了AUROC为0.93和平均精度为0.90的水平，相较于现有的维基百科破坏性内容检测工具ORES有着明显优势。在早期检测方面，新方法同样超越了其他基准方法，显示出了强大的预测能力。此外，论文作者展示了该方法在解决类似任务中的广泛应用，比如识别破坏编辑者，最高达到了AUROC为0.96、平均精度为0.97和准确率为0.90的优异成绩。这证明了该方法不仅限于检测付费编辑，而且在维护维基百科内容的公正性和质量方面具有广泛潜力。在整个研究过程中，作者得到了Supervisory Committee成员Francesca Spezzano、Edoardo Serra和Steven Cutchin的支持和指导，他们的专业知识和反馈对于论文的质量提升起到了关键作用。论文的完成是对作者家庭的深深感谢，体现了他对这项工作的热情和对家人支持的感激之情。这篇论文对于维基百科的信任度维护、打击付费编辑干扰和改进内容审核流程具有重要意义，展示了机器学习在社交媒体监控和内容质量控制领域的实用价值。