J.A. Nasir
,
O. S.
可汗和我。瓦尔拉
米斯
International Journal of Information Management Data Insights 1
(
2021
)
100007
任 务 7 ( RumourEval 2019 ) 发 布 了 两 个 基 于 Twitter 的 数 据 集 用 于
rumour评估。虽然这些数据集是公开的,但它们只包含推文,并且仅限
于社交媒体谣言。
2.2.
方法和模型
根据Li et al.(2016)的调查,“发现真理”主要集中在:i)检测主语-
谓语-宾语三元组,其表示评估其可信度的结构化事实,以及ii)使用在
PolitiFact.com等网站的标记文本上训练的神经网络对一般文本输入进行
分类。当 没有外部证据或用户反馈可用,可信度分析的上下文有限。
当外部证据以文章的形式存在,证实或反驳一个主张时,可以使用监督
分类器来评估来源的可信度和主张的可信度。后一种方法需要大量的特
征建模和丰富的词典来检测语言风格中的偏见和主观性。
DeClarE是Popat等人(2018)提出的一种端到端神经网络模型,用
于揭穿假新闻和虚假声明。它使用从网络上提取的证据和反证来支持或
反驳一个说法。在没有特征工程和手动干预的情况下,作者通过训练具
有注意力和源嵌入的双向LSTM模型,在四个不同的数据集上实现了80%
的分类准确率。
为了自动识别Twitter上的假新闻,Buntain和Gol- beck(2017)采用
了结构,用户,内容和时间特征, 特征选择过程和随机森林(RF)分
类器。他们在CREDBANK和Pheme数据集上评估了他们的方法。他们还
表明,针对众包工人训练的模型优于基于记者评估的模型
TI-CNN ( Text and Image information based Convolutional Neu-
ral Network,基于文本和图像信息的卷积神经网络)模型是Yang等
人提出的。(2018年)。TI-CNN同时使用文本和图像信息进行训
练。卷积神经网络使模型能够一次看到整个输入,并且它的训练速度
比LSTM和许多其他RNN模型快得多美国总统大选的数据集由20,
000条新闻和近12,000条假新闻组成。
Karimi和Tang(2019)为假新闻检测提供了一个新的框架。该框架
学习了假新闻的分层话语级结构(HDSF),这是一个基于树的结构,分
别表示每个句子。作者在合并数据集上评估了该框架。他们将文档表示
为 N-gram和 语 言 查询和单词 计 数 ( LIWC) 向 量 以及修辞结 构 理 论
(RBT)关系的向量,并采用SVM,LSTM和混合双向门控递归神经网络
(BiGRNN)和CNN模型进行分类。HDSF优于所有其他方法,准确率为
82.19%。
Ahmed等(2018)在两个不同的数据集中进行了实验,包括假新
闻和假评论。他们利用词频(TF)和TFIDF的不同变化进行特征提取
和 SVM 、 拉 格 朗 日 -SVM ( LSVM ) 、 KNN 、 DT 、 随 机 梯 度 下 降
(SGD)和LR分类器。
Zhou et al.(2020)的理论驱动模型研究了假新闻基于内容和基于传
播的特征。 为了在传播之前检测假新闻,他们详细分析了基于内容和基
于传播的方法的属性和特点。新闻内容已在Lexicon进行了分析
句法、语义和语篇层面。此外,还研究了与欺骗/虚假信息和点击诱
饵相关的特征,以及新闻发布的影响他们在FakeNewsNet数据集上评
估了SVM,RF,梯度提升(XGB),LR和NB。
Khan 等 人 的 基 准 研 究 。 ( 2019 ) 评 估 了 SVM , LR , DT ,
Adaboost , NB , KNN , CNN , LSTM , Bi-LSTM , Conv-LSTM ,
Hierarchi-
虽然神经网络在较大的数据集上表现更好,但NB在较小的数据集上的表
现与神经网络一样好。最后,Elhadad等人(2019)在三个公开可用的
数据集(ISOT,FA-KES和LIAR)上使用来自在线新闻内容和文本元数据
的混合特征集进行了实验。使用DT,KNN,LR,SVM,Bernoulli NB,
多项式NB,LSVM,感知器和神经网络,他们在ISOT数据集上实现了
100%的准确率,在LIAR数据集上实现了62%的准确率,在FA-KES数据
集上实现了58%的基准准确率
混合方法经常用于假新闻检测。Ajao等人(2018)测试了LSTM-CNN
变体,其中包括紧接在LSTM模型的单词嵌入层之后的1D CNN,并在虚
假推文预测中实现了0.80的准确度。也有人提出了使用本地语义(主
题)或用户(配置文件)注意力来训练注意力机制的混合LSTM模型
(Long,2017)。Ruchansky等人(2017)的混合深度学习模型使用
RNN将文章的时间表示与一个完全连接的层相结合,该层聚合了再现新
闻的用户的特征。Hamdi等人的混合模型。(2020)将Twitter上用户关
注者图的图嵌入与用户特征相结合,以评估可信度 来源,因此他们发
布或分享的新闻。Wang(2017)的混合CNN模型使用说话人轮廓进行
训练。
在文献中存在的各种混合方法中,
当只有新闻文本可用时,不能应用对传播新闻的社交图或用户和新闻
源特征(简档)进行建模从只检查新闻的文本内容的混合方法来看,
LSTM和CNN的结合已经显示出了有希望的结果。然而,到目前为
止,LSTM已用于提供单词嵌入,CNN用于进行最终分类。
2.3.
相关任务
识别和揭穿假新闻的重要性引发了立场分类任务的重要性
立场分
类
涉及确定某些文本对某项主张的立场。因此,在假新闻检测中起着
重要作用,因为反对索赔的文本或个人陈述可能会导致将索赔错误分
类为假新闻(Zubiaga等人, 2018年)。
SemEval
4
在以下条件下进行了姿势检测挑战:
名为“在推文中检测立场”。Ferreira和Vlachos(2016)提出了另一个用
于对传闻中的主张进行立场分类的数据集,称为“Emergent”。该数据集
包含300个谣言和2,595篇相关新闻文章,由记者收集并标记其真实性
(真实,虚假或未经证实)。每一篇相关的文章都被总结成一个标题,
并贴上标签,以表明其立场是支持、反对还是遵守该声明。作者解决了
确定文章标题立场的任务。Emergent数据集中的声明是由记者从各种来
源收集的,如谣言网站,如Snopes和Twitter帐户,如 作为恶作剧者他
们的主题包括世界和国家等主题
美国新闻和技术故事。这些模型开发了自己的功能,并使用逻辑回归
(LR)分类器来衡量标题和声明之间的他们报告说,Emergent的准
确率为73%。然而,收集的数据集相当小,无法学习任务的所有细微
差别
Pamungkas等人(2019)提出的分类模型优于所有其他模型。 ©
2017版权所有 任务 8, 通过 使用基于对话和基于对话的特征,覆盖
对话的不同方面。
Maester框架(Shang等人,2018年)被提议用于评估新闻内容。它
的目标是显示搜索查询的结果,文章分类为同意文章,不同意文章,
cal注意力网络(HAN),卷积HAN和字符级
C-LSTM分类器在三个不同的平衡数据集上。 显示
4
http://alt.qcri.org/semeval2016/task6/。