没有合适的资源?快使用搜索试试~ 我知道了~
5750误导还是伪造?推断在线新闻和社交媒体中的欺骗策略和类型0Svitlana Volkova,Jin Yea Jang �0华盛顿州里奇兰太平洋西北国家实验室svitlana.volkova@pnnl.gov,jinyea.jang@keti.re.kr0摘要0近年来,在在线新闻和社交媒体中的虚假信息对我们的社会产生了巨大影响。本研究首次通过分析心理语言学信号:道德基础和内涵,深入了解数字误导信息背后作者的意图,这些信息从战略性虚假信息到宣传和恶作剧等不同类型的虚假新闻中提取出来。为了确保我们的发现的一致性和跨领域的普适性,我们使用以下数据进行实验:(1)新闻摘要中的虚假信息的已确认案例,(2)宣传、恶作剧和虚假信息新闻页面,以及(3)社交媒体新闻。我们首先对包括虚假信息、宣传和恶作剧在内的虚假新闻类型以及包括误导或伪造在内的虚假策略进行词汇标记、句法和风格信号以及内涵的对比。然后,我们将这些见解纳入机器学习和深度学习的预测模型中,以推断欺骗策略和虚假新闻类型。我们的实验结果表明,与早期关于欺骗检测的工作不同,内容结合有偏见的语言标记、道德基础和内涵相比句法和风格信号(如早期关于虚假评论的工作中所报道的)能更好地预测欺骗策略的性能。伪造策略比误导策略更容易识别。与宣传或恶作剧相比,虚假信息更难预测。虚假新闻类型(虚假信息、宣传和恶作剧)与虚假策略(伪造和误导)相比更显著,因此在推特上比在新闻报道中更容易识别。最后,我们对不同类型的欺骗进行的新颖内涵分析提供了对作者观点的更深入理解,从而揭示了数字误导信息背后的意图。0CCS概念0• 计算方法学 → 自然语言处理;神经网络;0关键词0自然语言处理;机器学习;深度学习;误导信息;欺骗;社交媒体分析;内涵分析0� 现在在韩国电子技术研究所(KETI)0本文发表在知识共享署名4.0国际许可证(CC BY4.0)下。作者保留在个人和公司网站上传播作品的权利,并附上适当的归属。WWW '18Companion,2018年4月23日至27日,法国里昂,© 2018IW3C2(国际万维网会议委员会),根据知识共享CC BY 4.0许可证发布。ACM ISBN978-1-4503-5640-4/18/04。https://doi.org/10.1145/3184558.31887280ACM参考格式:Svitlana Volkova,Jin YeaJang。2018。误导还是伪造?推断在线新闻和社交媒体中的欺骗策略和类型。在WWW '18Companion:2018年网络会议伴侣,2018年4月23日至27日,法国里昂。ACM,美国纽约,9页。https://doi.org/10.1145/3184558.318872801 引言0信息就是力量。虚假信息破坏了这种力量。根据世界经济论坛的报告[25],大规模的数字虚假信息被列为现代社会的主要风险之一。不同类型的虚假信息在网络和社交媒体上被积极传播。无论虚假信息的类型和目的是错误的解释还是有针对性的宣传活动[34],它对人们的生活造成了有害的影响[18,32],有时甚至是致命的[21,40]。缺乏带有虚假新闻类型、可信度水平或核实事实的数据限制了在线交流中虚假信息的分析和识别的研究[17]。早期关于自动欺骗检测的大部分工作都依赖于手动构建的小型语料库来构建预测模型,以检测欺骗性产品评论[36,39]。最近的工作集中在来自PolitiFact[50,62]、讽刺性新闻(例如TheOnion[54])和新闻文章[45]的注释数据上,这些数据通常只针对一个领域(通常是政治),或者专注于特定类型的事件,例如枪击事件[56]、自然灾害[57]或选举[16]。这些研究对于误导传播[33]、影响活动[2,7]和社交机器人[38]在特定新闻事件中的作用产生了重要发现。只有[37]和[61]探索了推特数据,评估了主流与另类新闻来源中的语言实现,并构建了用于预测信息可信度和虚假新闻类型(例如宣传、恶作剧和点击诱饵与可信新闻相比)的模型。然而,据我们所知,以前的工作很少关注分析欺骗策略,例如误导与伪造[1],并分析虚假信息的语言实现。因此,本研究分析了欧盟东部战略传播任务部门在此研究中分析的已确认虚假信息案例(https://euvsdisinfo.eu/,@EUvsDisinfo)以及虚假网页和社交媒体交流的公共数据的独特来源,将进一步推动对事实评估和在线信息可信度的理解和改进预测模型。我们以下概述了本研究的主要贡献。首先,我们研究了不同领域中的虚假策略(误导与伪造)和类型(虚假信息、宣传和恶作剧)之间的语言实现,包括虚假信息报告。0主题:新闻报道、误导信息、事实核查主题WWW 2018年4月23日至27日,法国里昂5760伪造误导0欺骗策略0恶作剧0虚假信息0宣传0欺骗类型0意图欺骗程度较低 意图欺骗程度较高0图1:根据欺骗类型和策略对欺骗性新闻进行分类。0新闻页面和社交媒体帖子。我们报告了欺骗性新闻内容中心理语言线索、偏见和主观语言以及道德基础的统计显著差异。其次,我们分析了不同类型欺骗内容中对欺骗性新闻的代理人和目标的内涵,以更深入地了解作者对战略性虚假信息、宣传和恶作剧背后的观点和意图。最后,我们结合了不同欺骗类型和策略的语言实现差异的研究结果,建立了欺骗检测的预测模型。我们对比了在不同领域上训练的基于内容、风格、句法和心理语言信号的机器学习和深度学习模型的性能,以确保模型的普适性。0欺骗类型0为了研究根据作者意图的欺骗程度的不同,我们重点关注三种常见的欺骗类型:战略性虚假信息、宣传和恶作剧,以及两种欺骗策略:误导或伪造,如图1所示。下面是欺骗性新闻的示例推文以及三种欺骗性新闻类型的定义。0•恶作剧是一种旨在故意欺骗读者的错误信息[30]。恶作剧推文的例子:突发!距离重要核电站仅32英里的大规模火山喷发!Consciously Enlightened. •宣传是一种试图通过控制传播欺骗性、选择性省略和片面信息的方式来影响特定目标受众的情感、态度、观点和行动的说服形式[35]。宣传推文的例子:联合国计划到2030年为全人类实施全球生物识别身份认证。 •虚假信息指的是为了故意欺骗受众而构思的虚假事实[30]。虚假信息推文的例子:Soren Kern:欧盟对互联网言论自由宣战。0欺骗策略0这项工作的一个贡献重点在于分析误导和伪造的信息策略,如下所定义,并对区分它们的心理语言实现进行对比。0•误导策略包括主题变化、无关信息和模棱两可的情况:奥地利和斯洛文尼亚正在关闭与塞尔维亚的边界,以遏制难民流入。10•伪造策略处理矛盾或扭曲:乌克兰工程师在建造AN-178飞机时犯了一个错误,他们必须带着压舱水飞行。20最近在[1]中研究了其他类型的欺骗策略,例如夸张和省略。我们认为这些策略是误导策略的非常特殊的情况,需要背景知识来识别并排除它们。与以往的任何工作不同,我们分析和对比了欺骗性新闻类型、策略和数据来源之间的道德基础和内涵。我们还将我们的研究结果纳入依赖于机器学习和深度学习的预测模型中,以自动推断不同领域(摘要、网页和推文)中的欺骗类型和策略。为了评估模型的普适性和一致性,我们对比了在不同数据来源(领域)上的结果,并报告了从新闻内容中提取的不同心理语言信号(内容、句法、风格、内涵和道德基础)的预测能力。02 背景0以往的欺骗检测工作主要集中在口述和书面个人和犯罪叙述以及电话会议上[4, 12, 13,63]。直到最近,研究人员才提出了在线通信中的欺骗检测方法:书评、酒店评论或文章数据[14,15]。现有模型主要依赖浅层语言特征,如n-gram、词性标注、可读性和句法复杂性特征,结合先进的机器学习模型[36, 41, 46,53]。研究人员发现,欺骗的文本线索包括自我参照、否定陈述、抱怨和概括性内容。更具体地说,使用Linguistic Inquiry and WordCount(LIWC)特征[43]表明,与真实故事相比,欺骗性故事的认知复杂性较低,例如原因、知道;使用的排他性词较少,例如但是、除了;负面情绪词较多,例如讨厌、毫无价值、悲伤,动词动作词较多,例如走、去、携带;自我参照较少,第一人称单数代词较少,例如我、我、我的[39]。最近的工作侧重于构建预测模型以区分虚假和经过验证的新闻[45, 55],推断虚假新闻类型[50,61],评估信息可信度[62]。一些论文分析了虚假信息在网络上的传播影响,重点关注百科全书上的恶作剧[10,30],讽刺新闻[54]以及社交网络中的错误信息传播[6, 27, 48,58]。这个领域的大部分工作都集中在工程特征上,例如网络结构和浅层语义特征[1, 3,59]。最近的工作考虑了对语言的更深层次的语义理解,用于事实核查,并定义了一个统计模型来检测新闻中所有事件的提及,并评估每个提及事件是否发生的不确定程度[9,31]。本研究的重点不是研究社交网络中的错误信息传播。相反,我们分析了导致误导或伪造的虚假信息的语言实现01 反驳:奥地利和斯洛文尼亚与塞尔维亚没有共同边界。2 没有给出证据。0主题:新闻报道、错误信息、事实核查主题WWW 2018年4月23日至27日,法国里昂3https://github.com/tensorflow/models/tree/master/syntaxnetFrameMisleadFalsifyMisleadFalsify4https://keras.io/5http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScalar.html6http://scikit-learn.org/stable/modules/generated/sklearn.decomposition.TruncatedSVD.htmlTrack: Journalism, Misinformation, Fact Checking Track WWW 2018, April 23-27, 2018, Lyon, France5770欺骗类型:宣传、恶作剧、虚假信息0网页 17,872 5,297 166 推文 3,834 453 2050欺骗策略0误导性伪造摘要 616 1,376 网页 81 85 推文96 1090表1:数据集统计:新闻页面、推文和带有欺骗类型和策略注释的虚假信息摘要的数量。0陈述,并将这些心理语言信号纳入预测模型中,以自动推断不同领域中的欺骗类型和策略。03 欺骗数据集0本节介绍了我们分析所使用的三个数据集:虚假信息摘要、虚假新闻页面和推文,以及数据注释和预处理细节。03.1 虚假信息摘要0我们依赖于公开数据,这些数据标有确认的虚假信息案例(https://euvsdisinfo.eu/,@EUvsDisinfo),由欧盟东部战略传播任务部队在2015年至2016年收集。确认的虚假信息案例总数为1,992,平均每周报告36起案例。我们使用众包将虚假信息摘要标记为伪造和误导。我们首先标记了在反驳中包含不可证明、无证据、无证明、无支持证据等子字符串的摘要作为伪造。然后,我们向其他五名注释者展示了其余的虚假信息摘要和URL。对所有回答的成对注释者一致性进行了测量,结果为64%(至少四名注释者一致时为66%),所有回答的kappa得分为0.43(至少四名注释者一致时,得分为0.22)。总共,我们得到了1,376(69%)个标记为伪造的摘要和616(31%)个标记为误导的摘要。我们使用最先进的依存解析器SyntaxNet 3[47]解析了所有摘要、新闻页面和推文。我们提取了语法和句法:主语、动词和宾语以及词性标签。这是理解欺骗的代理人和主题以及对比不同欺骗类型的内涵的重要步骤。03.2 欺骗性新闻页面0我们按照虚假信息摘要中的URL来收集原始新闻页面。我们将虚假信息摘要中的误导性和伪造性标签传播到新闻页面上。对于我们的分析,我们只关注英文网页。总共有85个(51%)英文新闻页面被标记为伪造,81个(49%)被标记为误导。此外,我们下载了17,872个宣传和5,297个恶作剧新闻页面,以将虚假信息与其他欺骗性新闻类型进行对比。03.3 欺骗性推文0我们使用从解析的虚假信息摘要中提取的主语、动词和宾语元组以及虚假信息摘要的日期字段来查询Twitter公共API以提取虚假信息推文。我们收集了7,969条虚假信息推文和转推。经过去重(4,457条推文)和删除@提及、URL和RT(985条推文)后,我们删除了编辑距离和TFIDF余弦相似度大于0.8的推文,以避免过拟合。最终,我们得到了一份干净的样本,其中205条虚假信息推文被注释为误导性和伪造性。我们还收集了2016年产生的示例宣传和恶作剧账号生成的推文。除了用欺骗策略(例如误导性和伪造性)对推文进行注释外,我们还要求注释者根据[5]中提出的注释策略定义虚假信息的目标主题。我们报告了摘要和推文中虚假信息的热门目标主题。我们发现,虚假信息的最受欢迎的目标是政治、安全和经济。此外,推文和摘要更多地被用来误导而不是伪造有关政治和外交事务的信息。关于安全的摘要更多地是伪造而不是误导,但关于安全的推文更多地是误导而不是伪造。0摘要 推文0政治 46.7 41.7 55.9 37.0 安全 23.0 31.1 37.233.3 经济 9.6 3.5 3.5 10.2 犯罪 5.8 6.3 – 3.7文化 2.7 4.2 – – 公共 2.7 2.5 2.3 2.8 外部 2.7 3.91.2 9.30表2:虚假信息摘要和推文的热门目标主题。04 方法0本节介绍了用于推断不同领域的欺骗类型和策略的预测模型和不同类型的信号。04.1 预测模型0我们使用最先进的分类器——在scikit-learn[42]中实现的MaxEntropy和Random-Forest,以及在keras4中实现的基于LSTM和卷积神经网络(CNN)的模型[61],来预测欺骗类型和策略。我们使用10折交叉验证进行实验,并依赖于下面描述的词汇、句法、风格、心理语言学和内涵信号。04.1.1内容。对于机器学习模型,我们依赖于从网页、摘要和推文中提取的TFIDF特征。我们利用StandardScalar 5和降维6来避免过拟合。对于神经网络模型,我们使用预训练的Glove嵌入[44]来初始化嵌入层。0.02.55.07.510.012.5012305101557804.1.2风格、复杂性和可读性。我们依赖于设计用于衡量文本理解难度的语言复杂性和可读性特征,例如自动可读性指数(ARI)、Flesch-Kincaid可读性测试、Coleman-Liau指数和Gunning fog指数等。704.1.3句法。我们使用在书籍和酒店评论中被证明对欺骗检测有效的句法信号[36]。为了评估句法信号在不同领域的预测能力,我们依赖于由SyntaxNet [47]提取的词性标签。04.1.4偏见语言、道德基础和心理语言学信号。最近的研究表明,偏见词汇[52]和道德基础[61]能够预测社交媒体上可疑的新闻。我们概述了用于进行分析和预测模型的偏见语言词汇如下:•事实动词[29]:假设其补语从句的真实性,例如,意识到、知道、后悔。•肯定动词[24]:补语从句需要一个介词;确定性取决于肯定动词,例如,指出、声称。•报告动词[52]:包括动词,例如,承认、责备、批评。•限定词[26]:表达“暂时性和可能性”或对语句“保留承诺”的语言,例如,可能、可能、似乎。•暗示动词[28]:根据主谓结构的极性,暗示其补语的真实性或非真实性,例如,拒绝、犹豫、避免、忽视。•强调词和戏剧性副词:包括最高级和比较级,例如,最好的、阻尼器;动作、方式、情态副词,例如,意外地、自由地、真正地。•道德基础[20, 22,23]:基本的道德价值观源自人们支持的文化和进化因素——关心和伤害、公平和欺骗、忠诚和背叛、权威和颠覆、纯洁和堕落。人们在支持这些价值观的方式上存在差异;因此,不同类型的欺骗性新闻的作者可能会吸引其读者特定的道德基础。•心理语言学线索[43]:语言查询词计数(LIWC)线索包括命令、人称代词、情感语言、引语和包含。0“英国威胁伊斯兰国使用核弹”0作者0主0P ( w →主体)0P ( w →主题)0P (主体 → 主题)0作者对主体的情感消极0内涵框架0作者对主题的情感中立,作者对主题的情感消极0图2:例子的内涵框架07 https://github.com/nltk/nltk_contrib/tree/master/nltk_contrib/readability0情感0排除0有害美德0内群美德0LIWC:积极情绪0负面0乐观0积极0代词0自我0社交0主观0我们0语言信号0百分比0欺骗策略伪造误导0(a) 推文0身体0下降0家庭0听到0休闲0其他0物理0代词0体育0主观0最高级0你0语言信号0百分比0(b) 新闻页面0情感0愤怒0公平恶习0有害恶习0包含0休闲0否定0过去0介词0感官0体育0主观0语言信号0百分比0(c) 摘要0图3:有偏见和主观语言以及道德基础在误导和伪造陈述中的心理语言学标记(摘要的百分比,新闻页面的句子百分比,推文的百分比)。只报告统计显著的结果( p ≤ 0 . 05 )。04.1.5 内涵.内涵框架允许读者估计作者对句子主语和宾语以及主语对宾语的态度:积极、消极或中立,以及主语对宾语的观点 [ 51 ].内涵提供了一个词在字面或主要意义之外所引起的感觉的见解.例如,虚假信息摘要 大不列颠威胁 伊斯兰国家使用核弹的内涵如图2所示,包括作者 – −→ 大不列颠,作者 = −→伊斯兰国家,大不列颠 (主语) – −→ 伊斯兰国家 (宾语).0追踪: 新闻学,错误信息,事实核查追踪 WWW 2018,2018年4月23日至27日,法国里昂0255075100025507502550751000255075020406080020406080203040502550751000255075020406080204060805790俄罗斯0普京0北约0奥巴马0乌克兰0媒体0土耳其0波罗申科0克林顿 莫斯科0基辅0俄罗斯人0奥朗德0法国0西方0华盛顿0默克尔0中央情报局 欧盟0美国人0欧洲00 5 10 15 20 25 负面0积极0(a) 虚假信息: 作者 → 代理人.0俄罗斯0制裁0战争0金钱控制0石油 0权利0ISIS0联盟0情况0普京0武器0打击0关系0攻击0土耳其0权力0法律0部队0北约0空袭0军队0克里米亚00 5 10 15 负面0积极0(b) 虚假信息: 作者 → 主题.0战争0政府0世界0权力0金钱0叙利0恐怖分子0美国人 食物0证据0信息0计划0观念0ISIS0支持0真相0问题0权利0注意力控制0攻击0角色00 10 20 30 40 负面0积极040 5060 7080 中立0(c) 宣传: 作者 → 主题.0奥巴马 政0警察0美国人0以色列0战争0叙利亚0俄罗斯0恐怖分子0银行0法律0美国0ISIS0军事0克0孟山都0经济0次数0金钱00 20 40 60 负面0积极0中立0(d) 宣传: 作者 → 代理人.0奥巴马 0克林顿0警察0美国人0法院0民主党人0索罗斯0袭击0非法移民0恐怖分子0当局0共和党人0政府0基督徒媒体0自由派0国会0美国 000 10 20 30 40 消极0积极0(e) 恶作剧:作者 → 代理人。0人们0特朗普0奥巴马0美国0美国人的工作0克林顿0法律0世界0警察0战争0权利0金钱0真相0恐怖分子0问题0关注0事实0机会0秩序0控制0政府00 10 20 30 消极0积极0(f) 恶作剧:作者 → 主题。0图4:对比分析虚假信息、宣传和恶作剧推文和新闻标题的内涵框架。我们根据作者对代理人和主题的观点(积极-纵轴,消极-横轴)绘制图表。使用颜色渐变显示代理人和主题的主观性(中立性或客观性的相反)-颜色越深,观点越主观(中立性越低)。05 结果 5.1 误导性新闻的语言分析0图3展示了误导性和伪造性陈述在推文、新闻页面和摘要中的语言表现差异。首先,我们观察到误导性和伪造性的欺骗策略在不同领域以不同的语言方式实现。唯一共享的语言信号是主观语言、伤害、道德基础和否定。0其次,我们发现推文中最常见的是主观语言和情感信号,新闻页面中最常见的是代词和主观语言,而摘要中最常见的是介词和包含。有趣的是,推文中的HarmVirtue和IngroupVirtue道德基础差异显著,而摘要中的HarmVice和FairnessVice道德基础差异显著。最后,我们估计在误导性陈述中,语言比摘要和新闻页面中的虚假内容更主观,但在推文中不是如此;在摘要中有更多的介词,在新闻页面中有更少的代词,虚假内容比误导性内容中的摘要和新闻页面中有更多的介词。0追踪:新闻报道、错误信息、事实核查追踪WWW 2018,2018年4月23日至27日,法国里昂0.580.490.550.41RF0.570.570.360.780.510.470.250.690.710.690.690.69LSTM0.610.570.400.750.570.520.340.700.920.810.800.82CNN0.600.570.400.740.500.440.160.730.900.800.790.80ME0.540.530.400.650.580.560.390.730.780.760.740.77RF0.550.540.330.750.510.490.270.700.730.730.730.73LSTM0.610.570.390.650.600.460.200.720.930.820.800.84CNN0.590.620.380.730.560.510.240.780.860.730.720.75ME0.500.480.400.540.540.510.370.650.610.580.580.59RF0.540.630.330.750.480.480.320.630.590.580.560.60LSTM0.560.480.190.760.560.480.320.640.930.800.800.81CNN0.610.640.390.740.540.410.050.760.910.770.740.79ME0.500.530.360.620.470.430.320.550.560.510.360.67RF0.520.610.310.720.480.470.280.660.580.530.370.70LSTM0.620.570.380.750.600.550.380.720.930.820.810.83CNN0.630.660.420.760.530.410.040.780.900.770.740.80ME0.560.570.440.650.560.520.390.650.650.630.620.63RF0.540.650.320.760.540.530.340.710.650.630.630.63LSTM0.610.560.390.740.630.570.430.720.920.810.800.83CNN0.600.630.380.740.420.390.040.780.880.780.760.80ME0.580.640.430.740.460.420.240.610.830.820.800.83RF0.560.660.350.770.450.440.230.640.710.690.670.70LSTM0.610.570.380.750.540.480.270.690.920.820.820.82CNN0.600.650.390.750.500.440.190.690.890.770.750.795800摘要 新闻页面 推文0信号模型ROC F1 F1:M F1:F ROC F1 F1:M F1:F ROC F1 F1: M F1:F0内容0句法0风格0内涵0词典0全部0表3:使用不同信号(内容、句法、文体(可读性和复杂性)、情感(内涵)和词汇特征)预测欺骗策略(误导与伪造)在不同领域(摘要、网页和推文)的结果。基线随机森林(RF)和最大熵(ME)模型依赖于单个信号。神经网络模型LSTM和CNN结合了内容和单个信号。F1代表宏F1,F1:M代表误导类,F1:F代表伪造类。粗体标出了不同信号和领域中前预测模型的ROC和F1。0语言分析的意义。与之前的研究[45, 50, 61,62]不同,该研究分析了网络页面中宣传、谣言、点击诱导和可信新闻之间的语言差异,以及PolitiFact的声明和推文中的语言差异。我们专注于误导性和伪造性陈述之间的语言表现差异。有趣的是,与之前的研究相比,我们发现只有很小一部分语言信号对于区分误导性和伪造性陈述是有用的。我们的结果不仅显示了不同领域(新闻页面、推文和摘要)之间的差异,还确定了用于构建事实评估预测模型的有用语言表现,而无需依赖外部知识。我们的发现将使我们能够改进事实核查系统,超越假新闻分类[45, 62]。05.2 误导性新闻的内涵分析0确定对代理人和欺骗性内容主题的观点,是为了捕捉战略性错误信息和误导信息背后的隐藏动机。在图4中,我们对比了不同类型欺骗(误导、宣传和谣言)的代理人和主题的内涵。我们绘制了作者对代理人和主题的正面和负面观点,并概述了我们的主要观察结果。0作者 →代理人。误导信息的作者对欧洲、乌克兰持积极态度,对奥巴马和克林顿代理人持负面态度;对俄罗斯、华盛顿和西方持有正负面态度。相比之下,宣传的作者对军事、孟山都、议案代理人持有正面态度,对恐怖分子、叙利亚和中央情报局持有负面态度;对政府、以色列持有正负面态度。编造谣言的作者对国会、法院、当局代理人持有正面态度,对民主党、自由派、恐怖分子持有负面态度。0作者 →主题。虚假信息的作者对力量、权力、法律和金钱主题表达积极的观点,对土耳其和罢工表达消极的观点;对恐怖主义和制裁表达混合的观点。宣传的作者对真理、思想、权力主题表达积极的观点,对叙利亚表达消极的内涵。最后,恶作剧的作者对真理、警察、秩序主题表达积极的内涵,对政府表达消极的内涵。0内涵分析的意义。注意,我们的内涵分析结合了定量和定性方法:首先,我们自动解析推文以提取代理人、动词和主题;0追踪:新闻报道、错误信息、事实核查追踪WWW 2018年4月23日至27日,法国里昂LSTM0.82 ± 0.010.76 ± 0.040.76 ± 0.020.94 ± 0.010.87 ± 0.020.83 ± 0.030.87 ± 0.030.92 ± 0.02CNN0.780.050.710.100.750.060.880.020.800.020.750.030.780.050.880.03LSTM0.75 ± 0.040.72 ± 0.030.72 ± 0.080.82 ± 0.050.85 ± 0.020.79 ± 0.040.86 ± 0.030.89 ± 0.02CNN0.720.040.700.060.690.100.780.020.770.020.690.030.760.020.870.02LSTM0.66 ± 0.060.67 ± 0.060.65 ± 0.070.68 ± 0.080.84 ± 0.010.78 ± 0.030.84 ± 0.020.89 ± 0.02CNN0.540.060.480.100.630.050.520.060.740.050.660.080.740.040.830.05LSTM0.67 ± 0.030.67 ± 0.040.65 ± 0.050.69 ± 0.020.85 ± 0.020.79 ± 0.030.85 ± 0.030.90 ± 0.03CNN0.610.020.570.050.570.050.700.060.750.040.660.060.740.080.850.01LSTM0.67 ± 0.040.66 ± 0.040.66 ± 0.050.70 ± 0.030.85 ± 0.040.80 ± 0.040.85 ± 0.030.90 ± 0.04CNN0.640.040.650.030.570.070.700.070.760.040.680.060.760.050.850.025810新闻页面推文0信号模型 F1 F1:P F1:H F1:D F1 F1:P F1:H F1:D0内容ME 0.48 ± 0.02 0.54 ± 0.06 0.56 ± 0.03 0.34 ± 0.08 0.65 ± 0.04 0.52 ± 0.08 0.70 ± 0.06 0.73 ± 0.050句法ME 0.70 ± 0.04 0.68 ± 0.03 0.68 ± 0.07 0.73 ± 0.04 0.58 ± 0.04 0.55 ± 0.06 0.59 ± 0.05 0.60 ± 0.040风格ME 0.50 ± 0.09 0.35 ± 0.15 0.63 ± 0.02 0.51 ± 0.16 0.57 ± 0.04 0.44 ± 0.08 0.62 ± 0.04 0.64 ± 0.020内涵ME 0.43 ± 0.03 0.36 ± 0.08 0.44 ± 0.07 0.49 ± 0.04 0.39 ± 0.04 0.57 ± 0.05 0.11 ± 0.12 0.49 ± 0.030词典ME 0.53 ± 0.06 0.34 ± 0.13 0.63 ± 0.04 0.62 ± 0.04 0.57 ± 0.03 0.51 ± 0.07 0.59 ± 0.05 0.61 ± 0.040全部ME 0.57 ± 0.01 0.64 ± 0.04 0.67 ± 0.03 0.40 ± 0.04 0.72 ± 0.04 0.62 ± 0.07 0.76 ± 0.05 0.79 ± 0.030LSTM 0.81 ± 0.05 0.76 ± 0.06 0.76 ± 0.08 0.91 ± 0.02 0.86 ± 0.03 0.81 ± 0.04 0.86 ± 0.06 0.92 ± 0.010CNN 0.74 ± 0.12 0.66 ± 0.14 0.70 ± 0.16 0.86 ± 0.05 0.78 ± 0.03 0.71 ± 0.05 0.78 ± 0.04 0.86 ± 0.010表4:使用不同信号(内容,句法,风格(可读性和复杂性),内涵(目标观点)和心理语言学信号)预测欺骗类型(恶作剧,虚假信息和宣传)在不同领域(网页和推文)中的结果。基准随机森林(RF)和最大熵(ME)模型依赖于单个信号。神经网络模型LSTM和CNN结合内容和单个信号。F1代表宏F1,F1:H代表恶作剧类,F1:D代表虚假信息,F1:P代表宣传。不同信号和领域中最具预测性的模型的F1值以粗体突出显示。由于空间限制,省略了使用10折交叉验证获得的置信区间。0然后,我们通过动词对每个代理和欺骗性陈述的主题进行定量估计,得到针对每个代理和主题的有针对性观点(内涵);第三,我们定性地可视化针对不同欺骗类型的代理和主题的正面与负面观点。这种双重分析使我们能够展示战略欺骗的代理和主题在不同欺骗类型中的变化,并从而定性地识别出相同时间段内宣传与虚假信息与恶作剧推文的内容隐藏议程。这种隐藏议程的差异可能会深入了解在线共享的欺骗性内容背后的意图以及受到此类欺骗性内容影响的目标受众。此外,我们关于在线欺骗性内容背后内涵的发现将有助于研究社交网络中的错误信息传播,通过识别传播欺骗性内容的守门人和持久少数派,如恶意评论者和机器人[8, 38, 60]。05.3 预测结果0表3和表4分别呈现了两种虚假信息策略(误导和伪造)和三种欺骗类型(宣传,虚假信息和恶作剧)的预测结果。我们报告使用最先进的模型获得的分类结果:0MaxEntropy(ME),RandomForest(RF),卷积神经网络(CNN)和长短期记忆网络(LSTM)。我们评估和对比内容,句法,风格,情感和心理语言学信号在摘要,网页和推文等领域的预测能力。内容代表正在讨论的内容,例如目标主题,关键词;句法和风格代表如何讨论内容;内涵和心理语言学信号代表讨论的情感程度。我们使用接收器操作特征(ROC)曲线下面积加权,加权F1分数和每个类别的F1度量来报告模型性能。我们用LSTM模型结合内容信号作为欺骗类型预测的最佳模型在网页上得到F1为0.82,在推文上得到F1为0.87。我们用内容与内涵信号结合作为欺骗策略检测的最佳模型在摘要中得到F1为0.66和ROC为0.63;用内容与词汇信号结合作为欺骗策略检测的最佳模型在新闻页面上得到F1为0.57和ROC为0.63;用内容与内涵或句法信号结合作为欺骗策略检测的最佳模型在推文上得到F1为0.82和ROC为0.93。我们的更详细的发现如下所示。0追踪:新闻学,错误信息,事实核查追踪WWW 2018年4月23日至27日,法国里昂5820• 心理语言学信号:与之前在产品评论中的欺骗检测工作[36,39]不同,内容结合道德基础和内涵比句法和风格特征更能预测欺骗策略。有趣的是,对于预测欺骗类型(表4),内容>句法>内涵>风格>词汇信号。然而,对于预测欺骗策略(表3),内涵>词汇>句法>内容>风格。•预测模型:如预期的那样,神经网络模型,如CNN和LSTM,与基准机器学习模型相比具有更高的性能。•欺骗类型:与宣传(新闻页面的F1为0.76,推文的F1为0.83)或恶作剧(新闻页面的F1为0.76,推文的F1为0.87)相比,虚假信息(新闻页面的F1为0.96,推文的F1为0.92)更容易预测。•欺骗策略:如预期的那样,与欺骗类型相比,欺骗策略更难预测,尽管它是二元分类而不是三元分类。在新闻页面(F1分别为0.78和0.41)和虚假信息摘要(F1分别为0.78和0.49)中,虚假策略比误导策略更容易推断出来。然而,在推文中,虚假策略与误导策略的分类一样容易(F1分别为0.84和0.82)。推文中的句法更具预测性,新闻页面中的词汇,摘要中的内容。在所有领域中,内容对误导策略的预测性最强。•领域:与欺骗策略不同,欺骗类型在推文中(F1为0.87)比在新闻页面中(F1为0.82)更容易识别。06 总结与讨论0据我们所知,这是第一项专注于构建预测模型以推断多个领域中的欺骗类型和策略的工作,无论欺骗信息中的主题或事件如何,都通过分析和整合心理语言学信号(例如,欺骗性新闻内容背后的内涵和道德基础)到预测模型中。最近关于在线和社交媒体上的假新闻检测的研究主要集中在开发模型以区分虚假与经过验证的内容(二元分类)[11, 45],或者估计推文或PolitiFact声明的可信度水平(回归)[37,50, 62]。这些二元分类模型在新闻页面领域的F1值为78%[45],在社交媒体领域高达95%[61]。预测推特上信息可信度的回归模型[37]达到了68%,而预测PolitiFact声明可信度的模型分别为65%和27% [50,62]。只有[61]和[50]分析了语言差异以构建用于分类欺骗性内容类型(例如宣传、恶作剧、讽刺和标题党)的模型。我们的工作不仅超越了这一点,通过将虚假信息纳入多类模型中,还开发了推断陈述是否具有误导性或虚假性的模型。与最近的研究所针对的虚假信息(例如恶作剧[27, 32,58],谣言[48]和标题党)不同,虚假信息更难以捕捉和研究,尽管它对我们的社会更具有害和影响力。虚假信息是以诚实但错误的信念传达的不正确事实0如果说误导信息是指以诚实但错误的信念传达的不正确事实,那么虚假信息则指的是被刻意构造出来以欺骗受众的虚假事实。最后,我们的研究针对了一个经常被忽视的非常重要的模型普适性问题,并展示了预测模型、语言和内涵分析在在线新闻、虚假信息陈述和社交媒体等领域的普适性。在未来,我们计划通过依赖于[49]最近开发的多语言内涵框架,将我们的模型扩展
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功