沙特国王大学学报：负面情感推文讽刺检测的机器学习方法

56 浏览量更新于2024-01-27 收藏 1.08MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

沙特国王大学学报一种机器学习方法，用于分析使用负面情感推文的讽刺检测Vimala Balakrishnan，Vithyatheri Govindan，计算机科学与信息技术学院，马来亚大学，50603吉隆坡，马来西亚阿提奇莱因福奥文章历史记录：收到2021年2021年12月28日修订2022年1月17日接受2022年1月22日在线提供关键词：夸张、讽刺、情感分析、机器学习、相关性A B S T R A C T本文研究了负面情绪推文与讽刺检测的双曲线的存在收集了 6600 条预处理的负面情绪推文，包括#Chinesevirus，#Kungflu，#COVID 19，#Hantavirus和#Coronavirus，用于讽刺检测。利用三种著名的机器学习算法，即支持向量机、随机森林和带Bagging的随机森林，在无偏数据集中，当推文中存在双曲词时，所提出的具有拉长词的模型分别实现了78.74%和71%的准确率和F分数。发现强化剂是最显著的夸张（p0.0001）。实验和分析表明，双曲线存在于一个无偏的数据集，这有助于提高讽刺检测以及。版权所有©2022作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍讽刺无处不在，在面部表情，手势，甚至在文本中。它是主观的，基于一种情况或环境、人、语言甚至一个人的文化;它往往是积极和消极言论的结合（Ren等人，2020年）。当涉及到文本时，讽刺检测是一项有趣但具有挑战性的任务，因为由于缺少语调，表达或手势，与实际含义相比，它可能具有矛盾的元素。嘲笑的文本可以是有趣的或讨厌的，批评的或赞扬的，但都以这样或那样的方式潜在地传达讽刺（Zhu和Wang，2020; Vashishtha和Susan，2019; Sindhu等人， 2018; Filik等人， 2016年）。各种研究已经使用Twitter、Reddit和Facebook进行sar- casm检测，然而Twitter仍然是最受欢迎的媒介，这可能是由于大量的推文及其元数据可以被轻易地拖网（Yunitasari等人， 2019年）的报告。例如，主题标签（#）传达了预期含义的确切含义*通讯作者。电子邮件地址：vimala. um.edu.my（五）Balakrishnan）。沙特国王大学负责同行审查制作和主办：Elsevier因此，它们可以是用于文本分类的非常有用的资源（Al-Ghadhban等人，2017; Ramteke等人， 2016年）。以下文字显示了用户在2019冠状病毒病大流行期间分享的讽刺推文示例：只是坏消息。去看医生3个月后C随访。Ppl hv血压，神经，脉搏，慢性疼痛的多个问题。这也是年轻人的问题。脱发是最不重要的问题。后果太可怕了。#ChinaLiedPeopleDied #CCP China（公主，2021）。还剩下什么？#onlymoneyleft #nosoul #fuckccp #china #hongkong#boycottchina#standwithhongkong#thecityisdying （ IFC ，2021）.中国在向全世界出口#武汉病毒后，正在乞求访问#武汉（Rai，2021）。毫无疑问，#讽刺，#选举，#讽刺，#东京2020等标签在特定主题，领域或事件的信息收集中具有实质性意义（Badgaiyya等人，2021）以及用于数据集获取，因为它们在推文中的分类标签使用中是明确的（Kunneman等人，2015年）。然而，这些自我声明的标签可能会影响注释过程（Vijayalaksmi和Senthilrajan，2017），特别是在提取模式或观点时，因为它们可能与注释者在确定文本是否讽刺时的决定相矛盾。过去的大多数研究都是在使用与XML相关的主题标签收集的数据集上进行的。Kunneman等人（2015年）使用了#sacrifice，#irony，#cynicism和#not，Bharti等人（2016年）只关注#sacrifice和#sar-castic标签，Bouazizi和Ohtsuki（2016年）提取了数据https://doi.org/10.1016/j.jksuci.2022.01.0081319-1578/©2022作者。由爱思唯尔公司出版代表沙特国王大学这是一个在CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comV. Govindan和V. Balakrishnan沙特国王大学学报5111与#sacrifice，#sarcasic和#not相关的研究。主题标签通常用于提取文本中存在的讽刺模式，但是，在注释过程中或训练模型时删除这些主题标签非常重要，因为它们可能会影响模型的性能。因此，本研究中使用的数据集不包含任何讽刺相关的标签。直到Web 2.0的出现，传统的方法如调查和问卷是从文本中提取和识别观点或模式的主要方法。机器学习和人工智能技术有助于最大限度地减少情感分析、意见挖掘、文本分类等的时间和精力（Mishra和Jha，2012年; Moreo等人，2012年）。情感分析在决策制定、数据挖掘、意见挖掘、知识管理等方面至关重要，并广泛应用于许多领域，如电信，医疗，环境，政治等，以及不同的语言（Almuqren和Cristea，2020年; Phan等人， 2020; Mee等人， 2021; Kandasamy等人，2020; Matalon等人，2021; Basiri等人，2021; Abdar等人， 2020年）。例如，Almuqren和Cristea（2020）手动标注阿拉伯语推文进行情感分析，以挖掘电信行业用户的满意度。其他人，如Phan et al.（2020），Abdar et al.（2020）和Kandasamny et al.（2020）分析了带有模糊情感的推文，而Basiri etal. （2021）公众评价来自八个国家关于COVID-19疾病的意见用于使用机器学习技术进行讽刺检测的三种常见方法是词汇、夸张和语用（Ren等人，2020; Mukhtar等人，2018; Haripriya等人，2017年）。词汇方法使用单词词典来分析单词或短语（Vijayalaksmi和Senthilrajan，2017; Kolchyna等人， 2016年），夸张捕捉文本模式与感叹词和强化词，经常用来强调文本，而务实的方法提取情感和表情符号的文本（Bouazizi和Ohtsuki，2016年; Signhaniya等人，2015年）。以往研究中利用夸张特征进行SAR- CASM检测，仅限于一个或两个夸张特征.例如，Yunitasari及其同事（2020）和Ptacek等人（2014）使用大写字母和标点符号来检测讽刺，Sonawane和Kolhe（2020）和Rahayu等人（2018）结合了感叹词和标点符号（感叹号，问号，大写字母和单词引号），而Jain等人（2020）仅使用标点符号（感叹号，问号，大写字母和单词引号）。这一证据表明，标点符号，因为感叹号、问号和引号可用于指示文本中的不同语调，因此可用于检测讽刺（Kunneman等人，2015年; Bouazizi和Ohtsuki，2016年）。研究人员经常结合各种方法来提高讽刺检测。例如，Signhaniya等人，（2015年）和Vijayalaksmi和Senthilrajan（2017年）结合了词汇，夸张和语用方法来检测使用词袋的讽刺，后者也专注于消极情境中的积极情绪，而Bharti等人，（2016）和Suzuki等人，（2017）使用词汇和夸张的方法来识别极性和检测讽刺。将几种方法结合起来有优点也有缺点。表1示出了过去并入讽刺检测模型的不同夸张特征的总结。讽刺检测通常与情感分析相结合，以识别消极，积极或中性的情感，研究表明讽刺通常与使用强化积极词汇的消极情感相关（Kumar和Harish，2018）。情绪分析有助于分析不同的实体，即，单词、文本或短语（Sindhu等人，2018年）。夸张通常与讽刺有关（Burgers等人，2018; Carston和Wearing，2015），并且是讽刺检测的重要特征（Vijayalaksmi和Senthilrajan，2017），因为它们加强了句子以阐述预期的含义。比如说，感觉棒极在下面的例子中，这个词是用来表示早起的不快或不高兴。awesome这个词是一个加强词，也可以用在积极的语境中，表达消极的情绪。‘‘It is an awesome feeling to wake up at 4.30am today despite itbeing a “该研究旨在评估夸张的存在以及它们如何影响讽刺检测模型。无偏数据集（即，没有任何讽刺相关的标签），重点是五种类型的夸张，而不是过去的研究（ Kunneman 等人， 2015; Bharti 等人， 2016;Bouazizi和Ohtsuki，2016; Jain等人， 2020年），它收集了与网络安全相关的标签数据集。Bouazizi和Ohtsuki（2016）和Ptacek等人的研究。（2014）在注释过程中没有删除主题标签，因此这可能影响了注释者的决策，从而影响了检测性能。为了解决这个问题，我们使用#Chinesevirus 、 #Kungflu 、 #COVID 19 、 #Han- tavirus 和#Coronavirus标签收集数据，这些标签通常集中在病毒首次被识别的社区、国家或人群（Rodrigues de Andrade et al.，2021; Choli和Kuss，2021）。有证据表明，与这些标签相关的通信充满了种族主义，仇外心理和讽刺性言论（XXX，2022; Dev，2021; Freedom 1984，2021）。过去的大多数研究集中在消极情境中的积极情感或消极情境中的积极情感等模式上（Jain等人， 2020年; Ren等人，2020; Kumar等人，2020 年 ; Vijayalaksmi 和 Senthilrajan ， 2017 年 ; Daughoff 等人，2013）和双曲线的有限使用，例如Ptacek等人，（2014），Rahayu等人，（2018）、Bharti等人（2015）、Bharti等人（2016）等，如表1所示。消极情绪可以表达不同的情绪、沮丧和愤怒（Garcia，2020），夸张可以强化个体的情绪（Ghanbaran等人，2014年; Norrick，2009年）。然而，如表1所示，缺乏特别关注负面情绪的讽刺检测研究（Kumar 等人， 2020; Sonawane 和 Kolhe ， 2020; Vijayalaksmi和Senthilrajan，2017）。研究表明，与网络欺凌、种族主义和讽刺等反社会行为有关的评论更倾向于包含负面情绪（Rodrigues de Andrade等人，2021年;O 'Connor等人，2021; Chia等人，2021; Sadiq等人，2021; XXX，2020; XXX，2022; Chakravarthi等人， 2021年）。夸张是讽刺的一个重要标志，因为它是夸张或夸张的一种形式。夸张和讽刺/反语是相互关联的，并且经常作为研究者之间的话语讨论的主题出现（Desai等人，2021; Kunneman等人，2015年）。夸张强调词语或陈述的预期含义，以突出期望和现实（Burgers等人，2018;Carston和Wearing，2015）。本研究的主要贡献是：提出了一种基于双曲线特征的讽刺检测模型，该模型包括感叹词、加强词、大写字母、标点符号和拉长词五种双曲线。讽刺检测模型的训练和测试使用负面情绪推文，以提高检测模型的性能实验中使用了一个基于COVID-19通信的新策划数据集，该数据集是在时间轴内收集的，当时在线通信充斥着负面评论，包括与种族主义、政治和政府政策有关的评论因此，所提出的讽刺检测模型是在不包含任何sar-casm相关标签的“无偏”数据集上训练的本研究提出了一个基于夸张的讽刺检测模型（HbSD），该模型综合了夸张的前五个特征（插入、加强、大写字母、标点符号和拉长）●●●V. Govindan和V. Balakrishnan沙特国王大学学报5112表1具有夸张特征的讽刺检测。引用夸张词汇务实其他增强器感叹词大写字母标点符号延伸词基于双曲线的讽刺检测（HbSD）/////Ptacek等人，2014Bharti等人，2015Kunneman等人，2015/////////Signhaniya等人，2015Bharti等人，2016//////Suzuki等人，2017Bouazizi和Ohtsuki，2016年////////Vijayalaksmi和Senthilrajan，2017年Rahayu等人，2018////////Jain等人，2020Kumar等人，2020/////Sonawane和Kolhe，2020Yunitasari等人，2019///////word）。我们认为，夸张，如大写字母，拉长的词和增强器的探索，但它们存在于sar-casm标记的推文中的数据集，不包含任何特定的标签相关的讽刺，以及它有助于提高sar-casm检测模型。对每个双曲线分别进行评价，选出最佳双曲线组合。第2节描述了所提出的模型。结果和讨论见第3节，结论和局限性见最后一节。2. 方法本节将详细介绍所提出的基于双曲线的讽刺检测模型的每个阶段这些阶段包括数据采集和预处理、情感分析、夸张特征提取、讽刺检测和评价。2.1. 基于双曲线的讽刺检测模型（HbSD）图1描绘了所提出的基于双曲线的讽刺检测模型的整体架构。图1中每个阶段的简要概述如下：第一阶段包括从Twitter平台收集数据，然后进行数据预处理以消除噪音（第2.2）第二阶段包括情感分析，仅选择负面情感推文（第2.3）第三阶段是注释过程，特别是将推文标记为三类第四阶段围绕夸张提取（第2.5）最后是讽刺检测模型（HbSD）和夸张分析Fig. 1. 总体HbSD模型架构。●●●●●V. Govindan和V. Balakrishnan沙特国王大学学报51132.2. 数据集、数据收集和预处理于二零二零年三月二十三日至二零二零年四月三日期间，我们使用Streaming Twit- ter API收集了合共536，719条推文，该等推文包括#Chinesevirus、#Kungflu、#Coronavirus、#Han- tavirus及#Covid19 主题标签。 #Chinesevirus ， #Kungflu 和 #Hantavirus 是在#Coronavirus和#Covid 19被发现后引入的一些最初名称（Choli和Kuss，2021）。初步分析，标签揭示了讽刺的元素存在于数据集中。由于疫情在全球造成高死亡人数，许多人受到影响，对中国的苛刻被认为是正常的，因为该病毒于2019年底首次在中国发现并开始传播，引发了全球危机，目前仍在继续（ Choli 和 Kuss ， 2021; RodriguesdeAndrade et al.， 2021年）。数据预处理的第一步包括清理噪声数据，在本研究中使用Excel和Python完成Excel任务包括删除转推、重复、空行和非英语语言。另一方面，Python脚本用于删除表情符号，非ACSII和字母数字字符，URL和用户提及等。图图2描述了预处理步骤的流程，并从本研究中使用的数据集中检索了一个样本tweet。保留了问号、感叹号和大写字母在完成所有预处理任务后，共剩余115 756条推文2.3. 情感分析TextBlob是一个简单的内置Python文本处理库，具有情感分析，分类，语言检测等功能。极性计算确定文本是正（>零），负（零）还是中性（零）。情感分析对于衡量人类的表达是很重要的，在这项研究中，作者特别使用了负面情感来检测讽刺。由于讽刺通常与消极相关联，因此专门选择消极推文以改善讽刺检测机制（Ren等人，2020;Kumar and Harish，2018）。的示例一条负面推文如下所示：‘‘-0.263对数据的分析显示，大多数推文都是积极情绪（N = 47，873），其次是中性（N = 43，204）和消极（N = 24，679）。大约三分之一的负面推文是为数据注释准备的。在这项研究中，情绪分析分两个阶段进行;第一阶段是隔离负面推文用于注释目的，而第二阶段用于夸张分析。以下各节将对此进行详细阐述。2.4. 数据注释四位熟悉该主题的语言学家专家对数据集进行了注释。向他们提供了一小部分注释和定义样本，以供澄清。定义了三个主要的类，并要求四个注释器标记与各自定义匹配的给定tweet，如下所示讽刺：故意用尖锐、尖刻或尖刻的评论来嘲笑或传达企图的推文。例如，在一个示例中，我想艾滋病就没那么可怕了种族主义：显示或感受到对其他种族的歧视或偏见，或认为某个种族或国家优于另一个种族或国家的推文。例如，在一个示例中，中国说谎这些人死了中国说谎美国人在死中国说谎世界在死其他：不属于上述任何一类的推文。E.G. 新加坡关闭1个月这项研究是一项更大的正在进行的研究的一部分，研究讽刺和种族主义的不同模式，因此包括种族主义标签。每个语言学家都有三周的时间来完成数据注释。该数据集包括6，600条推文，其中2，461条，1，514条和2，652条分别被标记为讽刺，种族主义和其他。2.5. 特征提取本研究通过半手工的方法提取了五个夸张特征，即大写字母、加强词、感叹词、标点符号和拉长词。使用Python脚本提取双曲线，然后进行手动验证。第二部分对提取的夸张特征进行了验证。使用频率法来计算标点符号的数量，因为这反映了标记图二. 预处理任务管道。●●●V. Govindan和V. Balakrishnan沙特国王大学学报5114（Sonawane和Kolhe，2020）。换句话说，每个标点符号的数量（例如，句号、感叹号和问号）通过计算其出现次数来确定（Bouazizi和Ohtsuki，2016）。标点符号将在标记化和词形化阶段被删除，因此在进行标记化和词形化之前首先应用频率方法。标记化和词形化被用作Python脚本的一部分，以识别四种不同的双曲线，即加强词、感叹词、大写字母和拉长的单词。首先，在标记化阶段，推文被分解为单个单词。英语中的“the”、“a”等停用词被删除。最后的推文由词形化的单词组成，特别是经过人工验证的双曲线。图3显示了一个tweet样本的标记化和词形化过程。在这里，很明显，单个单词每当识别夸张特征时，设置布尔值1，否则设置零。对于标点符号，当至少存在一个标点符号时，设置布尔值1，如果不存在，则将其设置为零。由于数据集中存在大写单词，因此需要手动验证。政党（CCP -中国共产党，NGO -非政府组织）、世界卫生组织（WHO）和国家（美国-美利坚合众国，联合王国-联合王国等）等实体，没有其他大写字母存在于同一条推文中，不被认为是功能的一部分，因为这些是官方缩写。例子1：对那些坐在家里无所事事的薪酬过高的首席执行官们采取严厉措施。在上面的例子中，CEO（首席执行官）是一个用作指定的实体，因此此tweet的布尔值将为零。2.6. 实验本研究采用了两种方法，一是对讽刺进行分类，二是对有意义的夸张进行分析。在这项研究中进行的实验是基于两个类的设置，其中包括讽刺和种族主义标记的数据集。2.6.1. 机器学习机器学习算法，即SVM，RF和RF与Bagging被用来检测负面推文中的讽刺。SVM是用于文本分类的最常用的分类器之一。RF通过将数据集分割成更小的块来构建多个决策树，这将有助于减少类不平衡，并且具有Bagging的RF使用Bagging分类器作为随机森林分类器（Sarsam等人，2020; Jain等人，2017; Bharti等人，2017年）。我们使用了两个类的设置，包括讽刺和种族主义标签的推文作为基线模型。结合每个夸张特征和基线模型进行进一步分析。首先，确定了最显著的夸张。然后，将该显著夸张与其他夸张相结合，最后将所有夸张与基线模型相结合以检测讽刺。共图三.夸张特征提取步骤。V. Govindan和V. Balakrishnan沙特国王大学学报5115对16个模型进行了评价。使用的命名约定如下：● 基线模型：BM● 基线+感叹词：BM + HbSD感叹词● 基线+增强剂：BM + HbSD增强剂● 基线+大写字母：BM + HbSD大写字母● 基线+延长词：BM + HbSD延长词● 基线+标点：BM + HbSD标点● 基线+所有（代表所有五种夸张）：BM + HbSD所有● 基线+ 资本字母+ 感叹词：BM + HbSD大写字母+HbSD感叹词● 基线+ 大写字母 + 标点符号：BM + HbSD大写字母+HbSD标点● 基线+大写字母+加长词：BM + HbSD大写字母+HbSDElongatedWord● 基线 + 资本信 + 增强剂：BM + HbSDCapitalLetter+HbSD增强剂● 基线+延长词+强化剂：BM + HbSD延长词+HbSD增强剂● 基线+延长词+标点符号：BM + HbSD延长词+HbSD标点● 基线+延长词+感叹词：BM + HbSD延长词+HbSD感叹词● 基线+标点+增强剂：BM+ HbSD标点+HbSD增强剂● 基线 + 标点 + 感叹：BM+ HbSD标点+HbSD感叹词所有模型都是使用Python进行评估的，测试和训练之间的比例为702.6.2. 夸张分析通过夸张分析，考察了讽刺模式与夸张的关系.本文还对仅包含讽刺和种族主义标签的推文的两类基线模型进行了分析，使用皮尔逊相关系数（PCC）来发现显著的夸张特征。2.7. 评价使用标准准确度和宏观平均（精确度，召回率和F分数）指标来评估模型。精确度与被正确分类为讽刺并且属于讽刺类的推文有关，而召回度是对正确识别的讽刺推文的测量。F-score是精确度和召回率的加权平均分数（Suzuki等人， 2017年）。相关系数（r）和p值用于确定显著性双曲线。r值显示了夸张和讽刺推文之间的相关强度，范围在-1和1之间。3. 结果和讨论本节介绍并讨论了sar- casm检测模型的性能，以及夸张的分析。3.1. 基于双曲线的讽刺检测模型机器学习方法被应用于检测有助于讽刺检测的超级boles，性能结果在表2中示出。完整结果见附录A。没有任何夸张特征的基线模型被发现表现相对较好，准确率为76.13%。至于双曲线，拉长词模型的准确率最高，达78.74%.示例1是一个tweet的示例，它有一个拉长的单词morooooon（moron）。例子1：一个生活在妄想的媒体泡沫中的人再次宣传中国的宣传中国是我们的敌人我从以前就一直在说这句话，佩斯顿是媒体上对中国人有用的白痴之一。像“嗯”、"LOLOLOLO“、”waaay“这样的拉长词它们类似于强化词，有助于间接增强单词的重要性，或在上下文中强调其含义（ Nadali ， 2016; Karthika 等人， 2017;Wijeratne 等人， 2017年）。Bouazizi和Ohtsuki（2016）使用了类似的方法，但在他们的研究中，他们只检查了包含重复元音的单词，这些元音存在两次以上使用拉长的单词背后的意图可能反映了基于他们情感的特定语调（Bouazizi和Ohtsuki，2016）。过去的几项研究，如 Bharti 等人，（ 2015 ）， Suzuki 等人，（2017）和Kumar等人，（2020）探讨了感叹词在检测讽刺，然而，使用词汇以及。当单词不是数据库的一部分时，具有词典方法的缺点是可伸缩性（Neviarouskaya等人，2009年）。Bharti等人开发的模型，（2015）的F分数为90%，但讽刺的标签没有在他们的数据集中删除，因此这导致了注释过程中的偏见。例2：1120页的救济法案？WTF？！？！？这项法案她只是关于美国人民的福祉，而不是别的！从上面的例子2中可以看出，感叹词可以出现在推文中的任何地方，即使在大多数情况下，它们确实出现在推文的开头以显示突然的发声（Bharti等人，2015年）。我们识别出了感叹词，而不管它们在推文中的出现位置如何，结果显示RF与Bagging模型的准确率为76.81%。最后，本文还对其中最显著的夸张特征进行了进一步的分析。作为一个单一的夸张特征，拉长词表现得很好（见表2）. 从的结果实现通过‘‘BM + HbSD结果表明，大写字母的拉长词表现良好，准确率为77.31%，F分数为69%。结果得出结论，夸张增强了讽刺检测，与Kumar等人（2020）一致，Kumar等人将夸张和法律方法结合起来，使用标点符号和感叹词的相似频率计数来检测讽刺。表3显示了过去一些研究中采用的不同方法、情绪和数据集之间的分析。准确度从比较中排除，因为所有研究均未报告准确度。过去的大多数研究只探讨了几个夸张的，但他们结合了其他方法以及。HbSD用五个双曲线进行实验，该模型的平均精度达到75%，可以认为是好的。模型评估在过去的研究中，获得了与HbSD相当的结果，并广泛探索了双曲线特征，如感叹词和标点符号（见表2，过去的研究总结可以得出结论，HbSD表现良好，因为主题标签与影响全球许多人的当前流行病的来源明确相关，而且他们在这些主题标签下发表的激烈言论和意见也很明显。这项研究中收集的数据集使用与COVID-19大流行相关的标签是无偏见的，并提取了夸张词以检测讽刺。夸张在检测讽刺中起着至关重要的作用，这可以从模型采用单一方法而不是其他混合方法所取得的结果中看出。模型实现的结果平均约为70%，这可以被认为高于表3中的大多数现有技术模型实现的平均得分。V. Govindan和V. Balakrishnan沙特国王大学学报5116表2显著HbSD结果。模型算法精度精度召回F-score基线模型（BM）讽刺+种族主义（3975）RF76.130.690.680.68BM + HbSD加长字BM + HbSDEWRF +装袋78.740.780.630.71BM + HbSDCapitalLetter+ HbSD ElongatedWordBM + HbSD CLEWRF +装袋77.310.690.690.69表3提出的模型和以前的研究的精确度，召回率和F分数模型性能情绪/方法+/-单词+标点符号+LIWC* 注：BoW =词袋;+=正;-=负; LIWC =语言调查和字数统计。3.1.1. 夸张特征分析本文采用一种简单的夸张分析方法来考察夸张与讽刺的关系。夸张分析只进行讽刺标记的推文。表4显示了两类设置中每个夸张的总计数，包括讽刺和种族主义标签的推文。研究结果表明，加强词主要用于加强语篇，以表明讽刺的意图。第3章：认真的？你真的认为中共会说出感染人数的真相吗？看看香港、台湾、朝鲜、俄罗斯，我们没有人相信中共的一句话，这在上面的例子3中，单词really是一种用来加强单词think的强化词。用户可以在推特上说“认真的吗？”你认为CCP... . ” but they used theword 强化在交际中很重要，在给读者留下深刻印象、侮辱或说服读者方面起着至关重要的作用。所使用的词语可以影响听者对上下文的接收（Ghanbaran等人，2014）以及间接传授讽刺（Norrick，2009）。数据集中常用的强化词的其他例子是绝对，相当，完全，完全等。在同一个例子中，单词Seriously被识别为感叹词，其中标点符号的使用，即，双问号？？“甚至进一步表明讽刺的动机是一种突然的叫喊或叫喊。严重的附加标点符号表明，用户是在怀疑或相当惊讶。在这条推文中，用户可能对政党感到震惊或慌乱中共）不揭露真相的立场通过皮尔逊相关系数（PCC）的相关分析，发现讽刺与本研究中使用的五个双曲线表4总推文与夸张的功能。结果与具有不同夸张特征的总推文的频率（1，328个增强器）密切相关，如上面的表4所有五个夸张特征的相关系数（r）和p值结果如表5所示。结果表明，增强词与讽刺推文的关系最强（r = 0.052和p.001），与表4中的发现相关，大多数推文由增强词组成，以提高用户施加的讽刺。感叹词、标点符号和大写字母等夸张词与讽刺也有正相关关系，p值>0.001，<1.延长的单词，如yesssss，hellllyeaaaahh等，可以表达强烈的情感，并在识别sar-casm方面具有很大的影响（Nadali，2016; Karthika等人，2017）以表明夸大（Sindhu等人，2018年）。感叹词，如aah，亲爱的我，等，当用于推文可以表达不同的情绪，当与标点符号一起使用时，往往表示讽刺（库马尔等人，2020），如在下面的实施例4中可见。这条推文有多个问号和感叹词WTF。示例4：WTF？现在真的是谈钱的时候了？表6显示了讽刺数据集中最常用的一些强化词，这些强化词是使用Python脚本在1,328条包含强化词的tweet上确定的。该脚本通过迭代tweet中的每个单词来计算单词的频率。第二作者也验证了前十个确定的强化词在言语交际中，加强词语的强度以表达某种情感，如赞扬、打动、侮辱、说服或影响听者的接受是很重要的。用不同的语调或面部表情更容易展示这些情绪（Vashishtha和Susan，2019年; Alqarykirk等人，2020年，但当涉及到文本时，这是一项艰巨的任务。因此，诸如so，very，really等加强词有助于人们识别预期的情绪或加强它后面的词（Norrick，2009）。Vijayalaksmi和Senthilrajan（2017）确定了诸如wow，awesome等用于表达情感或夸张的强化词。使用加强词有助于强调一个词或通过突出声明来暗示语调，但这也是读者解释的主观因素例如， 2021年）。精度召回F-score双曲讽刺检测0.780.630.70否定+延长词（HbSD）0.700.650.67否定+感叹词0.770.770.77否定+感叹词+标点符号0.720.610.66否定+感叹词+加强词+大写字母+标点符号+拉长词Rahayu等人，20180.740.920.82肯定+讽刺+感叹+标点符号+BoWSuzuki等人，2017Kumar等人，20200.790.730.560.830.630.77+/-情绪/情景+感叹词+词汇Kunneman等人，2015Signhaniya等人，2015年Bouazizi和Ohtsuki，2016年0.350.670.91不适用0.590.73不适用0.630.81加强词+标点符号+词汇情感+加强词+标点符号+BoW+语用+/-词+感叹词+大写字母+标点符号+拉长词+词汇+语用感叹词增强器大写字母加长字标点符号讽刺2461534132836224826种族主义151429562624310433总39758281954605341259V. Govindan和V. Balakrishnan沙特国王大学学报5117表5显著的PCC夸张结果。夸张特征系数（r）p值感叹号 *0.0260.101增强剂 *0.123<0.001标点符号 *0.0520.001大写字母ElongatedWord*-0.0180.0171.1430.296* 显著相关表6中的tweet例子中的脏话作为一个加强词，它显示了对共产主义这个词的强调，作为一个感叹词，它是一个暗示的突然评论（Norrick，2009; Ghanbaran等人，2014年，向共产主义者。感叹词Fucking可以用来表示积极或消极的情绪（Norrick，2009）。积极情绪的一个例子是尽管如此，这两种语境都把脏话用作感叹词。讽刺是一种诡辩的文本，因此玩弄文字有助于识别它（Kumar等人，2020年）。多个夸张的组合表达了文本中丰富的情感形式（Hsiao和Su，2010），这对检测讽刺很有用。例5：宣传他们怎么敢这样做庆祝成千上万的人在难以置信的死亡！真恶心！搞什么鬼！例5是另一个带有三种不同夸张的推文的例子，即感叹词、大写字母和标点符号。Unbelievable和Disgusting是感叹词，WTF包含大写字母和两个感叹号。每一个夸张的句子都带有读者视角的表达和语调。用户可以在没有感叹词Unbelievable和Disgusting的情况下发推文，但他们用这个来传达痛苦的评论来表达他们的情感。这间接地表达了讽刺，尽管大流行造成了许多人死亡，但人们仍在庆祝。本节列出的所有例子都清楚地表明，双曲文本与讽刺高度相关（Norrick，2009），使用双曲也可以增强讽刺。4. 结论、局限性和今后的工作讽刺检测是一个文本分类的挑战，并不是一个容易的壮举，自动检测其存在。许多方法表6十大强化词。增强器频率推文所以223为什么有这么多仇恨？刚从提布利吉是不是啊？Don’t spread太54你对讽刺的理解力也被扼杀了吗？非常46It’s需要吐垃圾真39第一次我真的很失望时机不对真的时机不对不管是谁建议你这么做的都是个傻瓜每34在你决定从你的潜艇里中国武汉的人类湿货市场创下世界纪录停止说谎，停止吃每一个该死的致命34所有人都要签这个！必须支付他们的致命的谎言严重30如果你真的想再投a的话记住这个日子，再他妈29该死的共产主义和左派宣传可耻恶心26多么恶心的逻辑实际25我实际上认为中国政府文化比文化本身和方法，但在本研究中，不常见的夸张特征，如大写字母和elon-gated字，以提高讽刺检测。这项研究使用了一个无偏见的数据集（没有讽刺相关的标签），特别关注通过情感分析识别的负面推文。所提出的HbSD模型产生了75%的平均准确度此外，夸张分析显示，加强和标点符号有显着的关系，与讽刺文本。值得注意的是，加强词，大写字母和细长的贡献显着的讽刺检测的基础上的讨论和取得的结果在前一节。在本研究中，与没有任何特征的基线模型进行比较，并且当特征作为单一特征或组合特征引入时，HbSD表现相对优于基线模型。在本研究中使用负面情绪的其中一个优点是，它通过使用夸张的方式传达信息来强调用户对疫情的情绪，从而直接本研究主要关注负面情绪推文和从这种负面情绪中提取的夸张，这被认为增强了讽刺检测，与先前使用负面评论改进其检测机制的研究一致（Jain等人，2020年; Ren等人，2020年; Daughoff等人，2013年）。讽刺言论的早期检测可以预防反社会行为，种族主义，网络欺凌等。此外，在这项研究中使用了无偏见的数据集，因此HbSD模型可以被认为是可靠的，因为该模型不受任何现有的讽刺相关标签的影响，不像过去的研究，如Kunneman等人，（2015），Bharti等人，（2016），Bouazizi和Ohtsuki（2016）等。本研究发现了一些局限性。首先，实验中使用了两个类别的设置，包括讽刺和种族主义标签的推文该模型在两个负面标签（讽刺和种族主义）上进行训练，这两个标签表现良好，然而，未来的研究可以包括其他标签，这可以反映真实情况（Ptacek等人，2014; Signhaniya等人， 2015年）。可以利用随机过采样或随机欠采样来克服类不平衡问题。进行了三个类别设置的初步实验，所有三个标签，但模型仅达到58.62%的准确率，因此排除了其他标签。诸如感叹词和增强词的夸张词被手动提取和验证，以确保它们正确地表达、强调或增强情感或情绪，因此这是耗时的。未来的研究可以考虑使用词典或字典来存储这些类型的双曲线，这也可以用作其他语言的基础，例如Ptacek等人，2014年捷克Twitter语料库Yunitasari et al.（2020）for

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

沙特国王大学学报：负面情感推文讽刺检测的机器学习方法

情感分析与讽刺检测

讽刺检测

瑕疵检测代码-matlab-Defect-Detection:Matlab代码用于基于ExtremeEdge的缺陷检测，如以下文章所示：Zou

算法设计沙特答案csdn

出货国家：GA:美国/墨西哥/英国/加拿大/日本/沙特/阿联酋/德国ROW:韩国 这段话中GA和ROW的意思

大地电磁测深正演fortran

算法设计技巧与分析沙特答案csdn

算法设计与分析沙特np问题

python 编程 使用字典存储国家和首都，假设存储20个国家和他们的首都，程序提示用户回答10国家的首都并显示用户答对的个数。 >>中国的首都是？北京 （回车） >>日本的首都是？ 东京 …… >>回答正确8次

用echarts绘制世界地图

stc-isp对winxp打不开

国外手机号码正则表达式

sabic 芒果项目

idea jebel

stc wifi 云平台

WTI原油和布伦特原油区别

世界上有多少个国家，列举出来

camera sat 模式

最新资源

出货国家：GA:美国/墨西哥/英国/加拿大/日本/沙特/阿联酋/德国ROW:韩国这段话中GA和ROW的意思

python 编程使用字典存储国家和首都，假设存储20个国家和他们的首都，程序提示用户回答10国家的首都并显示用户答对的个数。 >>中国的首都是？北京（回车） >>日本的首都是？东京 …… >>回答正确8次