没有合适的资源?快使用搜索试试~ 我知道了~
沙特国王大学学报基于多模态特征加权增强的多语言攻击和网络巨魔识别Eftekhar Hossaina,Omar Sharifb,Mohammed Moshiul Hoqueb,M.Ali Akber Dewanc,NazmulSiddiqued,马里兰州Azad Hossainaa吉大港工程技术大学电子和电信工程系,吉大港4349,孟加拉国b吉大港工程技术大学计算机科学与工程系,吉大港4349,孟加拉国cAthabasca University,Faculty of Science and Technology,School of Computing and Information Systems, Athabasca,AB T9S 3A3,Canadad计算、工程和智能系统学院,阿尔斯特大学,伦敦德里BT47 7JL,英国阿提奇莱因福奥文章历史记录:2022年3月3日收到2022年6月16日修订2022年6月17日接受2022年6月23日在线提供关键词:多模态学习多模态数据多语言犯罪检测Ensemble多模混合A B S T R A C T近年来,模因已成为社交媒体内容污染者发布攻击性观点的常见媒介。由于其多模态的性质,模因可以很容易地逃避内容监管者的眼睛。这些不受欢迎或有害的模因的扩散可能会对社会和谐造成不利影响。因此,限制社交媒体上的攻击性模因至关重要。然而,模因隐含着人类的情感,分析模因是一件非常复杂的事情。以前的研究还没有探索多模态特征和它们的反作用单峰特征(即, 图像、文本)来对不期望的迷因进行分类。本文提出了一个框架,利用加权集成技术来分配权重的参与视觉,文本和多模态模型。最先进的视觉效果(即,VGG19 、VGG16 、ResNet50)和文本(即,多语言-BERT、多语言-DistilBERT、XLM-R)模型来构成框架的组成模块。此外,两种融合方法(即,早期融合和后期融合)被用于组合视觉和文本特征以用于开发多模态模型。评估表明,所提出的加权集成技术提高了性能的调查单峰,多- timodal,和集成模型。结果表明,该方法取得了较好的效果在两个多语言基准数据集(MultiOFF和TamilMemes)上,加权f1分数分别为66:73%和58: 59%此外,比较分析表明,所提出的方法优于其他现有的工作,提高约13%和2%的加权f1分数增益。©2022 作 者 ( S ) 。 由 爱 思 唯 尔 公 司 出 版 代 表 沙 特 国 王 大 学 这 是 CC BY 许 可 下 的 开 放 获 取 文 章(http://creativecommons.org/licenses/by/4.0/)。1. 介绍随着社交媒体平台的显著崛起,世界正在目睹网络攻击和虐待行为日益流行。很大一部分社交媒体用户经历过或目睹过某种形式的在线犯罪(Duggan,2017)。在这些平台上,用户可以自由发布、评论或分享内容,而无需任何法律机构的修改或干预(Jørgensen和Zuleta,2020)。这种自由允许一些恶意用户分发攻击性内容,传播谣言/假新闻,骚扰社区或个人,并损害*通讯作者。电 子 邮 件 地 址 : eftekhar.hossain@cuet.ac.bd ( E.Hossain ) , omar.sharif@cuet.ac.bd(O.谢里夫),moshiul_240@cuet.ac.bd,moshiul240@cuet.ac.bd ( M.M.Hoque ) , adewan@athabascau.ca ( M.A.AkberDewan),nh ulster.ac.uk.Siddi- que),azad@cuet.ac.bd(M.A. 侯赛因)。社区和谐公共空间中令人反感的内容的这种扩散对社会具有有害影响(Bannink等人,2014年)。 因此,为了维护社会和谐,确保社交网络生态系统的质量,驱逐此类内容非常重要。迄今为止,已经进行了许多工作来检测和减轻在线平台上的不良内容的传播。大多数作品( Aroyehun 等 人 , 2018;Pavlopoulos 等 人 , 2019; Sharif 等 人 ,2021)只关注文本模态来识别巨魔和攻击性内容。SemEval攻击性语言识别任务提供多语言数据集以检测攻击性文本的类型和目标(Zampieri等人,2020年)。Kumar等人(2020)总结了该系统在多语言巨魔和侵略数据集上开发的结果。由于内容的隐蔽性、多模态性和复杂性,开发一个能够自动标记攻击性内容的系统仍然是一个艰巨的问题。语言固有的模糊性,计算复杂性,审计量大,https://doi.org/10.1016/j.jksuci.2022.06.0101319-1578/©2022作者。由Elsevier B.V.代表沙特国王大学出版。这是CC BY许可下的开放获取文章(http://creativecommons.org/licenses/by/4.0/)。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.comE.侯赛因岛 Sharif,Mohammed Moshiul Hoque等沙特国王大学学报6606内容、低资源语言的问题以及自然语言的上下文理解是主要障碍(Zhouet al.,2021; Davidson等人,2017年)。此外,社交媒体平台的沟通模式正日益发生巨大转变。为了欺骗现有的NLP系统进行攻击性语言检测,内容污染者采用新的策略来改变系统。由于模因可以幽默地或幽默地传播信息,因此发布和分享模因近年来已经成为在社交媒体上传播信息的一种流行形式。模因是一张图片或截图,其中嵌入了一些文字。攻击性内容创作者将图片和文字结合在一起,以吸引和误导观众。他们经常歪曲或捏造事实,并带有高度感情色彩的内容,以便于迅速传播。考虑图1(c)的例子,图像是良性的,它显示了两个南印度演员的照片。然而,连同标题,它侮辱了他们的婚姻,表明他们的年龄差距。仅仅考虑视觉或文本模态来正确推断模因的意义是很麻烦的。 模因的这种多模态性质使得它非常具有挑战性以区分良性和恶性内容。它还有助于传播辱骂性内容。这种模因越来越多地被用作基于种族、性别、宗教、性取向或外表来虐待个人或攻击社区的一种方式(Williams等人,2016; Drakett等人,2018年)。这些内容的普遍存在对社会和平和社区和谐构成了直接威胁。开发一个自动化系统是一项具有挑战性的任务,检测攻击性模因开发多模态犯罪检测系统本质上是棘手和复杂的,因为它需要对视觉和文本信息的整体理解。模因的隐含意义,模糊、幽默、讽刺术语的出现,吸引人的、滑稽的、戏剧性的形象的使用,使得模因的分类更加复杂。此外,缺乏从多种模式中获取特征的基线方法,以及多语种文本的普遍存在,进一步增加了复杂性。尽管模因分析的研究越来越多,但这些问题迄今尚未得到解决。Suryawanshi等人(2020 a)应用后期融合技术来组合多模态特征。他们的工作采用堆叠的LSTM和VGG16来提取文本和视觉特征。在另一项工作中,作者使用图像特征对巨魔模因进行分类,而不考虑文本特征(Suryawanshi等人,2020年b)。 Sharma等人(2020)组织了一个SemEval任务来分析模因的情感和幽默。他们的研究表明,多模态融合技术在结合视觉和文本特征方面是有效的。很少有工作独立地训练文本和视觉模型,并将模型结果结合 起来 , 而 不是 训 练 联合 多 模 态网 络 (Morishita 等 人,2020;Bonheme等人, 2020年)。过去的研究大多只考虑单一模态(图像或文本)的攻击或巨魔检测,但他们没有利用先进的技术来提取多模态特征。为了利用多模态的特点,有关模态应同时处理.因此,在这项工作中探索的关键研究问题是如何开发一个框架,利用视觉和文本模态的功能,以确定从模因的进攻和巨魔。本文提出了一个多模态的架构来同时学习视觉和文本模态的联合表示,以解决上述研究问题。该体系结构包括四个组成模块:(i)视觉特征提取模块,(ii)文本特征提取模块,(iii)多模态决策融合模块和(iv)多模态特征融合模块。每个模块都独立训练为了提取图 像 特 征 , 预 先 训 练 的 视 觉 ( 即 , VGG16 、 ResNet50 、Inception、 Xecption )模型。使用深度神经网络(即, CNN,BiLSTM , Attention ) 和 transformers ( 即 , m-BERT 、 Distil-BERT、XLM-R)来提取文本特征。决策和特征融合模块负责执行提取 的 特 征 的 聚 合 我 们 对 英 语 攻 击 性 模 因 进 行 了 广 泛 的 实 验(Suryawanshi等人,2020a)和泰米尔巨魔meme(Suryawanshi等人,2020b)数据集。在调查模型的预测之后所提出的方法(第4.5节)可以根据参与模型的先验结果重新处理它们的softmax概率。最后,在多语种数据集上验证了该模型这项工作的主要贡献如下:提供数据集的详细统计数据,便于准备提供有用见解的模型提出一个模型,利用视觉,文本和多模态的模因的功能。此外,本文还研究了多模态决策融合以及与当前视觉和文本模型的特征融合方法.最后,我们采用了集成技术,自动分配适当的权重的参与模块的基础上,他们以前的perfor-曼斯在数据集上。经验评估多语言(英语泰米尔语)数据集上提出的模型,并演示了集成技术如何可以提高分类器进行广泛的实验,并比较与一组视觉,文本和多模态模型的性能。所提出的模型优于所有其他技术具有显着的利润率,从而建立了一个基准,在未来进行比较。图1.一、很少有文本内容不传达任何夸张观点的例子,然而,当与视觉信息结合时,它最终成为一种冒犯/巨魔模因。●●●●E.侯赛因岛 Sharif,Mohammed Moshiul Hoque等沙特国王大学学报6607本文提出的研究成果是利用多模态特征对多语言攻击和巨魔进行分类的开创性工作之一。希望本文所提供的资源和系统能为该领域的进一步研究提供参考。本文件其余部分的结构如下。第2节提供了一个总结,一些现有的工作不受欢迎的语言检测有关的单模态和多模态的方法。在第3节中提供了进攻和巨魔类的各种术语以及数据集的详细统计数据。第4节讨论了所提出的系统的组成模块的技术、超参数和体系结构。第5节报告了模型的实验结果和广泛的误差分析。第六部分是结语,指出了未来的发展前景。2. 相关工作虽然已经进行了大量的工作来识别巨魔(Mojica,2018; MutAltin 等 人 , 2020 ) , 侵 略 ( SafiSamghabadi 等 人 , 2020;Aroyehun等人, 2018),仇恨言论(Basile等人,2019年; Alfrea和Nunes,2018年)和虐待(Pamungkas等人,2019; Vidgen等人,2019年)的内容从单一的模态(即,图像、文本),仅考虑一种模态来理解和分类模因的内容通常是麻烦的因此,研究视觉和文本两种形式来发现冒犯性模因是非常重要的。然而,研究重点是检测这些内容,从多个渠道仍处于起步阶段。本节简要总结了以前关于不期望内容的工作(即,攻击、虐待、仇恨、攻击、巨魔)检测,考虑单模态和多模态。2.1. 基于单峰的不期望内容检测在过去的几年里,已经组织了一系列任务来识别犯罪(Zampieri等人,2020; Chakravarthi等人, 2021)、滥用(Roberts等人,2019; Akiwowo等人,2020),仇恨言论(曼德尔等人,2020;Bosco等人,2018)和troll(Kumar等人,2020; Kumar等人,2018年,从社交媒体。这些任务的目的是检测和分类滥用多语种(英语,阿拉伯语,希腊语,泰米尔语,印地语和孟加拉语)的文本。Zampieri等人(2019)开发英语攻击性语言文本数据集。使用CNN、BiLSTM和SVM技术进行基线实验,其中CNN获得了最大的宏f1分数,0.80用于检测任务。 Wang等人(2020)在软标签上应用知识蒸馏方法对多语言攻击性文本进行分类。 Tulkens等人(2016)用手工制作的基于字典的特征训练了多个SVM,以识别种族主义文本。他们的系统获得了0.46的f1分数,尽管它不关心文本的上下文。Zhou等人(2020)采用基于深度学习的融合方法来识别SemEval-2019数据集中的仇恨(Basile等人, 2019年)的报告。他们的工作应用CNN,BERT和ELMo来提取文本特征。BERT和CNN的融合实现了0.947的最高加权f1分数。Sharif和Hoque(2021)使用分层注释模式在Ben-10中构建了一个积极的文本识别语料库他们应用了广泛的机器和深度学习技术。结合CNN和BiLSTM在粗粒度和细粒度分类中获得了0.87和0.80的最佳f1 Saha等人(2021)采用了基于遗传算法的集成策略来识别多语言文本中的冒犯。转换器(BERT,mBERT,DistilBERT)已被用作集成基础,并在泰米尔语,马拉雅拉姆语和卡纳达语中分别获得0.78,0.74和0.97的加权f1分数。最近的一项工作(Sharif等人,2021)表明,基于transformer的模型优于基于ML和DL的方法检测多语言攻击性文本。Mihaylov et al.(2015)利用统计特征(评论数量,回复,正面,负面投票)在新闻社区论坛中发现巨魔。支持向量机技术与径向基函数核获得了82Andrew(2021)使用SVM , LR , RF , KNN 进 行 实 验 , 以 检 测 攻 击 性 代 码 混合 的YouTube评论。他们的工作没有考虑任何语义和上下文特征的分类。 Davidson等人(2017)提供了一个包含25000条英语推文的多类仇恨言论数据集。使用l2正则化算子和词频逆文档频率(tf-idf)特征的逻辑回归获得了0.90的宏观f1分数。Bhardwaj等人(2020)应用SVM、LR、RF及MLP技术及m-BERT嵌入以检测多标签恶意印地语帖子,其中SVM在粗粒度分类中达到最高f1分数0. 84。他们的工作没有采用任何深度学习方法来提取序列特征。 Gambäck等人(2017)试图CNN分类推文分为四个(种族主义,性别歧视,种族主义&性别歧视,非仇恨)类。实验进行了随机向量,Word 2 Vec和字符n-gram的模型获得0.78f1-分数与Word 2 Vec功能。Sadiq等人(2021)在20 k tweets的网络巨魔数据集上开发了一种基于CNN-BiLSTM的组合方法。该系统可以以92%的准确率识别网络攻击文本,但对于短文本,其性能较差。由于现有的模型主要依赖于文本特征,因此很少有研究集中在基于图像的特征来检测攻击和巨魔。 甘地等人(2019)开发了一个系统,用于检测和删除电子商务目录中的攻击性内容。采用预先训练的视觉模型,其实现了0.62的f1分数。Suryawanshi等人(2020b)发布了一个包含 泰 米 尔 语 巨 魔 和 非 巨 魔 模 因 的 数 据 集 。 他 们 使 用 预 先 训 练 的(ResNet,MobileNet)图像分类方法来区分meme类。 虽然该系统达到了0.52的宏观f1分数,但它在巨魔类中表现不佳,召回值为0.37。当同一图像与不同文本具有异质性解释时,该系统失败。Manoj和Chinmaya(2021)开发了一种基于视觉特征的模因分类模型。他们直接采用ResNet50模型,没有对层进行任何修改,导致加权f1得分非常低,为0.48。提出了一种基于CNN的系统来从符号图像中识别攻击性(Kumari等人,2019年),其在保持验证集上实现了0.89的加权f1分数。Connie等人(2017)开发了一个基于CNN的成人内容识别系统。他们的系统使用了多个CNN的加权和,其性能优于单个平均加权CNN。2.2. 基于多模态的非期望内容检测最近,多模态学习由于其能够有效地将来自多个模态的信息组合到单个学习框架中而受到广泛关注(Mod和Baltrušaitis,2017)。这种方法已经在涉及视觉和语言理解的任务上表现出良好的性能,例如视觉问题推理(Hudson和Manning,2019)和视觉推理(Suhr等人,2018年)。因此,研究人员正在采用多模态技术来检测来自模因的攻击性内容,因为这些内容对社会具有不利影响(Mishra等人,2019年)的报告。为了推进这一领域的研究,Face-book发起了一项挑战,从多模态模因中检测仇恨言论(Kiela等人,2020年)。为了应对这一挑战 , Lippe et al. ( 2020 ) 使 用 UNITER ( UNiPhoneImage-TExtRepresentation)的集合开发了多模态框架(Chen等人,2020年),获得0.8053 AUROC评分。Velioglu和RoseE.侯赛因岛 Sharif,Mohammed Moshiul Hoque等沙特国王大学学报6608你 好! ðÞð¼ Þ ð ¼Þ(2020)提出了一种使用VisualBERT的解决方案,VisualBERT是“视觉和语言的BERT变体”(Li等人,2019年)的报告。他们采用了一种集成策略,有助于实现0.765的准确度。 很少有其他作品也聚合了语言和视觉信息来检测仇恨模因并获得了有希望的表现(Zhang et al.,2020; Das等人,2020; Sandulescu,2020)。Gomez等人(2020)提供了一个包含图像和相应推文的多模态仇恨言论数据集。探索进行了单峰和多峰架构,但结果显示,多峰方法不能超越单峰对应。Perifanos和Goutsos(2021)开发了一个考虑仇恨,仇外和种族主义推文的多模态数据集。他们应用预先训练的Resnet和BERT模型来提取视觉和文本特征,加权f1得分为0.947。而不是BERT,作者没有采用其他变体,如mBERT,XLM-R,这可能会提高性能。Nakamura等人(2020)介绍了一个用于多模态假新闻检测的基准数据集。 作者开发了一种混合(文本+图像)模型来执行细粒度分类。通过预训练的BERT(文本)和ResNet50(图像)模型实现不同类别的最大准确度。Xue等人(2021)提出了一种利用多模态融合技术的新型多模态一致性网络。该方法在四个广泛使用的多模态数据集上进行了验证。在另一项类似的工作中,Song等人(2021)采用了跨模态注意力残差和多通道卷积神经网络。 Kumari等人(2021)提出了一种混合模型,其中采用预训练的VGG-16来挑选图像特征,而分层CNN提取文本特征。这些特征通过二进制粒子群优化技术进行优化,有助于实现0.74加权f1得分作者没有尝试使用任何基于transformer的模型来理解文本特征。Hosseinmarti等人(2016)表明,用户元数据和视觉特征对预测网络欺凌事件是有用的。Singh等人分析了各种文本,视觉和多模态特征以检测网络欺凌事件。(2017)。他们的结果表明,这两个特征的聚合有助于提高模型的性能。在类似的工作中,作者提出了基于CNN的文本和图像的统一表示来检测网络欺凌(Kumari等人,2020年)。在扩展工作中,他们使用遗传算法优化了功能(Kumari和Singh,2021)。实验结果表明,更新后的特征集使模型Suryawanshi等人(2020a)建立了一个包含743个与2016年美国相关的攻击性和非攻击性模因的总统选举。他们采用早期融合方法来结合多模态特征。虽然组合模型获得了0.50的f1分数,但基于文本的CNN模型通过实现0.54的f1在EACL-2021中组织了一个共享任务,对多模态巨魔模因进行分类(Suryawanshi和Chakravarthi,2021)。该数据集包含图像和相关的转录文本的模因。Li(2021)利用预训练的BERT和ResNet152架构开发了一个在这项工作中,多模态注意力层被应用于在同一语义空间中映射文本和图像特征。开发的模型通过实现0.55的加权f1得分赢得了共享任务。 Hossain等人(2021)使用后期融合方法将图像和文本特征放在一起。在多模态方法中,BiLSTM被用来提取文本特征,而它可以用transformer来完成结果表明,XLNet文本模型的 f1值为0.52,优于Hegde等人(2021)试验了最先进的视觉Transformer来提取图像特征。然而 , 该 系 统 并 没 有 表 现 良 好 , 仅 获 得 0.46f1-score 。 Mishra 和Saumya(2021)结合了图像和文本模态的特征使用混合方法。他们使用CNN和BiLSTM来获取图像和文本特征。该系统表现非常差,仅获得0.30的f1表1总结了关于数据集模式、方法、结果及其局限性的几项工作。前面讨论的大多数研究都集中在考虑文本或图像的模因分类上。现有的工作采用多模态技术的模因分类大多采用后期融合的方法。很少有工作已经进行了探索多模态融合的方法来识别进攻和巨魔模因。拟议的工作进行了广泛的experi- mentation与国家的最先进的视觉和文本模型。此外,从两个模态的功能相结合的早期(特征)融合和后期(决策)融合技术。此外,模型架构(即,号神经元,不。层的)和超参数(即,时期、批量大小、丢失率、学习率)被微调以得到最优模型。最后,本文提出了一种综合利用文本、视觉和多模态特征的加权集成模型.所提出的模型对英语攻击性模因进行了经验评估(Suryawanshi et al.,2020a)和泰米尔巨魔模因(Suryawanshi等人, 2020b)数据集。评价结果表明,该模型优于现有的所有技术,有利于从模因的多语言犯罪分类。3. 任务和数据集的描述这项工作的研究目标是建立一个框架,(F)从模因中识别冒犯和巨魔F分析了一组模因M^fm1;m2;.;mng并将其归类为进攻/巨魔C1或不C0的情况。 每一个迷因misM都由视觉(v)和文本(t)信息,并且F利用这些信息来对mi进行分类。 任务被表示为映射,F:Mv; tcs 0; 1 .以下小节提供了定义-各种迷因类别的定义和对数据集的简要分析3.1. 任务定义为实现这一目标,使用了两个基准数据集(i)英语攻击性模因或MultiOFF(Suryawanshi等人, 2020a),和(ii)泰米尔巨魔模因或泰米尔模因(Suryawanshi等人,2020年b)。为了便于理解,MultiOFF和Tamil-Memes数据集分别表示为数据集-1(D1)和数据集-2(D2)。第一个数据集包含与美国总统选举相关的攻击性和非攻击性模因。第二种由巨魔和非巨魔模因组成,其中标 题 是 用 泰 米 尔 语 - 英 语 代 码 混 合 语 言 编 写 的 。 先 前 的 研 究(Suryawanshi等人,2020 a; Suryawanshi等人,2020年b)已经从各种社交媒体平台(如Facebook、Whatsapp、Instagram、Twitter和Pinterest)手动积累了这些模因。对类标签有一个清晰的理解对于开发一个成功的计算模型是至关重要的。作者(Suryawanshi等人,2020 a;Suryawanshi等人,2020b)定义的进攻和巨魔如下:冒犯:传播一种想法/情感的模因,其目的是贬低社会身份,骚扰目标个人、社区或少数群体。无冒犯:没有任何冒犯内容的模因。巨魔:包含攻击性文本或图像的模因,旨在挑衅,冒犯,虐待或侮辱个人,团体或种族。● Not-troll:没有任何拖钓内容的模因。●●●E.侯赛因岛 Sharif,Mohammed Moshiul Hoque等沙特国王大学学报表16609关于使用单峰和多峰方法进行不期望文本分类的简要文献总结这里,A、F、MF、WF表示准确度,f1-分数,宏观和加权f1- 分别得分。文章数据集模态方法结果局限性/差距Zampieri等人(2019年)Gambäck等人(2017年)文本[英文推文]文本[英文推文]CNN,SVM,BiLSTM带有词嵌入和字符的0.80(MF)0.78(女)模型偏向于不进攻类。随着类数量的增加,性能会降低无法捕获连续特征,Tulkens等人(2016年)[荷兰语]ngrams基于字典特征0.46(女)不使用无法捕获上下文米哈伊洛夫等人(2015年)文本[英语巨魔]统计特征应用于SVM0.82内容特征(关键字、命名实体、安德鲁(2021)文[泰米尔语,RBF核在基线[0.61,0.63,主题)和其他ML方法仅使用tf-idf功能,不使用计数器Bhardwaj等人(2020年)马拉雅拉姆语和Kannada posts]Text [印地语机器学习分类器在ML0.93](WF)0.84(女)采取措施处理语码混用忽略了顺序信息,评论]分类器有限数量的培训文本,Suryawanshi等人(2020年a)多模态模因堆叠LSTM和VGG-160.50(女)粒化类性能可以通过预先训练甘地等人(2019年)图像预先训练的目标检测器模型0.62(女)语言模型不要把文本信号Manoj和Chinmaya(2021)图像(ResNet50,Inception-V3)ResNet500.48(WF)模型过拟合,偏差Suryawanshi等人(2020年b)图像ResNet和MobileNet的变体0.52(MF)验证和测试结果之间图像中的嵌入文本将被忽略Perifanos和Goutsos(2021)多模态希腊推文结合预训练的BERT和ResNet模型0.94(女)除了BERT之外Kumari等人(2021)Gomez etal. (2020年)Multimodal postsMultimodal tweetVGG-16和分层CNN与二进制粒子群优化使用要素串联、空间串联和文本内核模型,CNN + RNN0.74(WF)0.68(A)无法捕获文本模态单峰模型比多峰模型Hossain等人(2021)Mishra和Saumya(2021)多模态模因文本(BiLSTM)和视觉(ResNet50,CNN)特征使用CNN和BiLSTM结合图像和文本特征0.52(WF)0.30(WF)可以使用transformers不要使用最先进的模型3.2. 数据集分析每个数据集由两部分组成:一个嵌入文本的图像和一个相关的标题。在dataset-1中,所有的标题都是用英语写的。dataset-2的大部分标题都是泰米尔语,还有一些泰米尔-英语混合语。Dataset-1有743个迷因,其中303个是攻击性的,其余的不是攻击性的。Dataset-2比dataset-1大四倍。在2967个实例中,1677个模因被标记为巨魔,而其余1290个模因属于非巨魔类。对于模型构建和评估,数据集被分成三个相互排斥的集合:训练,验证和测试。两个数据集的总结见表2。对训练集进行分析,以获得有关数据的更多见解表3显示了训练集的统计数据,显示了两个数据集是不平衡的。非攻击性和巨魔类与其对手相比具有更平均而言,攻击性数据集中的每个类别每个标题有另一方面,troll数据集的标题要短得多巨魔类大约有12个表2每个数据集的训练、验证和测试集中的实例数每个标题有9个字,而非巨魔类型只有9个字长。这可能是一个具有挑战性的任务,分类巨魔由于其较短的文本长度准确。图2描绘了落入每个类别的各种长度范围内的据观察,大约55%的字幕少于20个单词。只有一小部分实例的单词数超过40这种分布给出了在训练阶段选择输入文本(基于字幕长度)的想法。最后图 3在每一个类中呈现了一些样本模因。4. 方法这项工作的主要关注点是从社交媒体上的模因中对攻击和模因通常包含视觉和文本等多模态内容.为了完成这项任务,我们研究了几种计算模型,只考虑视觉,只考虑文本,以及两种方式的组合现有技术的预训练卷积神经网络(即,VGG19、VGG16、Xception、InceptionV3和ResNet50)架构用于视觉特征提取。另一方面,为了获得文本特征,深度递归神经网络(即,BiLSTM,Attention)和预先训练的transformer(即,m-BERT,XLM-R)。本节简要介绍了对攻击性模因和巨魔模因进行分类的方法和策略此外,为了获得关于内容的更鲁棒的推断,利用视觉和文本特征,并通过采用多模态融合方法开发了几 图 4显示了整个系统的抽象视图。不同模块的架构和参数将在随后的小节。数据集-1数据集-2进攻非攻击性巨魔非巨魔火车1872581026814验证5891256204测试5891395272总30344016771290E.侯赛因岛 Sharif,Mohammed Moshiul Hoque等沙特国王大学学报6610表3文本内容的训练集统计。类总字数唯一字最大文本长度(字)Avg.每份案文数据集-1进攻4064206514821.73非攻击性5428256913921.03数据集-2巨魔1265262006112.33非巨魔44022487299.39图二. 不同长度的字幕在每个类中的分布。图三. 每个类别的样本模因:dataset-1(a,b)和dataset-2(c,d)。见图4。 多模态攻击和巨魔检测系统的抽象视图。E.侯赛因岛 Sharif,Mohammed Moshiul Hoque等沙特国王大学学报6611×××× ××ð ×Þð ×Þð ×Þð ×Þ4.1. 数据预处理深度学习技术无法有效地从未经处理的图像和文本中学习。因此,在将它们馈送到网络之前需要进行预处理。对于视觉模态,图像被转换为150 150 3的相等大小。对图像的像素矩阵执行归一化以映射0和1之间的像素强度值。此外,Keras1图像预处理函数用于在将输入图像驱动到CNN模型之前使其适合。对于文本模态,使用深度神经网络(DNN)和基于transformer的模型。这两种架构都以特定的格式接受输入。对于DNN,输入文本被转换为唯一数字的向量。这个词到索引的映射是使用Keras tokenizer函数获得的。采用后填充技术得到等长矢量.通过分析每个数据集的文本长度-频率分布来确定最大文本长度。我们分别选择50和30作为dataset-1(D1)和dataset-2(D2)的最大长度。同样,对于变压器,我们遵循相应模型的变压器拓扑化方法。 在实例化tokenizer2对象之后,使用“encode_plus”方法对输入文本进行编码。此方法在输入文本的开头和结尾添加特殊的[CLS]和[SEP]标记。它还将文本转换为唯一ID的向量,并将0填充此外,启用注意掩码,使得模型强调具有唯一ID的令牌。这些4.2. 视觉特征提取模块利用卷积神经网络提取视觉特征。在这项工作中采用了迁移学习方法,而不是开发自定义网络。在这种方法中,神经网络的参数是用大数据集训练的用更小的数据集来解决不同任务的问题。这里考虑了几种预训练的CNN架构,如VGG16,VGG19,ResNet50,InceptionV3和Xception 。 VGG16 和 VGG19 是 VGG ( Simonyan 和 Zisserman ,2015)模型的变体,分别由16和19个卷积层组成。这两种架构在每个卷积层中都使用固定的内核大小(3 3)。然而,VGG16和VGG19模型的评估成本很高,因为它们使用了大量的内存和参数。InceptionV3(Szegedy等人,2015)是Goo-gLeNet的扩展版本(Szegedy等人,2015年),有几个初始模块。这些模块包括一系列堆叠的卷积滤波器(11; 33和55)使盗梦空间更加强大用更少的参数学习更高级的表示。在Xception(Chollet,2017)架构中,标准的Inception模块被“dependently separable convolutions”取代它在几个大型图像分类任务中的表现略优于Inception模型。ResNet50(He等人,2016)是另一个深度CNN网络,由50个权重层组成。它利用层之间的跳跃连接来解决现有深度神经网络中大量存在的过拟合问题。为了达到这个目的,所有模型保持不可训练,仅使用已预训练对数据集1和数据集2进行微调。Hyperband(Li等人,2016)采用优化技术来最大化性能并找到适当的超参数(即,优化器、学习率等等)。Keras调谐器(O'Malley等人,2019年度)用于实现优化过程。已经为每个超参数试验了几个值,其中基于最大验证精度选择最佳值。表4显示了为每个数据集选择的超参数列表。所有的视觉模型都是用“adam”优化器训练的。D1和D4的学习率分别为1e-3和1e-4对于D2。此外,使用分类交叉熵损失函数编译模型,并训练30个时期,批量大小为16(D1)和32(D2)。Keras检查点用于在验证精度保持不变时停止进一步的训练,直到连续五个epoch。4.3. 文本特征提取模块实现各种深度学习架构以从文本内容获得特征 主要研究是使用RNN 和 CNN 架 构 进 行 的 , 即 BiLSTM , BiLSTM with CNN 和BiLSTM with attention。字嵌入(Mikolov等人,2013)特征用于训练这些模型。嵌入是通过Keras嵌入层生成的,该层将每个单词转换为64个元素的向量。这些向量传达了单词的语义,这使得学习更容易,特别是对于深度神经网络。预先训练的变形者也被用来开发尖端模型。各种文本模型的实现描述如下:BiLSTM:BiLSTM架构被认为是由于其通过利用文本的过去和未来信息来捕获长期依赖性的能力(Hossain等人,2020年)。构建的网络由两个BiLSTM层组成,分别为32个单位。第二个BiLSTM层的输出被传递到一个由20个神经元组成的全连接层。然后,使用softmax层来执行分类。在softmax操作之前,添加一个dropout层,dropout率为10%。CNN:嵌入特征被传播到两层CNN架构中。卷积层配备了64和16个过滤器的内核大小1 - 2。提取的特征通过池化窗口进行下采样,1二、一种FC层,其具有:20个神经元采用池化特征并创建最终的隐藏表示。最后,softmax层使用此表示进行分类。BiLSTM + CNN : 这 个 组 合网 络 是 通 过 稍 微 修改 前 面 描 述 的BiLSTM和 CNN 架 构 构 建 的 。 嵌 入 特 征 被 传 递 到 32 个 单 元 的BiLSTM层。该层的最后一个时间步输出向量被传播到具有16个核大小为1的滤波器的卷积层二、CNN功能通过窗口进一步下采样12号的。最后三层(即,FC、dropout、softmax层)及其参数保持不变。表4用于视觉模型的最佳超参数值。这里,D1、D2表示数据集-1和数据集-2。在ImageNet上(Russakovsky等人, 2015年)数据集为1000班模型的顶部两层被排除在外;相反,添加了一个由50个神经元组成的全连接(FC)层,以及一个用于预测的softmax层最后,模型是1https://keras.io/。2https://huggingface.co/transformers/main_classes/tokenizer.html网站。超参数最优值神经元数量优化器学习率1e-3(D1),1e-4(D2)批量16(D1)、32(D2)时代30●●●E.侯赛因岛 Sharif,Mohammed Moshiul Hoque等沙特国王大学学报6612公司简介ðð ×Þ × Þ ¼ðð ×Þ× Þ¼BiLSTM +注意:虽然BiLSTM有效地捕获了长范围的依赖关系,但它不能强调对分类有意义的词。通过采用注意力机制来定义架构(Bahdanau等人, 2015),使用由32个单元组成的BiLSTM网络来协调BiLSTM的弱点。每个单词的前向和后向隐藏表示被连接起来,然后传递到一个有20个神经元的注意力层。注意力权重通过该层分配给单词。一个词的重要性越高,权重就越大。最后,将获得的权重的注意力向量传播到softmax层进行预测。变形金刚:近年来,像变形金刚这
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功