移动应用程序监测网络欺凌：解决现有应用程序的空白和局限性

127 浏览量更新于2024-01-17 收藏 748KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报CyberAid：你的孩子安全吗？李佳纯a，李德凤a，郑志斌ba计算与信息系统系，工程与技术学院，第5，Jalan Universiti，Sunway City 47500，Malaysiab淡江大学资讯管理系，台湾新北市淡水区英砖路151号，邮编251301阿提奇莱因福奥文章历史记录：收到2020年2021年2月10日修订2021年3月1日接受2021年3月11日网上发售保留字：机器语言Cyberbully文本分析仇恨言论人机界面移动应用A B S T R A C T世界各地的研究人员一直在实施机器学习作为一种检测网络欺诈文本的方法该机器通过社交媒体上下文和社交网络环境中的交互使用文本变化等特征进行训练该机器还可以通过性别或使用仇恨言论来识别和分析用户。在这项研究中，我们分析了管理网络欺凌的不同类型的移动应用程序。这项研究提出了一种机制，它结合了最好的网络欺凌检测功能，以填补现有应用程序的空白和局限性。研究结果表明，拟议的移动应用程序在检测网络欺凌方面的准确性高于其他可用的应用程序。版权所有©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍网络欺凌通常发生在社交网站（Hosseinmarti等人，2015年）。这是一种利用技术的行为伤害他人（Young等人，2017年）。据统计，58%的4至8年级学生在遇到网络欺凌时不会通知父母（Chen等人，2012年;i-SAFE Inc.，而54%的父母认为他们无法监控和保护孩子免受不适当的在线内容的影响。已经开发了几个移动应用程序来监测青少年（10至19岁）和普通互联网用户之间的互动。一些应用程序甚至使父母能够完全访问他们的孩子与他人的在线对话。然而，隐私问题对管理和监督网络欺凌提出了巨大的挑战。我的手机看门狗（My MobileWatchdog ， 2001 ）父母监控应用程序 PocketGuardian （ LLC ，2019）此后提供了一个功能，该功能不...*通讯作者。电子邮件地址：17055351@imail.sunway.edu.my（L. J. Thun），phoeyleet@sun-way.edu.my（P.L.Teh），Cbcheng@mail.tku.edu.tw（C.- B. Cheng）。沙特国王大学负责同行审查当检测到来自或针对其子女的欺凌内容时，向父母提供帮助，但不显示实际内容。许多研究已经提出了检测社交媒体上的网络欺凌的方法然而，这些研究主要集中在在线功能。一些研究侧重于技术，特别是机器学习，以检查在线内容。在机器学习的情况机器学习是指使用人工智能（AI），并为系统提供自动学习和改进经验的能力，而无需显式编程（Holzinger，2016;专家系统团队，2020）。在机器学习的情况下，用于训练算法的功能是必不可少的，并且在他们的研究中并没有真正完全实现，而只是涉及测试模型，这使得它很难被用于网络欺凌监控。案例表明，青少年在受到网络欺凌时不会通知父母（i-SAFEInc.， 2019年）。当案件发生时，帮助他们可能因此，本研究旨在研究网络欺凌检测方法与之前的研究不同，这项研究提出了一个应用程序，如果他们的孩子是网络欺凌的潜在受害者或肇事者，它会提醒父母。我们的方法结合了多个特征，包括情感值、感叹号数量、人称代词数量和账户创建日期，使父母能够轻松识别他们的孩子，而不会侵犯孩子该应用程序从tweets中收集样本内容测试文本/评论。包含亵渎性词语的推文被认为是仇恨言论的可能性更高，这可能导致https://doi.org/10.1016/j.jksuci.2021.03.0011319-1578/©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comLee Jia Thun、Phoey Lee Teh和Chi-Bin Cheng沙特国王大学学报4100网络欺凌（Teh等人，2018年）。这些文本的样本被选择，然后通过应用程序发送给父母。为了保护孩子的隐私，父母只能访问已识别的有害内容，而不能访问完整的在线对话。2. 文献综述文献综述部分分为三个独立的子部分。在第一小节中，讨论了文本特征，然后在第二和第三小节中讨论了网络特征和用户特征。第四和第五小节讨论了现有的网络欺凌应用程序和为了准备对网络欺凌和非网络欺凌特征进行分类的机器语言，在以下章节中详细说明了每个特征及其工作原理。2.1. 语篇特征语篇特征包括1）亵渎性词语，2）标点符号，3）标点符号，4）人称代词，5）情感文本，6)标签和URL。亵渎，主要是指一个进攻，不礼貌和粗鲁的态度，使他们成为网络欺凌检测的一个基本特征Chen等人（2012）声称攻击性句子总是包含贬义词，亵渎或淫秽。他们提出了一种词汇句法特征（LSF）语言模型，该模型使用noswearing.com和urbandictionary.com上的亵渎词来检测句子的冒犯性。研究人员（Dadvar 等人， 2012;Wong&Teh，2020）使用不同的脏话关键词集来检测脏话，并寻求使用粗俗术语的性别差异。后者是可以提高机器学习算法在分类网络欺凌文本时的性能的特征。在网络评论中出现诅咒词的频率越高，越容易被检测为欺凌信息。研究通过训练模型中的坏词密度来执行测试（Huang et al.， 2014年）。 Huang et al. （2014）已经证明，用于网络欺凌检测的最高排名的文本特征是识别不良词语的使用。随后，Zhaoet al. （2016）和Teh，Cheng和Chee（2018）也强调网络欺凌信息通常包含诅咒或侮辱性词语。因此，这些词语的出现是欺凌内容的合理认定。Singh等人（2019）在他们的研究中声称，由脏话组成的非正式语言经常被用来直接虐待受害者。在Foong 和Oussalah（2017）和Novalita等人的一项研究中。（2019）脏话和词汇数据库都被用来检测网络欺凌。虽然亵渎/脏话/诅咒词典包含丰富的知识库，并被许多研究所使用，但亵渎俚语正在快速发展，不同世代的用户使用的单词可能会这导致基于列表的检测性能不佳（ Sood 等人， 2012 年）。为了理解网络欺凌中使用的语言，Kontostathis等人。（2013）和Teh et al.（2018）进行了一项研究，分别在Formspring.me和YouTube的评论部分识别欺凌者使用的单词。前者建立了网络欺凌内容检测查询，而后者则形成了一个常用亵渎词语及其仇恨类别的列表。研究结果不仅可以为未来的研究者提供一个更清晰的了解不同用户群体使用脏话的演变过程，而且有助于揭示滥用者标点符号指的是逗号、冒号、感叹号等标点符号的使用，在表达感情时往往暗含强烈的感情色彩。标点符号还表示大声喊叫或大声说话（Huang等人，2014年）。在Chenet al. （2012），感叹号被用作LSF模型来检测YouTube用户的攻击性程度在这项研究中，有人指出，使用这种标点符号可以强调评论中的冒犯性。Teh等人（2015）通过使用12种在线情感工具对文本评论中感叹号的影响进行了分析，强调大多数工具没有产生分数来显示使用不同数量的感叹号计数对原始单词集的表达的差异，但是对于人类编码器（要求人类对表达进行评级和标记的研究），文本中使用的不同数量的感叹号显示了显著不同的表达。这意味着，通过对人类的研究，他们发现感叹号的数量实际上会影响消息的情感价值。使用“”往往表现出强烈的情感。文本中不寻常的大写，不包括其在第一个单词的首字母和命名实体中的使用，可能强烈表明网络欺凌（Foong和Oussalah，2017）。根据Chen等人（2012年）的研究，使用音量可以决定一个人的音量和感觉。在展示文本中的冒犯效果时，研究声称“你很愚蠢”这句话比“你很愚蠢”更令人反感。Huang et al.（2014）和Chatzakou et al.（2017）在他们的研究中使用文本作为文本特征之一来训练分类器，以检测Twitter上的网络欺凌。Pak Teh（2018）研究了产品评论中字母大写背后的表达价值，得出的结论是，使用大写能够加强不同层次的表达。评论家倾向于让正面的评论更正面，负面的评论更负面。有三种类型的人称代词;第一（即： “你”）和第三（即：“他，爱丽丝”）。根据Dadvaret al. （2012），骚扰帖子通常包含使用人称代词，特别是第三人称代词（Singh et al.，2019年）。Dadvar等人（2012）强调，第二人称代词在检测在线骚扰方面发挥着重要作用这使得第二人称代词在训练分类器时有资格作为个体属性，而其他代词则有资格作为另一个属性。包含与第二人称代词的网络欺凌有关的属性的消息很可能是骚扰。人称代词的使用使其他人对信息所针对的人有一个概念（ Al-Garadi 等人， 2016 年）。 Foong Oussalah（2017）使用语言查询和单词计数（LIWC）功能来捕获给定文本中的第二人称代词和代词总数。 Sarna& Bhatia （ 2017 ）和Novalita等人（2019）在他们的研究中使用了不同的方法，他们使用了人称代词，坏词和表达负面情绪的词的五种组合来表示直接/间接的欺凌，例如：（第一+负面情绪+第二）。例如，“我恨你”这句话该功能的集成允许更好的网络欺凌检测，因为有时一个坏词或表达负面情绪的词通过使用人称代词，可以很容易地识别恶意信息的目标，然后可以帮助确定欺凌的发生。情感文本是指使用积极的或文本中的负面情绪根据Sarna和Bhatia（2017）的说法，欺凌行为可以通过对受害者产生影响的负面情绪来强烈表明为此，Foong和Oussalah（2017）使用LIWC功能为他们的网络欺凌检测系统捕捉传达悲伤、焦虑和愤怒的Sarna和Bhatia（2017）还指出，欺凌文本并不总是出现脏话。为了克服这个问题，他们在一段文字中融入了一些表达积极情绪的词汇，以帮助识别由脏话组成的非欺凌文本与之前提到的研究相似，Novalita et al. （2019）也将这一特点带入Lee Jia Thun、Phoey Lee Teh和Chi-Bin Cheng沙特国王大学学报4101考虑并使用情感词列表进行检测。通过计算负面情绪词的出现率，它在识别严重的欺凌信息方面很有用。它还有助于避免由脏话组成的非欺凌信息被归类为网络欺凌。URL和主题标签在网络欺凌检测中可能很有用。它们通常用于将用户引导到网页/内容。根据Al-Garadi等人（2016），URL可以用来衡量用户在在线环境中的活跃度。他们声称，那些“在网络环境中相当活跃的人Chatzakou等人（2017）在Twitter上进行了一项关于网络欺凌检测的研究，他还提到，与攻击者和欺凌者相比，标签也是帮助检测网络欺凌的功能之一普通用户倾向于在单个推文中使用较少的标签。多个主题标签大多被欺凌者使用（Balakrishnan等人，2019年）向更多的人或团体传播他们的攻击信息。Sarna和Bhatia（2017）和Novalita等人（2019）没有将URL视为单一功能。相反，他们在网络欺凌检测模型中将其与人称代词和脏话等其他特征相Sarna和Bhatia（2017）提到，由代词，URL和脏话组成的消息可能会有关于受害者的令人尴尬的内容。上述文本特征在识别网络欺凌方面很有用。然而，Navarro和Jana（2012）强调，一个人2.2. 网络要素网络特征包括1）关注者和被关注者的数量，2）喜欢的数量，3）共享媒体和提及的用户的数量，4）账户创建日期，以及5）用户特征。网络特征是指指示在线环境中的人的社交能力的共有七种常见的网络功能关注者和被关注者的数量是指关注者的数量，而被关注者表示用户在他 / 她的社交媒体账户中拥有的关注者和被关注者的数量。Hosseinmarti等人（2015）在他们关于检测Instagram上的网络欺凌的研究中提到，拥有更多粉丝的用户往往更受欢迎，因此更容易受到他人的负面评论。Chatzakou等人（2017）还强调，正常用户倾向于将朋友作为追随者，而不是可能实施网络欺凌的陌生人。可以说，拥有高粉丝数的用户比普通用户拥有更高的人气，反之亦然。通过集成此功能，可以增强网络欺凌检测的性能。Hosseinmarti等人（2015）提出的网络欺凌检测模型使用线性支持向量机分类器，当文本特征和图像特征与网络特征一起使用时，准确率从52%提高到87%。然而，并不是每一个网络特征都会影响检测.喜欢的数量是指用户的帖子拥有的喜欢的数量（Balakrishnan等人，2019年）。尽管Hosseinmarti等人（2015）和Balakrishnan等人（2015）纳入了该功能。（2019）在他们的检测模型中，前者观察到这一特征与网络欺凌之间的相关性不太显著。因此，在构建检测模型时可能不需要包括该特征共享媒体和提及用户的数量是指用户在社交媒体上发布或共享的帖子数量以及帖子中标记的其他用户数量。（Balakrishnan等人，2019年）。尽管Hosseinmarti等人（2015）提到共享媒体的数量没有显著的相关性，与网络欺凌的关系，这一特征被纳入Al-Garadi，Varathan和Ravana（2016），Chatzakou等人（2017）和Balakrishnan等人提出的模型中。特别是，Chatzakou等人。（2017）发现，在更少的在线社区中，并且比普通用户更不受欢迎。攻击者相对受欢迎，往往在他们的帖子在帐户创建日期，指的是时间段上的标记数据集，Chatzakou etal. （2017）研究了他们的数据集中Twitter用户帐户的两个时间段的标记数据集。他们发现，大约38%的在早期被检测为欺凌者的用户在后期删除了他们的Twitter帐户。他们声称，删除可能是为了防止他们的帐户被暂停暂时或永久的Twitter的垃圾邮件，虚假或滥用。删除也可能帮助欺凌者隐藏他们的身份。根据Ribeiro et al. （2017年），欺凌者的帐户创建日期往往比正常用户晚。为了隐藏他们的真实身份，欺凌者创建其他帐户，而不是使用他们的真实帐户来网络欺凌他人。一段时间后，这些后来的帐户将被删除。因此，账户的创建日期可以为在线欺凌分类提供有用的信息。2.3. 用户特征它表示用户的个人资料（例如年龄和性别）。 Dadvar 等人（2012）表明，通过使用支持向量机模型将性别信息纳入训练分类器可以提高网络欺凌检测。这是因为在网络上，女性欺凌者和男性欺凌者使用下流和煽动性语言的方式是不同的研究表明，该方法可以将基线检测提高39%。除此之外，Al-Garadi et al. （2016）在他们的研究中包括了性别和年龄等用户特征。然而，用户在在线环境中提供的信息可能是不准确的，因为他们倾向于从社交媒体中排除他们的个人信息这对获取用户特征提出了挑战为了解决这个问题，Wong&Teh（2020）提出通过形成不同性别最常用的单词列表来预测用户他们还假设，用户在twitter账户中注册的名字在以前的网络欺凌检测模型中使用的所有上述功能在识别在线环境中的骚扰方面都很有用然而，他们提出的研究方法并没有结束于实施部分，也没有包括在整合中。因此，需要以允许用户随时使用它们的方式这是为了防止欺凌或在发现网络欺凌案件后管理后果。2.4. 现有（或可用）网络欺凌应用程序有几种类型的相关应用程序可用于在线检测网络欺凌。表1给出了这些应用程序之间的比较。ReThink是一个移动应用程序，当用户试图发送包含有害词语的文本时，它会向用户发送警告消息ReThink-停止网络欺凌-Google Play应用程序。（n.d.）， 2020年。用户必须下载应用程序并更改键盘设置才能让它工作。虽然该应用程序的目的是最大限度地减少潜在的欺凌行为，但应用程序背后的算法基于简单的恶意记录，因此应用程序仅检测字符串中的粗俗词语。因此，应用程序无法检测不使用粗俗词语的有害内容（Lempa，Ptaszynski和Masui，2015）。Lee Jia Thun、Phoey Lee Teh和Chi-Bin Cheng沙特国王大学学报4102表1应用程序之间的比较监督学习算法，它会建议用户从集合“取消好友”，“取消关注”，“限制访问”，“沙箱”，“ig”中进行操作应用程序名称方法限制nore”}。用户可以选择忽略或继续执行系统建议的操作（Talukder和Carbunar，2018）。这重新思考检测粗俗的话键盘设置需要更改为允许应用程序工作应用程序的目的是为青少年保护自己和自己的个人信息免受潜在的欺凌。根据到Talukder和Carbunar（2018），一些用户不介意网络欺凌拦截器1) 使用使用语言建模方法训练的强力搜索算法对测试进行分类，或者2) 允许用户输入文本并选择首选的网络欺凌检测方法开发用于测试所用算法的性能，而不是应用于现实生活中的场景在朋友列表中被发现为潜在欺凌者的人。这种态度可能会使Facebook用户更容易受到网络欺凌。本文旨在开发一个具有双重功能的移动应用程序：检测Twitter上的网络欺凌内容，并发出警报青少年使用者BullyBlocker计算基于指标，并通过TS算法检测和评估与其他因素，如儿童的性别，年龄等违规的话AbuSniff使用监督学习算法从集合“取消好友”、“取消关注”、“限制访问”、“沙盒”、“忽略”}中建议用户操作，以仅显示为什么有人被检测为网络欺凌受害者，而不显示检测到的文本为了检测潜在的网络欺凌者，用户需要登录他们在AbuSniff中的Facebook帐户，并手动填写关于他们朋友列表中随机人员的问卷帐篷是直接的。该应用程序要求父母或监护人监测其照料下的儿童或青少年，以减少网络欺凌事件，并鼓励他们向儿童灌输正确使用互联网的知识。2.5. 分类器存在许多分类器算法，诸如支持向量机（SVM）（Rafiq等人，2015;De-La-Pena-Sordo等人，2016;Tulkens等人，2016年; Shende和Deshpande，2017年）朴素贝叶斯（Nandhini和Sheeba，2015年;Srinidhi Skanda等人，2017）、逻辑回归（LR）（Davidson等人，2017; Srinidhi Skanda等人， 2017），决策树（DT）（Kontostathis等人，2013），K均值神经网络-Cyberbully Blocker是一款Android移动应用程序，提供两种有害消息检测方法该应用程序在开发中涉及两种方法。第一种方法是使用暴力搜索算法进行分类测试，该算法是用语言建模方法训练的第二种方法通过使用种子词列表来工作，具有三个类别以获得语义取向分数，然后最大化类别的相关性（Lempa，Ptaszynski和Masui，2015）。该应用程序允许用户输入文本并选择他们喜欢的网络欺凌检测方法该应用程序具有反馈功能，可向用户显示检测结果该应用程序的局限性在于，它是为了测试所用算法的性能而开发的，而不是应用于现实生活中的场景。BullyBlocker是一个移动应用程序，专注于社交网站Facebook上的网络欺凌检测该应用程序主要是为青少年的父母和监护人设计的被应用程序监视的青少年需要登录到bullyblocker上的facebook帐户。如果青少年的FB帖子包含任何欺凌成分，一个名为欺凌排名的功能将显示给父母，以显示结果它是基于一系列复杂的指标和算法计算的，这些指标和算法将检测和评估带有其他因素（如儿童的性别、年龄等）的冒犯性词语。检测后，该应用程序提供了一系列有用的反网络欺凌资源，如反欺凌组织和热线，以帮助父母识别孩子是否存在任何潜在的网络欺凌（Silva等人，2018年）。虽然该应用程序只显示某人被检测为网络欺凌受害者的原因，但它不显示检测到的文本。家长或监护人将无法确定是否准确检测到所谓的欺凌文本。AbuSniff是一种识别被视为陌生人或虐待者的Facebook好友的系统，并通过取消好友，取消关注或限制访问此类好友的信息来保护用户要使用这个系统，用户需要在AbuSniff中登录他们的Facebook帐户。该系统允许用户从他们的朋友列表中随机选择一个人填写一份调查问卷。基于滥用预测模块，该模块是系统的组件之一，它使用常见照片计数，共同好友计数等几个特征进行训练工作（KNN）（Ozel等人，2017），随机森林（RF）（Al-Garadi等人，2016）和AdaBoost（AB）（Mukherjee等人，2017年;里贝罗例如，2017年）。分类包括两个阶段：训练和测试。训练包括将数据提供给分类器，然后分类器读取和解析数据，而测试包括从训练阶段获取数据输出以预测攻击性内容（Shende和Deshpande，2017）。深度学习，也被称为分层学习，是机器学习的一个子类型，它不同于其他类型特定的算法，如监督算法、US算法、半监督算法，并且能够从数据表示中学习。它已被引入正式应用人工智能（AI）（Gulcehre，2015）。深度学习使用深度神经网络（NN）来使用其内置的多个staked层从输入数据中学习特征。深度学习的算法能够从输入数据中创建新的特征，这被证明是更有效的。Agrawal和Awekar（2018），Alorainy等人（2018），Pitsilis等人（2018）以及Zhang和Luo（2018）的研究应用了深度学习方法。表2分析和总结了分类技术及其特点。在这项研究中，第一个目标是发现一组有用的功能，在训练机器学习算法，以检测网络欺诈的内容。第二个是将机器学习模型集成到移动应用程序中，以帮助父母检测针对孩子的网络欺凌。3. 方法该应用程序有两个主要组件：移动应用程序组件和机器学习组件。3.1. 移动应用使用Android Studio开发了一个移动应用程序（如图1所示）。Android Studio环境中的界面文件负责移动应用程序的图形用户界面（GUI）。每个接口对应一个或多个逻辑java文件，处理用户的输入并提供相应的输出。移动应用程序是通过结合这两个组件构建的Lee Jia Thun、Phoey Lee Teh和Chi-Bin Cheng沙特国王大学学报4103表2分类技术的分析和总结。References方法[分类器]特征（Pitsilis等人， 2018）深度学习[长期短期内存（LSTM）]用户相关信息、词频、矢量化（Agrawal和Awekar，2018）深度学习（BLSTM）单词嵌入，迁移学习（Van Hee等人，2018年）监督[（SVM）] BoW，主观性词典特征，主题模型，字符N-gram，词N-gram，术语列表（Alorainy等人，2018年）监督学习[多层感知器(MLP)，LR]（Zhang和Luo，2018）深度学习（Base + Gated Recurrent Units，GRU）其他词典+ doc2vec Word嵌入（Founta等人，深度学习元数据，单词嵌入（word2vec，GloVe）（Watanabe等人， 2018年）监督[J48graft]语义特征，Unigrams特征，模式特征（Ribeiro等人，半监督[graphsage]GloVe嵌入，网络/活动特征（Magu等人，2017）监督[SVM]BoW（Gao和Huang，2017）有监督[LR，神经网络（NN），包围模型]字符N元和单词N元，用户特征，语言特征，情感极性，表情符号NRCLSTM注意力（Srinidhi Skanda等人，（2017年）监督[LR]关键词嵌入（句子向量的分布式存储器，立场的关键词（Ozel等人， 2017）监督[NB，SVM，KNN，J48]卡方（CHI2）和信息增益（IG），随机数（Benigni，Joseph和Carley，2017）（Shende和Deshpande，2017）（Salguero和Espinilla，2018）IVCC [Multiplex vertex]元数据：用户帐户特征，以下内容的频谱和节点度量表示，提及，和用户-用户（共享的主题标签）网络监督[SVM，NB]标记化，词频，TF-IDF，n-gram灵活的文本分析器[Weka]基于本体（Vishwamitra等人，（2017年）[基于语音的卷积神经网络（PCNN）]关键词匹配（Davidson等人， 2017）监督[LR]N-gram，情感词典，TF-IDF，句法特征（Malmasi和Zampieri，2017）监督[SVM] N-gram，字符N-gram，单词跳过-gram（Di Capua等人，（2016年）无监督[成长的层次自我组织地图（GSHOM）]社会特征、语义特征、情感特征、句法特征（Rafiq等人， 2015）监督[AdaBoost]元数据，n元语法（De-La-Pena-Sordo等人，（2016年）半监督[核距离，SVM]句法特征，统计特征，观点特征，n-gram（Tulkens等人， 2016）监督[SVM]词典（LIWC for Dutch，word2Vec）（Zhao et al.， 2016）监督[线性SVM]BoW，语义增强BoW，LSA，LDA，（Al-Garadi等人，（2016年）受监督的[RF]元数据、粗俗特征、用户特征（Liu和Forss，2015）监督[NB，SVM] N-grams，BoW，主题特征，语义，情感分析，Meta信息，tf-idf（Burnap &Williams，2015）（Mukherjee等人，（2017年）（Hosseinmarti等人，（2015年）（Nandhini和Sheeba，2015）监督[SVM] BoW，类型依赖，语法，N-gram，词典受监督的[线性SVM] N-gram，用户和媒体信息监督[线性SVM，LR] N-gram特征，社交图特征无监督[NB] BoW，语法特征，模糊规则，遗传算法（Dinakar等人， 2012年）常识推理常识推理（Djuric等人，（2015年）监督[LR]第2段vec，CBoW，嵌入（Rafiq等人，（2015年）监督[NB，AdaBoost，决策树，RF]Meta信息，N克（Reynolds等人，（2011年）监督[J48决策树]坏词词汇特征（Chen等人， 2012年）监督[SVM]词汇句法特征模型（BoW，N-gram，情感分析，句法特征）（Xiang等人，2012年）半监督[LR]主题特征，情感分析总的来说，这项研究通过开发一个机器学习模型并将其整合到一个允许父母使用的移动应用程序中，增强了现有的移动应用程序和技术表3描述了开发中使用的软件和工具。3.2. 机器学习模型机器学习允许应用程序对网络欺凌推文进行分类。它不是使用Lee Jia Thun、Phoey Lee Teh和Chi-Bin Cheng沙特国王大学学报4104Android Studio开发的，因为它需要大量的计算能力来进行训练。如果它是在与移动应用程序相同的环境中开发的，则应用程序的性能会降低。只有在机器学习模型经过训练之后，它才能集成到移动应用程序中，只需向模型发出调用即可使用。为了评估训练的模型，标准使用了精密度、召回率和准确度等矩阵表4提供了机器学习中使用的工具的描述。创建机器学习模型的第一步是收集Twitter数据进行分析。这些推文是使用几个标签抓取的，包括 #cyberbullying ， #bullying ，#stopbullying和Kontostathis等人（2013）建议的几个与网络欺凌相关的关键字。总共获得了5000条推文，并由开发人员手动审查。包含与其他推文相似内容的推文，英语以外的语言或模糊含义的推文被从数据集中删除。然后，根据 Chatzakou 等人（ 2017 ）和Novalita等人中提到的定义，对推文的收集进行了标记过程。（2019年）。这些推文将经历一个标签过程：标签一条推文被标记为Lee Jia Thun、Phoey Lee Teh和Chi-Bin Cheng沙特国王大学学报4105Fig. 1. 拟议框架。表3描述用于移动应用程序开发的软件和工具表4用于机器学习的工具的描述类别软件描述类别工具描述编程名称JAVA一种通用编程语言编程语言Python是一种解释性的、高级的、通用的编程语言。语言软件AndroidStudio旨在让应用程序开发人员编写一次，在任何地方运行。一个软件，以建立应用程序的每一种类型的Android设备。Spyder软件一个免费和开源的科学环境用Python编写，由科学家，工程师和数据分析师设计虚拟设备Pixel 2 API R一种配置，定义了Android手机、平板电脑、Wear OS、AndroidTV或Automotive OS设备的特性，Android模拟器。数据库SQLite SQLite是一个C语言库，主要图书馆Numpy使用Python实现数值计算。Pandas一个开源数据分析和操作工具，基于Python编程语言构建的。Scikit-learn预测数据分析工具。实现了一个小型、快速、独立的，高可靠、功能齐全的SQL数据库引擎。API Twitter API Twitter API提供了所需的工具，在Twitter上参与和分析对话。它允许将Twitter集成到移动应用程序中。不平衡-学习一个python包，提供了几种重采样技术，通常用于显示强烈类间不平衡的数据集。主要图书馆斯坦福CoreNLP一组用Java编写的自然语言分析工具，用于检索句子的情感得分。在阶段2中，对推文进行预处理，其中，诸如数字、额外空格和weka剥离将weka 3移植到Android平台以实现机器学习。含有有害信息或由同一人重复发送给特定用户否则，它将被标记为在排除所有不需要的推文后，总共获得了1200条推文，其中1000条与非网络欺凌有关，200条与网络欺凌有关。数据集被分成两组，其中75%是训练集，而25%是测试集。所有数据均存储在CVS文件中以供进一步分析。为了处理不平衡的数据集，应用了合成少数过采样技术（SMOTE）（Brownlee，2020）。SMOTE的工作原理是选择特征空间中接近的示例，在特征空间中的示例之间绘制一条线，并沿着该线在一个点处绘制一个新的示例（Brownlee，2020）。在tweet中指示回复这是为了排除不相关的成分-这将减慢特征提取的过程。使用Spyder（Spyder Website，2018）分析收集的数据，Spyder是Python编程语言的开发环境。为了消除对网络欺凌检测没有帮助的元素并降低特征向量的维度，使用PythonRegEx模块和Python自然语言工具包（NLTK）对数据进行了几次预处理，以删除额外的空格，数字，“@”符号和“RT“或转推。此步骤的目的是清除不相关组件中的数据。在第3阶段，从推文中提取一组特征进行分析，并选择这些特征作为训练模型的有用特征。执行这些操作是为了分析和获得一组特征，这些特征可以训练机器学习算法用于分类目的。共提取了11个特征进行分析。所获得的特征如下：Lee Jia Thun、Phoey Lee Teh和Chi-Bin Cheng沙特国王大学学报4106(a) 情感价值-与网络欺凌相关的文本可能具有负面情感，因此此功能可能有助于对网络欺凌推文进行分类并将其与非网络欺凌推文区分开来。情感值是使用VADER（Pandey，2018）获得的，VADER是一种情感分析工具，可以计算从1（表示积极情感）到0（表示消极情感）的文本极性该工具处理标点符号、感叹号、表情符号的能力（Teh等人， 2016）等使其成为本研究的理想工具。(b) 感叹号计数-感叹号的使用往往表明强烈的感情，并暗示“呼喊”或说话的高音量（黄等人，2014年）。当用户向另一个用户发送有害消息时，可能会出现这种情况。因此，在训练机器学习模型以检测网络欺凌时考虑了这一特征。(c) HashtagCount-此功能计算推文中使用的Hashtag数量未考虑本研究中用于数据收集目的的主题标签(d) 亵渎计数-根据Huang et al.（2014），与网络欺凌相关的文本通常涉及使用 pro-fane 单词。本研究使用了来自noswearing.com和Teh et al. （2018）在推文中搜索亲fane词。由于亵渎与仇恨相关性更强，因此基于亵渎的仇恨言论检测方法可能是有效的（Teh Cheng，2020）。因此，考虑到了这一特点。(e) 表情符号计数-这个功能可以统计一条推文中使用的表情符号的数量在Python的库EMOT的帮助下，它由Unicode和文本形式的表情符号组成，所有的表情符号都被转换为文本形式，用于计数和矢量化。与情感价值类似，表情符号是包括仇恨在内的情感表达，很可能会成为有害信息。此外，社会学研究表明，情感信息可以用来更好地理解欺负行为，这一发现导致了这一特征的选择(f) 字数统计-此功能计算推文中的总字数。欺凌被定义为一种攻击性的，故意的行为或行为，是由一个群体或个人反复和长期对受害者谁不能轻易保护他或她自己（Oweus，1993）。字数统计功能包括通过计算能够代表个人对受害者重复行动的推文总数。(g) 人称代词计数-此功能计算推文中使用的人称代词的数量由于网络欺凌文本通常针对特定的人（受害者），因此它可能比正常文本包含更多的人称代词。(h) 帐户创建（天）-此功能通过从帐户创建日期中减去网络欺凌推文发布日期来计算帐户创建的天数。如果计算得到的值小于或等于183天，则认为是新创建的帐户，表示半年。(i) 关注者比率-此功能通过将用户的关注者数量除以关注者数量来确定比率。通过计算获得的值将在0到>1的范围内。关注者比率大于1的用户意味着他们的关注者多于被关注者，表明他/她在社交媒体上的受欢迎程度。(j) 人称代词和否定/亵渎词的组合-此功能是在可能导致网络欺凌的推文中找到特定的文本模式。以下是本研究考虑的患者。否定词列表由Huang et al. （2014年）。1. 第二人称代词（他，她，它，等等）结合否定或亵渎的词。（例如：他是这样一个白痴）2. 第三人称代词（他们，他们，等等）结合否定或亵渎的词。(e.g.：看起来很丑）3. 第一人称代词（I，we，etc.）将否定词和第二或第三人称代词组合在一起。（例如：我恨你）(k) 计数矢量化-机器学习算法不可能直接与文本一起工作。因此，文本必须通过矢量化转换为数字形式。目前的研究利用PythonScikit-Learn的CountVector- izer来计算每个单词的出现次数，称为token，在文本中，并使用值作为其权重（Russell，2017）。第四阶段是将机器学习模型集成到移动应用程序中。阶段5是执行特征提取以训练机器学习算法来对网络欺凌和非网络欺凌推文进行分类。数据集被分成两组，其中75%是训练集，而25%是测试集。在进行训练之前，应用了合成少数过采样技术（一种处理不平衡数据集的技术）（Brownlee，2020）。该技术的工作原理是通过复制从少数类生成新数据。它不向模型提供额外的信息，而是使两个类保持平衡。根据Novalita等人（2019）的说法，RF分类器的性能根据所使用的参数而变化，例如树的深度，树的数量等。为了克服不一致性，本研究通过Scikit-Learn实现了交叉验证网格搜索（GridSearchCV），以获得RF中使用的参数的最佳组合。GridSea

下载后可阅读完整内容，剩余1页未读，立即下载