社交媒体中暴力人群的微笑分析

178 浏览量更新于2023-10-15 收藏 12.56MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

14650暴力人群微笑吗？他们个人资料图片的社交媒体分析0Mauro Coletto Ca'Foscari UniversityVenice, Italymauro.coletto@unive.it0Claudio Lucchese Ca'Foscari University Venice,Italyclaudio.lucchese@unive.it0Salvatore Orlando Ca'Foscari UniversityVenice, Italyorlando@unive.it0摘要0在线社交平台的流行也导致了暴力和虐待行为在数字领域中的出现。网络欺凌、网络犯罪、儿童色情、性暗示等行为就是这些行为的例子，这些行为在社交媒体环境中有所体现。许多研究已经表明，通过分析社交互动，特别是交换消息的内容，可以大致检测到这些行为。模型中考虑的特征主要包括通过自然语言处理技术和词汇表检测冒犯性语言、社交网络结构度量以及如果有的话，用户上下文信息。我们的目标是通过分析用户的个人资料图片来调查那些在Twitter上采用冒犯性语言和仇恨言论的用户。结果显示，暴力人群微笑较少，他们被愤怒、恐惧和悲伤所主导。0关键词0网络欺凌、暴力、社交媒体、冒犯性语言、微笑、个人资料图片、face++、Twitter、情感0ACM参考格式：Mauro Coletto，Claudio Lucchese和SalvatoreOrlando。2018。暴力人群微笑吗？他们个人资料图片的社交媒体分析。在WWW'18Companion：2018年网络会议伴侣，2018年4月23日至27日，法国里昂。ACM，纽约，美国，4页。https://doi.org/10.1145/3184558.319159401 引言0在线社交网络和微博平台作为检测和量化社会现象的信息源是一项经常性任务，特别是在社交网络分析和计算社会科学领域。在不同的背景下，使用社交媒体研究集体现象的研究有很多：从流行病检测[12]到政治选举预测[6]，从信息传播[3]到迁移分析[5]。社交媒体在虚拟互动中用户采用冒犯性语言的虐待行为[1, 4,14]是一个重要的背景。许多研究集中在通过文本挖掘分析社交媒体中的对话和消息来检测网络欺凌、暴力和网络犯罪。0本文发表在知识共享署名4.0国际（CC BY4.0）许可下。作者保留在个人和公司网站上传播作品的权利，并附上适当的归属。WWW'18 Companion，2018年4月23日至27日，法国里昂© 2018IW3C2（国际万维网会议委员会），根据知识共享CC BY 4.0许可发布。ACM ISBN978-1-4503-5640-4/18/04。https://doi.org/10.1145/3184558.31915940机器学习模型[10,13]。虽然与社交网络结构和用户环境相关的其他特征可以用于提高模型准确性[7, 11,17]，但自动检测冒犯性信息是一个关键问题，涉及词汇资源（亵渎词典）、情感分析技术、自然语言处理方法和元信息的使用。在[8]中，作者提出了一种基于不同特征（单字、双字、三字、词性标记、Flesch-Kincaid等级和Flesch阅读容易度分数、情感和其他指标）的有趣的机器学习方法来检测冒犯性语言和仇恨言论。我们采用这种方法来检测使用冒犯性语言和仇恨言论的用户，以分析他们的个人资料图片，描述典型暴力用户的视觉特征。为了研究个人资料图片的视觉特征，我们采用了计算机视觉方法[21]，这种方法在许多最近的研究中被使用。在社交媒体的背景下，这种方法最近被用来研究自拍在Instagram上出现的类别[9]、Facebook照片中的文化趋势[19]或不同社交媒体中不同个人资料图片的特征[20]。02 数据0我们探索了两个不同的Twitter数据集，以减少对数据集的依赖性。这两个数据集在不同的时间段收集，时间间隔较大，因此我们还可以评估可能的演变。我们还使用了一组新闻数据集和一组不良词汇。TwitterA.我们使用CAW2.0（Web 2.0内容分析）研讨会在WWW2009年会议上发布的Twitter数据集，该数据集在网络欺凌检测的背景下被广泛使用[11,16]。该语料库包含≈977k条英文推文，由≈27k个唯一用户于2008年12月至2009年1月之间编写。TwitterB.我们使用第二个Twitter数据集，其中包含≈1M条英文推文，由≈643k个唯一用户通过TwitterAPI在2015年12月收集。NewsC-附加数据集.我们使用由SignalMedia（NewsIR'16研讨会）发布的包含1M条新闻的数据集。该数据集的目的仅是加强所使用的机器学习模型的有效性。这些新闻主要是英文，最初是从各种新闻来源和博客中收集的，为期1个月（2015年9月1日至30日）。亵渎词汇.为了创建一个全面的不良词典，我们使用以下在线资源：0•来自hatebase.org的冒犯性表达列表（1000+）•来自bannedwordlist.com的脏话列表（70+个术语）•Luis vonAhn认为可能具有冒犯性的英文术语列表（1300+个术语）0跟踪：在线社交网络和媒体：网络属性和动态WWW 2018年4月23日至27日，法国里昂Track: Online Social Networks and Media: Network Properties and Dynamics WWW 2018, April 23-27, 2018, Lyon, France14660表1：过滤推文的分类0数据集类别百分比推文00 2% 3 . 5 k0TwitterA 1 24% 34 k02 74% 106 k00 5% 8 . 9 k0TwitterB 1 30% 50 k02 65% 109 k0•来自FrontGate的用于过滤社交媒体内容的脏话列表（700+个术语）0通过合并它们，我们得到了一个包含2704个单个表达/术语的列表，可以用来过滤社交媒体内容和新闻，以查找冒犯性内容。03 方法论0仇恨言论在NLP社区中得到了广泛的研究[15,18]，尽管使用包含特定上下文中与仇恨言论相关的术语的字典和词汇源在其他上下文中可能具有中性或积极的含义，但仍然存在一个持久的关键点。因此，我们采用了字典方法与[8]提出的机器学习（ML）方法相结合，以检测冒犯性推文。具体而言，我们根据上述的亵渎词汇对收集到的推文进行了过滤。通过对数据集进行过滤，我们选择了：对于TwitterA，数据集的15％（143k个文档），对于TwitterB，数据集的17％（168k个文档）。在此过滤阶段之后，我们对结果推文应用了基于ML的方法来检测仇恨言论和冒犯性语言。ML模型基于具有L2正则化的逻辑回归。该工作考虑的特征包括：二元组、一元组和三元组特征（由TF-IDF加权）、Penn词性标签、Flesch-Kincaid等级和Flesch阅读容易度得分、情感词典和其他一般指标（字符、单词、音节、主题标签、提及、回复、转发）。该模型区分仇恨言论推文（类别0）、冒犯性推文（类别1）和中性推文（类别2）。我们将被分类为类别0或类别1的推文称为“暴力”推文，将类别2的推文称为“非暴力”推文。我们在原始论文中提出的数据集上进行了交叉验证的ML模型训练。该模型非常准确：在精确度和召回率方面均为94％。我们考虑了原始论文中描述的相同特征，其中包括最常见的1万个词（if-idf）和5千个词性标签。通过将学习的ML模型应用于我们的过滤数据集，我们按照表1的描述对推文进行了分类。中性推文的高百分比表明了词汇方法在正确识别暴力内容方面的局限性。为了加强该过程的有效性，我们将过滤和ML方法都应用于NewsC数据集，通过将新闻分割成与推文大小相当的句子。过滤排除了88％的句子。将ML方法应用于剩余12％的语料库，我们发现96％的剩余语料仍然是中性的。0突出了官方报纸和社交媒体中内容的暴力色彩的差异，这些差异不容易通过基于词汇的方法检测到。这一证据加强了机器学习模型的有效性，该模型不仅考虑词频，还能检测到冒犯性内容。04个个人资料图片分析0图1：TwitterA上的微笑指数分布0图2：TwitterB上的微笑指数分布0我们使用Face++开发的公开可用API，这是一个基于云的人脸识别系统。Face++是一个提供通过个人资料图片推断用户高度准确信息的服务。给定包含人脸的图片，Face++算法提取有关个体的人口统计学信息，以及检测到的面部的情绪信息。Face++在一个已建立的人脸识别基准测试中报告了99.5%的准确性[21]；这个准确性在[2]的结果中得到了进一步支持，该结果报告了类似照片的97%±5%的准确性。通过Face++，我们收集了13000个用户（对于TwitterA）和18000个用户（对于TwitterB）的人口统计信息（性别、年龄）、种族、微笑强度和情绪。Face++能够识别的情绪包括愤怒、厌恶、恐惧、快乐、中性、悲伤和惊讶，并提供置信度分数。01.1244TwitterA11.244521.264601.0440TwitterB10.753720.784000.710.120.17TwitterA10.710.110.1820.760.090.1600.540.240.22TwitterB10.530.120.2320.640.130.2314670表2：人口统计分析0数据集类别比例男/女平均年龄0表3：种族0数据集类别白人黑人亚洲人04.1 人口统计分析0表2显示了人口统计分析的结果。由于篇幅限制，我们没有报告按性别的完整年龄分布，但我们强调最相关的证据。在两个数据集中，暴力人群的年龄平均较小，这进一步加强了所谓网络欺凌者的存在可能性，通常是青少年，他们导致了群体平均年龄的降低。类别1中女性用户的比例较高，这表明使用暴力语言并不主要是男性行为。对于仇恨言论，可以得出的证据较少，因为聚类较小且统计学上不太显著。04.2 种族0表3报告了种族分析的结果。在类别0和1的用户种族中没有显著差异，但是如果我们观察暴力用户和中立用户之间的差异，我们会发现黑人比白人增加。我们通过t检验测量了统计学上的显著性，证据证实了在暴力用户中黑人的比例显著高于白人（p值：0.0015）。而亚洲人口的差异则没有统计学上的显著性。我们还探索了其他特征，例如脸上是否佩戴眼镜和太阳镜，但是在佩戴与否之间没有统计学上的显著差异。04.3 情绪分析0通过分析用户的个人资料图片，我们可以计算出一个微笑指数，该指数表示图片中微笑的强度（0-100的范围：0为凹曲曲线，100为极度微笑）。图1和图2报告了所考虑的个人资料图片的微笑指数的箱线图。箱线图中的均值在不同类别之间是不同的，并且结果在统计上是显著的（t检验的p值小于10的-6次方）。它们显示了一个有趣的趋势：暴力用户的微笑指数较低，而中立用户的微笑指数平均较高。通过Face++，我们还收集了分析个人资料图片中用户情绪的信息。图3报告了TwitterA和TwitterB数据集的情绪分析结果。两个数据集的结果是一致的。暴力人群的愤怒、恐惧和悲伤的值平均上显著高于其他人群。同时，惊讶的感觉在暴力用户中更高，特别是在第一个数据集中，显示出兴奋。另一方面，与被检测为暴力或冒犯的用户相比，非暴力用户中幸福感更加普遍。暴力和非暴力用户之间的幸福感差异尤为显著。这两个数据集在收集、时间段和用户方面都有所不同，但是暴力人群和中立人群之间的结果是一致的，从而表明这些证据的有效性。我们得出结论，个人资料图片中提取的信息与用户的暴力行为之间存在相关性。需要进一步进行社会和心理分析，以了解在暴力用户个人资料中突出显示的特征是由于明确展示攻击性态度的意愿，还是由于特定群体的内在结果，或者是一种生活方式。05 结论0据我们所知，这是关于社交媒体中暴力人群头像的第一项研究。我们采用了双重方法，使用了一个由不同来源合并而成的专门词汇表，以及一个能够检测仇恨言论和冒犯性交流的最新机器学习模型。我们按顺序应用了这两种方法，以便检测出需要通过其头像进一步分析的暴力用户。为了验证该方法的普遍性，我们考虑了在不同时期（2009年和2015年）收集的两个数据集，每个数据集包含约1百万条推文。对于第一个数据集，头像分析基于13k个用户，对于第二个数据集，头像分析基于18k个用户。结果显示，暴力用户年龄较小，女性用户采用冒犯性语言的比例较高。至于种族，暴力用户中黑人的比例较高。一个原因可能是特别是在美国，低阶层社会使用的语言充满了冒犯性俚语表达。此外，攻击性用户微笑较少，在他们的头像中看起来不快乐，充满了恐惧、悲伤和愤怒。这些感觉既是他们攻击性的结果，也可能是一种无意识的愿望，希望显得更加暴力。0参考文献0[1] Mohammed Ali Al-garadi, Kasturi Dewi Varathan和Sri Devi Ravana. 2016.在线通信中的网络犯罪检测：Twitter网络中网络欺凌检测的实验案例。人类行为中的计算机630Track: 在线社交网络和媒体：网络属性和动态WWW 2018，2018年4月23日至27日，法国里昂14680图3：情绪分析0类别0 类别1 类别20TwitterA- %0TwitterB- %0(2016), 433–443. [2] Saeideh Bakhshi, David A Shamma, and Eric Gilbert. 2014.照片中的面孔吸引我们：在Instagram上带有面孔的照片获得更多的喜欢和评论。在ACM人机交互计算系统中。965–974。[3] Alessandro Bessi, Mauro Coletto, George AlexandruDavidescu, Antonio Scala, Guido Caldarelli和Walter Quattrociocchi. 2015.科学与阴谋：误传时代的集体叙事。PloS one 10, 2 (2015), e0118093。[4] DespoinaChatzakou, Nicolas Kourtellis, Jeremy Blackburn, Emiliano De Cristofaro, GianlucaStringhini和Athena Vakali. 2017.在Twitter上检测攻击者和欺凌者。在第26届国际万维网会议论文集中。国际万维网会议委员会，767–768。[5] Mauro Coletto, Claudio Lucchese, Cristina Ioana Muntean,Franco Maria Nardini, Andrea Esuli, Chiara Renso和Raffaele Perego. 2016.在线社交网络的情感增强多维分析：地中海难民危机的感知。在ASONAM 2016中。[6] MColetto, C Lucchese, S Orlando和R Perego. 2015.使用Twitter进行选举预测：一种机器学习方法。在2015年IIR，意大利卡利亚里。[7] MaralDadvar, Dolf Trieschnigg, Roeland Ordelman和Franciska de Jong. 2013.提高网络欺凌检测的用户上下文。在欧洲信息检索会议上。Springer，693–696。[8]Thomas Davidson, Dana Warmsley, Michael Macy和Ingmar Weber. 2017.自动检测仇恨言论和冒犯性语言的问题。ICWSM 2017 (2017)。[9] Julia Deeb-Swihart,Christopher Polack, Eric Gilbert和Irfan A Essa. 2017.在日常生活中的自拍呈现：对Instagram上自拍背景的大规模描述。在ICWSM中。42–51。[10] Karthik Dinakar, Roi Reichart和Henry Lieberman. 2011.模拟文本网络欺凌的检测。社交移动网络11, 02 (2011)。0[11] Qianjia Huang, Vivek Kumar Singh和Pradeep Kumar Atrey. 2014.使用社交和文本分析进行网络欺凌检测。在社交感知多媒体国际研讨会上，ACM SAM2014。3–6。[12] Vasileios Lampos，Tijl De Bie和Nello Cristianini. 2010.流感检测器-在Twitter上追踪流行病。在机器学习和数据库中的知识发现。Springer，599–602。[13] Parma Nand，Rivindu Perera和Abhijeet Kasture。[n.d.]。âĂĲ这条消息有多欺凌？âĂİ：一种欺凌的心理测温器。([n. d.])。[14] DesmondUpton Patton，Robert D Eschmann和Dirk A Butler. 2013.网络暴力：社交媒体、帮派暴力、男性气质和嘻哈文化的新趋势。人类行为中的计算机29, 5(2013)，A54–A59。[15] Anna Schmidt和Michael Wiegand. 2017.使用自然语言处理进行仇恨言论检测的调查。SocialNLP 2017 (2017)。[16] Vivek KSingh，Qianjia Huang和Pradeep K Atrey。[n.d.]。使用概率社交文本信息融合进行网络欺凌检测。在IEEE/ACM ASOMAN2016中。884–887。[17] A Squicciarini，S Rajtmajer，Y Liu和Christopher Griffin.2015. 在在线社交网络中识别和表征网络欺凌动态。在IEEE/ACM ASOMAN2015中。280–285。[18] Wenbo Wang，Lu Chen，KrishnaprasadThirunarayan和Amit P Sheth. 2014.在Twitter上的英语咒骂。在计算机支持的合作工作和社交计算的ACM会议上。ACM，415–425。[19] Quanzeng You，Darío García-García，Mahohar Paluri，JieboLuo和Jungseock Joo. 2017. Facebook照片中的文化扩散和趋势。ICWSM 2017(2017)。[20] Changtao Zhong，Hau-wen Chan，Dmytro Karamshu，DongwonLee和Nishanth Sastry. 2017.穿戴多个（社交）帽子：您的不同社交网络人格有多不同？ICWSM 2017 (2017)。[21]Erjin Zhou，Zhimin Cao和Qi Yin. 2015.Naive-deep人脸识别：接触LFW基准的极限或不是？arXiv预印本arXiv:1501.04690(2015)。0跟踪：在线社交网络和媒体：网络属性和动态WWW 2018，2018年4月23日至27日，法国里昂

下载后可阅读完整内容，剩余1页未读，立即下载