没有合适的资源?快使用搜索试试~ 我知道了~
沙特国王大学学报一种基于邻居推文的泰内·拉马克里什努杜·普拉尚特·KVTKN·萨德尔计算机科学与工程系,国家技术学院,Warangal,Telangana 506004,印度阿提奇莱因福奥文章历史记录:2021年5月9日收到2021年8月15日修订2021年8月16日接受2021年8月27日网上发售关键词:压力检测社交媒体推文水平压力Logistic回归讽刺文本内容A B S T R A C T从Twitter等社交媒体中检测心理压力的研究越来越受到关注。然而,Twitter对每条推文使用的字符数有限制,导致数据稀疏。许多技术被提出来检测推文级别的压力,但他们中的大多数都未能利用文本内容来减少数据稀疏性的影响。在这项工作中,提出了两种解决方案,以进一步利用文本内容的推文级压力检测。首先,计算一个新的特征Sarcasm_Level,以指示推文内容中存在的讽刺及其在检测压力中的影响。其次,开发了一种新的基于邻域推文的压力检测方法,该方法是一种基于逻辑回归的方法,该方法集成了以前的推文(也称为邻域推文)的内容。实验结果表明,该模型具有显着更好的性能,在检测压力,因为它包含了来自邻居推文的信息。此外,随着新功能的加入,该模型的性能优于其他知名的机器学习模型,如支持向量机,随机森林和逻辑回归,具有更好的准确性和F1得分。版权所有©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍心理压力正在成为本世纪人类的主要健康问题。它反映了身体无力与环境共存(Dobson和Smith,2000)。 现代生活方式中的各种因素,如工作负担、人际关系、学术问题等,都会造成压力。对压力的脆弱性更高。对日常压力源管理不善或无效1会导致慢性压力。抑郁症现在是世界各地的一种主要残疾,主要是由于慢性压力而发展的(Glaser和Kiecolt-Glaser,2005)。此外,抑郁症已成为全世界的一种普遍疾病,超过2.64亿人患有抑郁症(James et al., 2018年)。超过*通讯作者。电 子 邮 件 地 址 : kasturiprashanth@student.nitw.ac.in ( P.KVTKN ) ,trk@nitw.ac。in(T. Ramakrishnudu)。沙特国王大学负责同行审查根据Newbusiness在2010年的全球调查报告,世界上一半2印度是世界上人口第二多的国家,与抑郁症相关的病例稳步增加(Grover et al.,2019年)。根据中国疾病预防控制中心的数据,极端压力是自杀的一个主要方面,自杀已成为中国青少年死亡的首要原因。此外,由于COVID-19大流行病的传播而导致的长期社会隔离越来越多地导致人们行为特征的两极变化(Dey等人,2020年)。除此之外,抑郁症的后期阶段为心理压力、恐惧和焦虑的许多症状铺平了道路(Dey等人, 2020年)。此外,通过社交媒体传播有关疫情的错误信息和假新闻会产生长期后果,特别是在心理健康方面(Borra和Dey,2020)。因此,在压力变成慢性疾病之前,及早发现压力在这个流行病时代是至关重要的。为此,基于社交媒体的压力检测的研究最近比传统的压力检测技术获得了很多牵引力,因为1压力源是触发压力的事件(Lin等人,(2016年)2https://www.newbusiness.co.uk/articles/entrepreneurs/mark-dixon-how-keep-员工快乐积极。3https://theweek.com/articles/457373/rise-youth-suicide-china。https://doi.org/10.1016/j.jksuci.2021.08.0151319-1578/©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。制作和主办:Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.comP. KVTKN和T.拉马克里什努杜沙特国王大学学报6664后者除了社会耻辱之外,在数据收集方面还存在许多不一致之处(Bara等人,2020; Healey和Picard,2005; Raij等人, 2010年)。1.1. 机遇和挑战Twitter、Facebook、新浪微博等社交媒体微博平台已经彻底改变了人们联系和互动的方式,为用户数量的稳步增长铺平了道路。此外,随着越来越多的人热衷于分享他们的日常活动,如午餐、晚餐、与朋友互动等,Twitter等微博网站以现实的方式和及时的方式恰当地描绘了用户的情绪和心理状态。因此,微博平台被认为是可靠收集用户意见的潜在来源。此外,它们还提供了通过许多工具收集数据的简单有效的方法。虽然社交媒体容易受到错误信息的影响,但它是网络生活的重要组成部分,信息、消息和提出问题是可能的(Dey等人,2018年)。因此,使用社交媒体进行压力检测既可行又准确(Lin等人,2017年)。但这在整个数据挖掘管道中存在许多挑战-文献中的各种著作已经解 决 了 这 些 问 题 中 的 许 多 问 题 ( Coppermith 等 人 ,2014 a;DeChoudhury等人,2013 a,b; Lin等人,2017,2014 a,b; Xue等人,2014年,2016年)。利用Twitter数据的主要挑战是,帖子对它们可能包含的文本信息量有限制,每条推文最多为280个字符。早些时候,推文的文本内容限制为140个字符,但在2017年增加到280个字符,以便更灵活地使用Twitter4。根据Twitter的说法,额外的字符空间并没有导致推文的平均大小显着增加,但它确实导致了参与度的增加,或者互动的人数和提及的数量。这导致在使用推文的文本内容检测压力时的数据稀疏性问题为了解决推文级压力检测中的数据稀疏性问题,(Zhao等人,2015年)采用了来自与tweets相关的时间依赖性回复和评论的信息。但这种方法依赖 于 手 动 标 记 , 这使 得 它 既 费 力 又 有 偏 见 。 它 在 (Lin et al. ,2017),文本内容属性在压力检测中具有比任何其他属性集合更大的个体贡献。因此,更多地利用文本内容将产生压力检测性能的改进。此外,识别嵌入在推文的文本内容中的讽刺及其对检测压力的影响的挑战在文献中没有得到解决。因此,这项工作开发了两个解决方案,以提高利用的文本信息中存在的推文。1.2. 拟议工作本文提出了一种基于邻居推文的压力检测方法,解决了推文压力检测中数据稀疏性的问题对所获得的数据进行探索性数据分析,以确定包括来自先前推文的内容是否将提高检测用户的压力状态的准确性这是由于相关信息的可用性增加,因为压力是一种具有连续性的现象在所提出的方法中,一个基于逻辑回归的模型是通过考虑给定的4https://blog.twitter.com/en_us/topics/product/2017/tweetingmadeeasier.html。5https:www.theverge.com/2018/2/8/16990308/twitter-280-character-tweet-长度tweet及其紧接在前的tweet来确定给定tweet的压力标签,这在早期的tweet级压力检测技术中没有解决(Coppersmith等人, 2014 a; Lin等人,2014 a; Xue等人,2014年,2016年)。该模型通过使用两组数据进行训练-一组包含在一段时间内从Twitter API收集的推文,另一组包含第一个数据集中每个推文的先前推文。在这项工作中,以前的推文,邻里推文和辅助推文的术语可互换使用。这项工作还引入了一个新的功能,称为讽刺乐vel,这表明在推文内容中存在讽刺在这里,讽刺是一种表达观点的高级方式,这种观点并不表达明确指定的含义(Liu等人,2014年)。此外,还分析了该特征对检测鸣叫级压力的性能的影响为了比较所提出的模型的性能,使用流行的基线机器学习分类器,如Logistic回归,支持向量机和随机森林进行实验。这些实验进行了不同的邻里鸣叫,以了解邻里鸣叫在鸣叫水平检测压力的影响。它还可以帮助在一系列推文上组合用户级压力检测,这是通过聚合在推文级预测的预测概率来获得的。此外,这有助于在用户的给定推文系列的整个时段内捕捉压力和情绪的变化。这在用户压力状态的时变分析中也是有用的,如在(Xue等人, 2016年)。据我们所知,这是第一个研究用户的邻居推文在确定推文的压力状态方面的影响的研究此外,探索性的数据分析上的词汇的推文解释背后的想法,包括以前的推文的内容的直觉。1.3. 对这项工作的对收集的推文及其提取的邻居推文的数据集执行详细的数据探索,以理解先前推文中的词汇与当前推文的分布的相似性。开 发 了 一 种 基 于 Logistic 回 归 的 基 于 邻 居 推 文 的 压 力 检 测(NTSD)模型来预测推文水平的压力,该模型通过考虑邻居推文来利用文本信息计算了一个名为Sarcasm_Level的新功能,以增强对推文中文本信息的使用。本文的其余部分组织如下。第二节介绍相关工作。第3节中描述了问题制定。拟议的工作,邻里鸣叫为基础的压力检测(NTSD),在第4节。而第5节描述了实验装置。第6节除详细讨论外,还介绍了结果和最后,第7节给出了结论和未来的工作.2. 相关工作本节对文献中的相关工作进行了总结。用于通过来自可穿戴传感器的信号或来自与精神科医生的个人访谈、问卷和反馈来检测压力的传统方法(Bara等人,2020; Healey和Picard,2005; Raij等人,2010年)。但他们中的大多数人都遭受了这样一个事实,即他们没有积极主动地检测压力。此外,本发明还提供了一种方法,●●●P. KVTKN和T.拉马克里什努杜沙特国王大学学报6665他们受到数据质量的影响,因为数据收集的过程容易出错,并且由于社会耻辱,大多数用户不喜欢经历这样的过程。此外,一些传统方法使用可穿戴传感器来监测生理活动以检测压力。但是这种方法干扰了正常的生活,使人们避免使用它。因此,基于社交媒体的压力检测方法变得突出。已经对用于使用社交媒体检测健康相关问题的方法进行了许多研究(Brownstein等人,2009年)。但是检测与心理健康相关的问题是困难的,因为社交媒体数据中的心理健康问题或压力通过所使用的行为和语言的微妙变化来反映(Coppermith等人,2014年a)。利用社交媒体来识别和诊断常见的精神疾病如重度抑郁症的可能性在(DeChoudhury等人,2013年a)。对产后期间母亲行为的显著变化的预先预测在(De Choudhury等人,2013年b)。 在(Baumgarten等人,2013),开发了一个简单的基于关键字的分类器来确定短消息(如推文)中的情感。除了抑郁症,使用社交媒体帖子检测创伤后应激障碍首先在(Coppersmith等人,2014年a)。更广泛的心理健康疾病的集合被分析为来自社交媒体帖子的直观语言信号(Coppersmith等人,2014b),表明Twitter和其他社交媒体是获得人类行为独特可量化信号的良好来源(Coppermith et al.,2014年a)。在(Li et al.,2014年c)。其中,使用基于高斯过程的分类器来检测推文级别的压力,其随后被聚合以计算该类别中的用户级别的压力(Li等人,2014年c)。尽管对使用社交媒体检测压力的方法有了新的认识,但上述技术存在以下两个缺点中的任何一个。首先,它们依赖于手动过滤来标记数据(Coppermith等人,2014年a,b),这是费时费力的。第二,它们基于通过众包和调查收集的数据(DeChoudhury等人,2013a,b),这需要时间,而且是错误的因为很多人都避免做调查。使用青少年的推文检测青少年压力(Xue等人,2014)通过提取各种语言特征,并将每个类别中检测到的重音分类为整数范围[0,5]中的6个级别。但是在(Xue et al.,2014年度)用于使用依赖关系树来标记训练数据。 在(Zhao等人,2015),分析了基于时间的评论和响应交互的灵敏度对检测用户的压力状态的影响。它不考虑用户的给定推文的邻近推文对于识别压力的重要性。此外,在(Zhao等人,2015)是一个手动程序,这是一个主要的缺点。基于青少年的微博帖子,考虑了青少年压力的不同模式(Xue et al.,2016年)。慢性压力是用个体推特水平压力状态的聚合来计算的(Xue等人,2016年)。类似于早期的方法,该方案具有使用问卷作为标记数据的基础事实的显著缺点(Xue等人,2016年,使其不太适用。在Thelwall,2017年)中,提出了一种智能系统TensiStrength,用于从大量短文本消息中自动检测压力状态,以便在智能交通系统等其他应用中使用这些信息。但是,它没有考虑邻居消息在检测给定消息中的压力水平时的影响。在(Ziwei和Chua,2019)中,提出了一种基于网络的应用程序,用于根据Twitter用户的推文情绪确定其抑郁状态。然而,它最近,使用深度学习技术检测压力的问题正在引起研究兴趣。(Lin等人, 2014a)是一项初步工作,使用深度稀疏神经网络来检测给定的推文是否反映了其作者的压力状态。这种方法基于地面事实来标记训练数据,即推文的主题标签中的单词代表用户的观点,这被证明是主要的缺点,因为直观地说,带主题标签的短语可能无法正确反映用户的观点。在(Lin等人,2014 b),分别在推文和用户级别计算几个手工选择的特征,例如语言和统计属性,然后将其馈送到卷积神经网络中,以在用户级别生成模态不变属性。之后,设计了基于深度神经网络的模型来解决检测压力的问题,其中模态不变属性作为输入(Lin等人,2014年b)。在(Lin等人, 2016),提取面向压力的丰富特征集以从给定社交媒体帖子中识别压力源主体和压力源事件,其中采用多任务学习模型。此外,(Lin等人,2016)使用卷积神经网络从单词级向量学习推文级特征。但该过程依赖于手动标记数据,因此无法扩展到更大的数据集。 根据(Lin et al., 2017年),作者提出了卷积神经网络和部分标记因子图的混合模型,以解决感知用户级压力的问题。此外,(Lin等人, 2017)对相关用户的压力状态和社交互动网络进行了系统的调查;其中得出的结论是,有压力的用户比无压力的用户具有高14%的稀疏连接。在作品中,(Lin et al.,2017年,2014年b,2016年),训练数据是基于存在的鸣叫与句子模式,如“我觉得有压力”或“我觉得这周有压力”,因为它被证明,“我觉得”为基础的句子模式是有效的情感分析(Kamvar和哈里斯,2011年)。因此,先前的作品(Lin等人,2014b,2016),遭受缺乏评论、响应交互的时间敏感分析的主要缺点,并且也没有关于用户的邻居发帖在推文级压力检测中的影响的研究。在(Carta等人, 2019年),ApacheSpark等大数据框架,利用几个词嵌入来开发一种方法,以便在六个毒性类别的范围内对讨论进行多类别多标记分类。但它没有考虑讽刺和以前的评论的影响。最近,(Wang et al.,2020)提出了一种基于深度学习的融合网络模型,基于基于文本向量和统计特征的多任务学习来检测抑郁用户。虽然这项工作旨在最大限度地利用推文的文本内容,它没有解决前一条推文的影响。在(Gandhi等人,2021),提出了一种基于卷积神经网络(CNN)和长短期神经网络(LSTM)的基于深度学习的方法,通过提取word2vec和停止词的各种特征来检测推文中的情感来捕捉上下文。(Mundotiya和Yadav,2021)探索了一种基于深度学习的解决方案,用于检测社交媒体帖子中的点击诱饵,这可能会误导用户并影响他们的压力水平。但这两项工作都未能捕捉到前一条推文的重要性。在(Martins等人,2021),开发了一种基于机器学习的方法来检测文本中的抑郁线索。它提出了一种使用机器学习、情感分析和自然语言处理技术来识别Twitter上的抑郁简介的方法。然而,在检测本鸣叫的压力水平的邻居鸣叫的影响还没有被调查。此外,在文献中没有研究嵌入在推文的文本内容中的讽刺对检测重音的影响在这里,讽刺是一种表达言语讽刺的方式,P. KVTKN和T.拉马克里什努杜沙特国王大学学报6666JXJJJJ2 2fgSJS还考虑N xi,其中xi是数据集的第i条推文,推文xi1/1第1页JJSSDSðÞ表示轻蔑或嘲笑6.有提到四种不同类型的讽刺(坎普,2012年;乔希等人, 2017年):i) 命题讽刺:所提出的命题的意义与其明确的意义相反的一种情况例如,“你听起来棒极了!” may be interpreted as non-sarcastic without theii) 嵌入式讽刺:在这种类型的讽刺中,所表达的单词或短语中存在嵌入式不兼容性。例如,在句子“约翰已经变成了这样一个外 交 官 , 没 有 人 把 他 当 回 事 。 ”, the incompatibility isembedded in the word of ”diplomat” and rest of theiii) 喜欢前缀的讽刺:喜欢短语用于否认所传达的直接意义例如,句子表1拟议模型中使用的符号及其定义。符号定义U用户集u任何用户u2U,其中U是用户集v主数据集D中的第i条推文(推文特征向量),并且属于某个用户u主数据集中的推文总数DM特征或维度的总数(特征向量的长度)邻里窗口在邻域窗口d下,给定推文所考虑的先前推文的最大数量i与主推文对应的第j个窗口d下的用户u的xixim主推文xi的第m个特征值,其中m2f0;1;. . . ;Mg“好像你在乎似的!“是一种常见的讽刺的回应我iv) 言外之语的讽刺:在这种情况下,讽刺是表达辅助tweet xi的第m个特征值,其中m2 f0;1;. . . ;Mg用非文本的线索,如面部表情来传达一个真诚的话语的反向情绪和态度。比如说,在说“是的,没错”的时候翻在这项工作中,一个新的功能,称为讽刺_水平计算的基础上的概念,以言外之语讽刺,其中面部表情表示的形式,表情符号,由用户,展示讽刺D收集用于分析的标记的主要推文的集合。Dd从窗口dyi2f0;1g对应于tweetxi2D的应力状态标签yi2f0;1g对应于邻域鸣叫的应力状态标签xi2DdY主要数据集的类标签集,Dw大小为M的特征权重向量,w1/2;w2;。 . . ;wM]T所提出的模型的对数似然函数训练数据样本对应的主推文数据集,和辅助tweets数据集,在推文水平压力检测技术中,在确定给定推文的压力水平时,先前推文的内容的效果不被考虑用于研究。这一点很重要,因为大多数推文都对文本内容有约束,这使得用户的情感传播到多个系列的推文中。因此,自然地,前一条推文的情感继续呈现推文,并有助于确定推文的压力水平。这项工作解决的想法,利用内容从紧接在前的推文以及讽刺的影响,在检测压力的推文的文本内容。3. 问题公式化设U为用户集合,x为用户u发布的推文联合设y0; 1是tweet x的重音标签。该模型考虑的推文数据集由两个集合组成,主集和辅助集。在定义问题之前,验证数据样本对应主tweets数据集D和辅助tweets数据集Dd主要推文验证样本的预测类标签,DVqrf目标函数的梯度,f<$w<$关于参数向量wTrfi第i个训练样本的目标函数相对于参数向量wT的梯度权重向量的变化g学习率Pyijxi主要tweet xi的类别yi的预测概率Pyi jxi类y i的预测概率 辅助tweetxi对应于主推文xiPc.yijxi;jxitweet x i的y类组合预测概率,a主推文预测概率的权重ck第k条辅助推文的预测概率权重,16k6Ndv随机森林h随机森林分类器给出了所有的符号在这项工作中使用的总结在表1中。定义1(主要推文数据集)。设D是在一段时间内从Twitter收集的历史推文的集合,由下式给出:定义3(辅助推文数据集)。设Dd是每个推文的邻域窗口d内的邻域推文S在原始数据集中,D. 形式上,Dd¼SN2 j j ¼SNd xi,其中,xi是j-属于某个用户u联合 让DN,其中N表示主数据集中的推文总数以及标记该数据集中的推文,其中yi2f0;1g给出推文xi的重音标签。在这项工作中,术语主要推文,当前推文和当前推文可互换使用。定义2(邻域窗口)。由d表示的邻域窗口为主数据集中的每个tweet提供了最近tweet集合的限制。也就是说,它是从主数据集的当前推文中考虑的最近推文的集合。对于任何给定的窗口d,令Nd是最大可能对于主数据集中的任何tweet,窗口中允许的邻域tweet。在邻域窗口d和N下,d是最大可能对于在邻域窗口d下允许的任何主推文的邻域推文。 这个数据集的大小是NjDdj6NNd.<问 题 定 义 : 给 定 一 组 标 记 的 推 文 ( D ) 和 相 应 的 辅 助 推 文(Dd),问题是学习一个函数g,该函数通过合并来自其辅助推文s xr的内容来预测任何未标记推文xr的标签,该辅助推文s x r被认为是在相邻的推文中。伯胡德窗口d.函数g是tweet分类器,描述为g:D × Dd!y,其中y是标签的集合。然后,使用分类器g根据邻域推文Sxr的内容学习未标记推文x r的未知标签y r如下:6https://www.thefreedictionary.com/。X1/1对应于用户uJJMDP. KVTKN和T.拉马克里什努杜沙特国王大学学报6667Sþþ--半-]yr¼g.xr;Nds¼1xr!ð1Þ语言/文本特征–基于EMPATH的语言心理学图书馆的十个类别的字数:EMPATH是一个免费的图书馆,其中yr2f0;1g.4. 基于邻居推文的压力检测(NTSD)4.1. 模型框架所提出的模型的基本框架被描绘在图。1.一、通过使用Twit-ter的API tweetkey在Twitter上爬行来收集主要推文,在此之后,为两组推文提取所有所需的特征。然后,利用主推文和相应的辅助推文的特征向量训练所提出的NTSD模型然后,训练的NTSD模型被用于通过利用来自给定推文的内容及其直接的非正式推文的信息来预测任何未标记的推文的压力状态标签4.1.1. Tweet在提出模型之前,描述了在这个问题中使用的推文由于该问题解决了推文级别的压力检测,因此提取了特定于每个推文大部分特征基于推文的文本内容,以便利用推文及其邻近推文的文本内容,同时提取 推 文 级 别 的 社 会 属 性 以 理 解 推 文 此 外 , 定 义 了 一 个 称 为Sarcasm_Level的新的基于文本的特征,以理解存在于推文的文本内容中的Sarcasm在检测推文级别的压力时的贡献模型中使用的特征总结如下:心理语言学单词计数(Fast等人,2016年)。该库用于提取与tweet文本内容的10类语言心理线索这些类别包括-家庭,健康,学校,学术,考试,疾病,商业,人际关系,办公室和非正式语言。这是一个长度为10的向量。–积极和消极动词的数量:它是一个大小为2的向量,包含在推文中找到的积极和消极动词的计数–积极和消极形容词的数量:它是一个大小为2的向量,指定在推文中找到的积极和消极形容词的计数。–程度副词:该属性计算推文中使用的副词的强度或级别,如(Lin et al.,2017年,2014年a,b)。程度的范围是在3; 3。例如,强调“的程度为2。同样,–表情符号计数:推文中存在的正面和负面表情符号的数量。它是一个大小为2的向量。使用Python的NLTK和Jumeji库来提取表情符号的情感。–标点符号:它是反映推文文本内容中情绪的标点符号的计数,如问号(?),感叹号(!) 和点(.. . ). 这是一个vec-尺寸3的tor。–Sarcasm_Level:它是两个建议的解决方案之一,用于利用tweet的文本内容来缓解数据稀疏的问题。此属性捕获嵌入在tweet内容中的讽刺如果文本的极性具有一种情感,但推文的主题标签中的表情符号和单词是Fig. 1. NTSD模型的框架。[●P. KVTKN和T.拉马克里什努杜沙特国王大学学报6668¼>posneg>:að Þð Þ2r2p2其中,fxpexp,是概率密度函数相反的情绪。这是必要的,因为讽刺性推文中传达的情感通常与推文中发现的明确情感相这在伊洛很常见阳性分类比例PfreqPfreq典型的讽刺(Joshi等人, 2017年)。为了理解该属性的计算,定义了一些符号。让总的正负极性阴性组比例Nfreq公司简介推文中的词分别是pos和neg。此外,让推文中的正面表情符号和负面表情符号的总数分别为epos和eneg,而hpos和hneg是推文中具有正极性和负极性的主题标签的计数。Word_scaled_frequency:单词占类中单词总数的比例对于两个类,它被定义为:普弗雷克tweet内容,分别。然后,Twitter的Sarcasm_Levelt定义如下:正比例频率¼Pfreq8>1;如果epos>enegposnegSracmLevellaughter&阳性阴性H POS1个;如果hNfreqð2ÞW1;如果eneg负标度频率¼Nfreq1个;如果hposhnegpos>neg<0;否则在预处理中不应过滤掉主题标签,因为它们用于计算此属性。推文的社会特征:这项工作中提取的社会属性它们被计算为给定推文的收藏或喜欢,转发和评论的数量。4.2. 数据探索对主要和辅助推文中的数据进行探索性分析对于了解这些数据集中的词汇分布至关重要。首先,对推文进行预处理,其中:● Class_frequency_hmean:谐波平均值词类比例和类的标度频率。 为类,则计算为:正类频率平均值<$H平均值<$P正类比例;正标度频率平均值<$H平均值<$P负类比例;负标度频率平均值<$H式中,H平均值为a;b=2abWord_class_proportion_CDF:它是word_class_proportion的累积分布函数(CDF)值。 在计算CDF时考虑了正态分布(Wackerly等人, 2014年)。对于一个类,它被计算为:噪声数据,然后提取所需的特征用于数据清理,过滤掉仅包含URL信息的推文或仅包含图像内容的推文也类比例CDF产品编号:100000000002Xf x-1排除的是阻止时间轴访问的用户的推文,在所述用户的时间轴中释放先前推文的提取其中,fxp1exp-x-l,是概率密度函数最后,使用z分数归一化来归一化推文的数据集(Han等人, 2011年)。以这种方式,对所收集的推文进行预处理。推文的探索性分析需要对推文进行标签,但是由于邻域推文没有自己的标签,因此基于一些规则对它们进行标签。第一条规则是,如果邻居推文与主推文至少有一个主题标签和一个连续词,则将其标记为与主推文相同的类标签。和第二条规则是,如果邻居发推,正态分布和x 是对应的单词_-正类或负类的class_proportion值(Wackerly等人, 201 4)。l;r是标度的均值和方差频率下的认为课两Positive word类比例CDF和否定词类比例CDF以这种方式计算。Scaled_frequency_CDF:scaled_frequency的累积分布函数值。在计算CDF时考虑正态分布(Wackerly等人,2014年)。对于一个类,它被计算为:在对应的主推文之前仅两分钟发布的,包含至少一个与主推文相同的常用非停止词或主题标签,其被标记有与主推文相同的类别标签。定标频率CDF产品编号:10000000000Xf x-1主要推特如果之前的推文违反了上述两条规则,则会为它们分配相关主推文的互补标签。在标记邻域推文之后,对来自主数据集和辅助数据集的推文执行探索性数据分析。这种探索性的数据分析涉及到各种统计指标的计算,以直观地了解词汇是如何根据压力状态分布的。所采用的措施如下:频率:一个词在每个类中出现的次数。令Pfreq和Nfreq分别表示任何词在正类和负类中的频率设所有单词的集合为W。Word_class_proportion:一个词在一个类中出现的次数与该词在两个类中出现的总次数的比率对于两个类,此度量定义为:1-羟乙基-L-羟乙基r2p2并且x是正态或负态类的相应比例频率值(Wackerly等人, 2014)。 l;r是所考虑类别下的缩放频率的均值和方差。该原理用于计算正比例频率CDF和负比例频率CDFCDF_Hmean:word_class_proportion_CDF和scaled_frequency_CDF的调和平均值。这对于正类和负类都被计算为Positive CDF Hmean,分别计算CDF Hmean。算法1显示了计算主推文和辅助推文的这些测量值的过程使用这些指标进行的探索性数据分析结果见第6节。●P●●Z●Z●●●P. KVTKN和T.拉马克里什努杜沙特国王大学学报6669算法1. 基于邻域推文的压力检测P. KVTKN和T.拉马克里什努杜沙特国王大学学报6670NJNP你 好,ωkkkk1J权重向量,然后更新其权重,直到不再观察到权重的变化。这被称为转换点-NNdnoS4.3. 该模型在这一节中,所提出的模型,NTSD的工作。压力是一种具有连续性的心理现象,持续时间较长其中心思想是,如果前一条推文是有压力的,给出模型的权重,然后用它来预测未标记的tweet的类标签所提出的模型的对数似然计算为:f¼Xfyilogpxilog1-yilog1-pxilogg这条推文也有可能被强调。为此,本文提出了一种简单有效的模型来解决数据问题稀疏性在鸣叫水平的压力检测。 这个概念是1/1XXiiiið5Þ为了计算给定鸣叫的类别标签,利用给定鸣叫的用户的紧邻鸣叫邻居推文的邻居窗口是þ联系我们yjlogp xj1-yjlog 1-p xj基于从对应的主推文考虑的先前推文的计数来构造。换句话说,该窗口包含给定主推文的用户最近的先前推文。然后,使用主要和邻域推文数据集来训练模型。所提出的模型是在逻辑回归上开发的,逻辑回归采用sigmoid或逻辑函数来预测输入推文向量x属于类的概率。根据所提出的模型,如果邻居推xi的第i个主tweet 被重读,则第i个主tweet也被因此,yi^yi;16i6N和16j6Nd。因此,目标函数变为,fw¼Xfyilogpxilog1-yilog1-pxilogg应力(y1):11/1XNXNdn o我我ð6ÞP-1J xP-1次expansion-wT:xstart1/4便士×2/3便士þ联系我们yilogp xj1-yilog1-p xj其中w是必须求解的特征权重向量(Kim等人,2018; Menard,2002)。问题是要找到合适的w,使得训练数据的对数似然Lw最大化,其中,LwNy对数px1y1logp x.千分之四在这项工作中,主推文和相应的邻居推文的组合训练。 为了训练该模型,对于主数据集D中的每个推文xi和辅助数据集Dd中属于同一类的其相关联的邻域推文jxi的可能性被最大化(Kim等人, 2018年)。因此,基于表1中指定的符号,所提出的模型的似然函数定义如下:()下一页Nlwpxii1-p xi-ipxjj1-p xjJð4Þ4.4. 训练模型训练模型是一个优化问题,因为它必须找到使目标函数最大化的参数向量为了优化方程中给出的目标函数,(6)采用梯度上升的贪婪算法 梯度上升是梯度下降的最大化版本,其中通过在梯度方向上采取大的步骤来搜索解(Kim等人,2018; Mitchell,1997)。要学习的参数向量是w1;w2;. . . ;wM]T,其中M是特征的总数Yy1yYNdIyi我1-yiw0是偏置。 该过程从初始化为了更简单的计算,考虑对数似然(Hastie例如, 2009年)。因此,该模型的目标函数是最大化当前推文的对数似然以及其相关邻域推文的丢失可能性最大gence(Menard,2002). 学习率g是一个小的实值常数它是一个可以随着迭代而衰减的值算法2给出了所提出的模型NTSD的完整工作过程。算法中的变量k表示所实现的k折交叉验证中的k值通常,k= 10。梯度J1/1第1页P. KVTKN和T.拉马克里什努杜沙特国王大学学报6671在算法3中给出了用于学习所提出的模型的参数向量的上升解,并且从算法2调用该算法2.基于邻居推文的压力检测100万3. 基于邻域tweet的压力检测模型的梯度上升算法由于正常梯度上升是一种批处理技术,需要在更新权重之前扫描整组训练示例,因此它会随着数据大小的增加而减慢(Kim等人,2018; Mitchell,1997)。与此相反,算法4给出了使用随机梯度上升方法来找到权重向量w的最优值的解决方案 该方法也称为增量梯度上升,其中参数向量在每次迭代中更新而不是批量更新(Kim等人,2018; Mitchell,1997)。考虑到其效率和快速收敛性,在解决方案中 实施 具 有 小批 量 大 小的 随 机 梯度 上 升 ( Hastie 等 人, 2009;Mitchell,1997)。并且针对为邻域窗口选择的各种窗口大小来训练模型,以理解邻域推文在针对给定主推文的压力检测中的影响。P. KVTKN和T.拉马克里什努杜沙特国王大学学报6672¼¼NCK我 我JJ我[xi¼<>k¼1与流行的分类技术,如支持D算法4.基于随机梯度上升算法的邻域tweet压力检测4.5. 预测在学习模型的特征权重之后,执行预测以找到未标记的tweet的类别标签。基于表1中指定的符号,组合预测概率Pyjx;S xi使用以下内容的主推文x并且其对应的先前推文被认为是未标记的主推文连同其对应的邻域推文的合成联合预测概率。5. 实验装置本节讨论了数据集的描述、用于比较的基线模型和性能指标。所有的实验,收集的推文,数据预处理和分类器模型的建立是在Python中实现的使用Quixyter Notebook 4.1.1作为IDE。5.1. 数据集集合5.1.1. 数据收集为了进行实验评估,收集了两个推文数据集。Twitter最初,主要推文被收集并通过使用如在早期作品中指定的匹配句子模式来提取它们而被自动标记(Lin等人,2017年)。后来,这些被用来收集辅助推文。例如,在自动推文标记中,收集与搜索到的模式匹配的推文,如与搜索查询相匹配的推文,如这些推文收集在这样就形成了主数据集的一部分。使用Twitter的API tweetkey提取主数据集中每个tweet的用户的最新恶意tweet这些推文构成了辅助数据集的一部分。辅助数据集被分组为基于邻域窗口的大小的子集。在这项工作中考虑的窗口大小是Nd¼1和Nd¼2。5.1.2. 数据集详情实验中使用的数据集总结见表2。数据集DS1由1400个用户的2040条主要推文组成,这些推文跨越了一个多月,使用Twitter的API tweetkey进行了抓取该数据集包含1020条被正面标记的推文和1020条被负面标记的推文此外,DS 1的辅助数据由4,000条推文组成。同样,datasetDS 2由4,000个用户的16,000条主要推文组成,它自己的推文和它的邻居推文的集合被计算为:给定推文及其邻域推文在邻域窗口d内的预测概率的加权调和平均。如果用户之前没有可用的推文,则预测概率变为给定推文本身的原始预测概率。模型的组合预测概率在以下等式中指定:8>XNdJk1;如果Nd>0D两个月,其中包括8,000条正面标签的推文,另外8,000条是负面标签的推文。此外,辅助数据集由31,200条推文组成。根据邻域窗口的大小将辅助数据集分为两个子集。在这项工作中考虑的窗口大小是Nd¼1和Nd¼2。5.2. 与基线机器学习分类器的.!>a ab b ckðyi ji Þ为了分析所提出的NTSD模型的性能,j>aωP1xXck
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- oracle的入门心得.pdf
- Linux内核模块编程
- 基于Web的鲜花商务网站开发
- 软件设计师考试预测试卷
- Linux系统网络编程
- byte of python
- VisualStudio下面安装boost指南.doc
- ARM 应用系统开发详解──基于S3C linux soc
- Linux下C语言编程入门
- 机房构建方案参考与实施
- Linxu编程白皮书
- 详细讲解了javascript的各种验证方式,以及每个方法都配备了详细的案例。对js编程的程序员来说,是很好的一本参考资料。
- 电源噪声滤波器的基本原理与应用方法
- Boost库学习指南和说明文档.pdf
- excel技巧53例
- phpmyadmin使用教程
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功