社交网络中自杀信息的半监督标注方法

50 浏览量更新于2024-01-07 收藏 1.06MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

互联网干预28（2022）100519势函数的Bootstrapping半监督标注方法自杀信息RobertoWellingtonAcunCassaCaicedoa，c，*，Jos'eManuelGo'mezSorianob，H'ectorAndr'esMelgarSasietaca信息技术本科课程，Universidad Estatal del Sur de Manabí，Jipijapa，Manabí，SENESCYT奖学金获得者，厄瓜多尔biaLife首席执行官兼IT4IP顾问，为西班牙c秘鲁利马PontificiaUniversidadCatóolicadelPerú研究生院计算机工程科工程系A R T I C L EI N FO保留字：自杀意念自然语言处理社交网络自杀行为自杀预防A B S T R A C T一个人的自杀是一场悲剧，深深影响着家庭、社区和国家。根据全世界每一居民的标准化自杀率，到2022年，将有大约903，450起自杀和18，069，000起未完成的自杀，影响到所有年龄、国家、种族、信仰、社会地位、经济地位、性别等的人。社交网络用户发布自杀意图导致了这一领域研究进程的启动，以发现他们并鼓励他们不要自杀。本研究的重点是确定一个半监督的方法来填充生活语料库，使用自举技术，自动检测和分类文本提取的社交网络和论坛相关的自杀和抑郁症的基础上初始监督样本。为了进行实验，我们使用了两种不同的分类器：支持向量机（SVM）（具有词袋（BoW）特征，具有和不具有词频/逆文档频率（Tf/Idf），作为加权项，以及具有或不具有停用词）和Rasa（具有默认特征提取系统）。此外，我们使用五个数据集进行了实验：Life，Reddit，Life+ Reddit，Life_en和Life_en+ Reddit。使用半监督方法，我们设法将Life语料库的大小从102个增加到273个样本，其中包含来自社交网络Reddit的文本，组合Life+ Reddit+ BoW_Embeddings，使用SVM分类器，实现了0.80的宏f1值。这些文本依次由注释者手动评估，科恩Kappa一致性水平为0.86。1. 介绍世界上有7925亿人（Worldometer，n. d。）于2022年2月。其中，53.1亿是唯一的手机用户（67.1%），49.5亿是互联网用户（62.5%），46.2亿是活跃的社交媒体用户（58.4%）（We Are Social，2022）。截至2020年，人类产生了44 zettabytes的数字数据，到2025年将产生175zettabytes，其中大部分是用户通过数字电视、与社交网络的互动、通过互联网在设备之间从照相手机发送图像和视频而创建和消费的信息（IDC Corporate USA，2012年）。在整个数字世界中，33%的信息（超过13，000艾字节）是标记数据，77%是未标记数据（IDCCorporate USA，2012）。通过不同类型的机器学习，这些数据为数据分析提供了巨大的机会学习（Akpınar等人，2019），无监督学习或半监督学习（Raschka和Mirjalili，2019; Reagan等人，2017年）。如今，在线社交网络服务的爆炸式增长已经改变了人们的工作方式和分享他们的意见，想法和观点（Liang和Dai，2013; Weng等人， 2010; Liao等人， 2013年），无论其地理位置或物理限制（Al-Garadi等人，2016年）。因此，社交网络对于各种现实生活中的应用非常有用，例如营销（Leung和Chung，2014），电子学习环境中的应用（Choudhury和Pattnaik，2020），或发现关于特定产品的意见（Mircoli等人，2017），了解地理位置，食物偏好（Peschelet al.， 2019），爱好，最喜欢的商店，政治倾向（Stefanova和Kiryantsev，2019; Rodriguez等人，2012年），甚至识别社会危险的人（Stefanova和Kiryantsev，2019年），或那些有自杀意图的人（Desmet和Hoste，2013年; O 'Dea等人， 2015; Lu X ton* 通讯作者：Universidad Estatal del Sur de Manabí，信息技术本科课程，厄瓜多尔。电子邮件地址：roberto. unesum.edu.ec（R.W. Acu nCocoaCaicedo），jgomez@ilifecompany.es（J.M. Go'mezSoriano），amelgar@pucp.edu.pe（H.A.MelgarSasieta）。https://doi.org/10.1016/j.invent.2022.100519接收日期：2021年9月8日;接收日期：2022年2月9日;接受日期：2022年2月25日2022年2月28日在线提供2214-7829/© 2022作者。由Elsevier B. V.发布，这是CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表互联网干预期刊主页：www.elsevier.com/locate/inventR.W. Caicedoetal.互联网干预28（2022）1005192等， 2012; Velupillai 和 Hadlaczky ， 2019; Zhang 等人， 2014;Braithwaite等人， 2016; Egmond and R. D.- C. T. J. 危机，1990年）。在自杀问题上，世界卫生组织（WHO）在他们2014年发布的《2013-2020年心理健康行动计划》的报告《自杀预防：全球当务之急》中，估计2012年全球发生了804，000例自杀死亡，这表明全球年年龄标准化自杀率为每100，000人11.4例（2022年约有903，450例自杀）。每有一个人自杀，就有20多个人试图自杀。因此，世卫组织将自杀视为全球公共卫生优先事项，不仅影响富裕国家（3名男性对1名女性），也影响贫穷和中等收入国家（1.5名男性对1名女性）（世界卫生组织，2014年）。自杀影响所有年龄组，在70岁或以上的人中最高（Jeong等人，2020; Chang等人，2018; Santini等人，2015年）。在全球范围内，自杀是15-29岁年龄组暴力死亡的第二大原因（世界卫生组织，2014年; Sweeney等人，2015年）。自杀不仅涉及个人的个人方式，但深深影响家庭成员和亲密的朋友（Cerel等人，2008; Silenzio等人， 2009年）。根据2013年的这一现实，在第66届世界世界卫生组织成员国承诺，除其他事项外，在2020年之前将全国自杀率降低10%。为了实现这一目标，他们同意制定并实施全面的国家自杀预防战略，加强其信息系统，科学数据，研究和大学在心理健康方面的合作，并特别关注自杀风险最高的群体，如同性恋者，女同性恋者，双性恋者，变性者，年轻人，难民，移民和任何其他弱势群体（世界卫生组织，2014年; Silenzio等人，2009年）。然而，尽管这些组织的意图良好，但它们的目标尚未实现。一般来说，自杀受害者在做出结束自己生命的决定之前，通常会经历一段深刻的个人痛苦，通常是在沉默中，因此预测某人会自杀是一项不可能的任务（Goldstein等人，1991; Hughes，1995; Large和Ryan，2014; Large和Nielssen，2012; Paris，2006）。但是，使用由训练有素的临床医生操作的标准临床工具，可以检测导致自杀风险的因素（Beck等人， 1975; Beck等人， 1979年）。此外，计算机科学，特别是自然语言处理（NLP），提供了通过计算机和人类语言之间的交互来理解自杀想法的指标的机会（Larsen等人，2015; Pestian和Grupp-Gruppan，2016），当这些以书面和口头形式表达时。在这个框架中，社交网络为研究人员提供了使用自动化方法来分析人类语言的新方法（Lac-son和Khorasani，2011），通过分析用户以书面或口头形式表达的情感（Abbasi等人，2014; Girju和Moldovan，2002; Asghar，2016; Cole等人，2006年）。因此，通过使用自动化方法，可以更好地了解个人的想法，感受，信仰，行为和个性（Schwartz和Ungar，2015），并能够成功识别新闻组和社交媒体中的自杀笔记（Hernandez和Pontes，2014;Huang等人，2007; Matykiewicz等人，2009年）。机器学习算法已经被证明可以区分自杀者写的笔记和模拟自杀笔记，比心理健康专业人员更好（71%对70%）（Pestian和Matykiewicz，2008）。除了自杀笔记，微博数据还被用于建立机器学习模型，以90%的准确率识别有自杀情绪的用户（Zhang et al.， 2014年）的报告。情感分析的成功（Pang和L. L- F. 和T. 在Infor-mation，2008; Pang and L. L- 2004年第42届年会的第一页;Lai等人，n.d. ; Birjali等人，2017 a）严重依赖于数据中隐式和未指明信息的质量（Chen和De Tseng，2011; Fielding等人，2008），其可以从当前可用的大量信息流中提取（Birjali等人，2017 b; Barnes，2007; Lieberman，2014），它提供了对思想的更好理解，个人的感受，信仰，行为和个性（Schwartz和Ungar，2015）。通过从口头或书面文本中收集、编译和正确注释的信息，可以形成语料库（Llisterri，1999），该语料库可以用标记数据进行监督，这更准确，但通常消耗大量人力和计算机资源（Bentivogli和Pianta，2005; Akpınar等人，2019），或使用未标记或未知结构数据进行半监督，这减少了手动工作和处理时间（Akpınar等人，2019; Raschka和Mirjalili，2019），但必须考虑收集的数据质量较低和注释的准确性（Ren和Matsu-moto，2016）。通过从社交网络或其他来源收集信息的过程，通过协议对其进行评估（Ben-David，2008; Vieira等人，2010; Vioules等人，2018;Tapia等人，2018; O 'Dea等人， 2015; Hallgren，2012; Fu等人，2013; Canales 和 Strapparava ， 2016 ），由一小组专家进行（ Bontcheva 等人，2013; Alameda-Pineda 等人，2013 年 ;Karimzadeh和MacEachren，2019年）或通过众包由多组专家（Ling等人， 2016年; Karimzadeh和MacEachren，2019年），可以生成黄金标准语料库（Gundlapalli等人， 2013; Scheible等人， 2011年; Jos'e，2017年; Karimzadeh和MacEachren，2019年），并用作训练以添加新数据（Silveira等人，n.d. ）.不同的研究小组已经在其他知识领域创建了黄金标准语料库，例如自杀（Cremades等人，2017a）、药物滥用（O'Connor et al.， 2020），抑郁症状和获得性心理社会压力源（Mowery ， 2017），菲律宾物种（ Nguyen 等人，2019），网络欺凌（Van Hee等人，2018），农业（阿莫里姆等人，2019），以获得对相关NLP技术的正确理解，以充分利用其功能（Lu，2014）。为创建不同语料库所做的注释通常是有监督的，并且在数据扩展过程中，这些注释是半监督或无监督的（Mowery，2017; O 'Connor等人， 2020; Van Hee等人， 2018; Halike等人，2020; Amorim等人，2019; Du等人，2017; O 'Dea等人，2015年），这取决于所进行的实验的类型。来自所进行的实验的数据通常集中在单个数据源上：来自Twitter（Jashinsky等人，2014; Mowery，2017; O 'Dea等人， 2015;Purver等人，2012; Wu等人，2019）、微博（Huang et al.，2014;Zhang等，2015），Netlog（Desmet和Hoste，2018），其他微博（Guan等人，2015），以及多个来源（Ling等人，2016; Cremades等，2017年a）。本文提出了一种半监督学习的方法来自动分类社交网络上的潜在自杀消息。我们的目标是在生活语料库中将文本分配到自杀和非自杀类别。这将是一个起点，对语料库数据的半自动注释，以检测自杀消息。半自动注释将简化注释过程，并在时间和资源投入方面本文的组织如下：第2节回顾了使用自动语料库标注的研究，第3节解释了用于开发这项工作的方法和资源。随后，在第4节的结果，在第5节的结果进行了讨论，最后，在第6节的结论，并提出了未来工作的机会。2. 相关研究对“半监督语料库标注“的研究等（Gupta等，2018年），他研究了社交网络中提及药物不良反应（ADR）的问题。他们在研究过程中使用了深度神经网络，特别是一类具有长期记忆的递归神经网络（RNN），在此基础上，他们提出了一种基于半监督学习的新RNN模型，该模型可以利用社交媒体上没有标签的数据。使用半监督ADR提取方法，他们获得了0.75的f-测量值。R.W. Caicedoetal.互联网干预28（2022）1005193++++-Brum等人（Brum和Nunes，2018）在一个基于半监督学习的框架中工作，用未标记的数据扩展CasSUL语料库。在实验中，使用了六个特征：一袋单词，否定词，表情符号，表情符号，情感词汇和部分声音的标签。以及分类算法支持向量机（SVM），朴素贝叶斯，逻辑回归，随机森林，决策树和多层感知器，其中最好的结果与BoW的组合使用200个估计器的否定词表情符号表情符号和特征选择，熵作为标准并且没有最大深度，f度量为0.62。O'Dea等人（O'Dea等人，2015年）致力于检测Twitter上自杀相关帖子的关注程度是否可以生成自动学习模型的训练语料库，并实现可以复制人类编码器准确性的自动计算机分类器。实验数据来自社交网络Twitter，人类程序员的总体一致率为0.76。所用的分类器是支持向量机和逻辑回归方法。具有最佳性能的算法是具有Tf/Idf的支持向量机，没有过滤器，获得0.67的f-度量Go'mez（Go'mez，2014）致力于创建生活语料库，是一个双语文本语料库（英语和西班牙语）面向检测自杀意念。该语料库是从几个社交网络中检索文本而构建的。使用相互注释协议测量其质量，获得适度协议Cohen's Kappa，0.52在四个类别中，三个风险等级（可能的、紧急的和立即的）和一个非风险。鉴于该语料库的四个类别的不平衡和每个类别的样本数量少，这些被分为两个：风险和无风险，以实现更好的结果，在发展不同的实验进行。在这些实验中，决定确定Weka机器学习和数据挖掘软件的哪个默认分类算法（Hall等人， 2009）在训练Life Corpus文本时取得了更好的性能，使用了词性，Wordnet Synset等功能，并通过关键字读取所有数字，在ROC面积度量为0.81和f-度量为0.70的KStar算法中取得了最佳结果。应该注意的是，由O 'Dea开发的语料库的质量（O' Dea 等人，2015 ）和 Go'mez （Go'mez ， 2014 ）是通过使用 Cohen 的 Kappa 方法（Cohen，1960 a）通过注释者之间的协议评估其文本来确定的，该方法由等式1给出。虽然在他们的文章Gupta（Gupta et al.，2018）和Brum（Brum和Nunes，2018）没有提到他们是否使用任何措施来评估文本的质量。Pr（a）-Pr（e）70个样本（无风险）和32个文本（风险），分为四类：无风险、紧急、可能和立即，所有这些都是不平衡的（表1）。由于语料库非常小并且有太多的类别以获得统计学上显著的数据（Caicedo等人，2020年），决定将三个风险类别（可能，紧急和立即）合并为一个，保持无风险类别不变，以减少不平衡，从而提高实验质量。我们在这项工作中使用这两个类别做出相同的决定（表2）。为了增加语料库中的样本数量，我们决定从社交平台Reddit（Gilbert，2013）中收集文本，其中包括子Reddit 这些文本是使用Python中的PRAW库（“Python Reddit API Wrapper”的首字母缩写）提取的，该库允许通过开发者帐户访问Reddit（Reddit，n. d.）。）.在提取了984个文本之后，对它们进行了预处理，消除了HTML标记。通过原始的监督生活语料库和新的无监督Reddit语料库，我们开发了图1所示的系统，以增加生活语料库更多的样本，特别是那些标记为风险的样本。在此之后，使用生活语料库（英语西班牙语翻译成英语）的样本，基于SVM算法并使用BoW的特征创建分类器（Cao等人，2014年）与Tf/Idf条款加权。该初始分类器用于使用Bootstrapping不确定性采样技术来增加语料库。由于Life Corpus对于没有风险的样本非常不平衡（表2），我们只对选择分类器归类为风险的样本感兴趣。以这种方式，考虑到分类器将具有显著的错误率，也将包括没有风险的样本。在每次迭代中，截止阈值以指数方式增加，以限制新样本的接受度，将该阈值与sklearn SVM分类器为每个样本给出的置信度得分进行比较。这意味着如果我有样本X和Y，并且样本X的SVM得分高于阈值，并且样本Y的得分较低，则样本添加了X，并且在该迭代中拒绝了样本Y。具体而言，阈值在每次迭代中增长（10的情况。2n），其中n是迭代次数。我们重复该迭代，直到评估样本的任何SVM置信度得分超过阈值。在自举的每次迭代中，将无监督接受的样本添加到有监督语料库中，再次使用新样本训练模型并重复迭代，直到分类器停止将先前标记的样本分类为有风险。表3示出了每次迭代的语料库样本的数量和新计算的阈值。K=1-Pr（e）（1）上面的自举过程给我们留下了一个包含302个Reddit样本的语料库，其中200个样本由六个注释者进行了评估，在以前的作品与生活语料库（生活语料库，N. D 。 ;Jo s'e ，2017），进行了不同的实验（Caicedo等人，2020; Parraga-Alava等人，2019年）。在Creative Commons许可下，对Life Corpus的访问是免费的（Life Corpus，n.d. ）.因此，使用该语料库进行的实验可以被复制或改进。3. 方法本研究的目的是确定一个半监督的方法来填充生活语料库，使用自举技术。因此，我们尝试改进基于生活语料库从与自杀和抑郁在以前的作品中（Caicedo等人，2020; Parraga-Alava等人，2019）与Life Corpus，作者使用机器学习技术来系统地分析文本特征的所有可能组合。他们使用不同的语料库特征测试了28种监督分类器算法。该研究得出结论，增加语料库以提高性能将是有趣的。生命语料库最初由102条自杀信息组成，分成四组，每组50个样本，使得注释者之一评估四组的样本，而五个独立的注释者仅注释他们的50个样本的组。双方的一致性为0.86，代表文本评价中的171个一致性（Cohen，1960 b）。注释结果如表4所示。为了确保数据的质量，在这302个样本中，第171章所有人都同意了也就是说，在对这些样本进行分类时，双方意见一致。将这些样本与Life Corpus样本结合，以构建五个不同大小的不同语料库（表5）。本工作的实验是用这些数据进行的表1每种“警戒水平”类型的样本数量警戒级别数量ENES没有风险70人（68.6%）45人（63.4%）25人（80.6%）紧急19人（18.6%）15人（21.1%）4人（12.9%）可能8人（7.8%）6人（8.5%）2人（6.5%）立即5人（4.9%）5人（7%）0（0%）R.W. Caicedoetal.互联网干预28（2022）1005194+++++++++±±表2每种“警戒水平”类型的样本数量警戒级别数量ENES没有风险70人（68.63%）4525风险32人（31.37%）266我们使用五个语料库的原因如下：i）数据源非常异构，并且我们必须验证使用单独的语料库结果不会恶化;以及ii）如我们在表2中所看到的，生活语料库包含英语和西班牙语的消息的混合物，并且我们想要测试自动翻译如何影响具有语料库的系统的性能，其中所有消息都是使用自动翻译的相同语言，或者保留原始信息。Reddit语料库没有翻译和不翻译的选项，因为Reddit语料库中所有的消息都是英语的。因此，我们重复所有实验：人生：只是人生的翻译版本。Reddit：只有Reddit语料库样本与注释者之间的相互协议。Life Reddit：Life Corpus翻译成英文的样本和Reddit的样本经双方同意的组合。Life_es_en：原始和未翻译的生活语料库，英语和西班牙语的混合样本。Life_es_en Reddit：原始未翻译的Life语料库加上Reddit双方同意的通过这种组合，我们评估了添加Reddit语料库时的性能改进，或者文本的自动翻译如何影响这种性能。从生活语料库到英语的西班牙语文本的自动翻译是通过免费和无限的Python GoogleTrans库（Google，n. d.）进行的。）.一旦获得不同的语料库，我们使用两种不同的分类器：支持向量机（SVM）和Rasa意图分类器。SVM已被广泛用于文本分类，在不同的研究过程中取得了良好的效果（Suthaharan，2016）。对于这种学习机器，使用了sklearn的实现（Siglidis等人，2020年）。此外，我们还想用深度学习算法进行实验。尽管如此，由于语料库的规模很小，我们决定使用自然语言理解（NLU）的Rasa算法（Goyal等人，2008年），使分类使用语言模型与深度学习技术。对于Rasa算法，我们使用词法语法特征化算法中默认定义的特征：low，title，upper，BOS，EOS，digit，pos。low表示术语是否大写，title表示单词以大写字母开头，upper表示单词全部大写，digit表示数字，pos表示词性，BOS表示句子的开头，EOS表示句子的结尾另一方面，以下特征用于SVM算法：具有和不具有词频/逆文档频率（Tf/Idf）的词袋（BoW），作为术语加权器，以及具有或不具有停用词。为了提高结果的覆盖率，我们使用词嵌入来扩展每条消息的术语。对于单词嵌入的使用，我们使用Polyglot库（Al-Rfou，n. d. ）. 当给定术语时，该库建议接近于其嵌入向量与搜索术语的向量的距离小于d的术语的数目n。经过几次初步测试后，我们决定将n设置为10，d设置为0.85。我们使用以下指标评估结果：简单准确度，平衡准确度，微观f1，宏观f1，加权f1，微观精确度，宏观精确度，加权精确度，微观召回率，宏观召回率，加权召回率，微观Jaccard，宏观Jaccard，加权Jaccard。然而，由于语料库是不平衡的，无论是对无风险的样本，对于Reddit或Life-Reddit语料库的Life语料库或风险样本，我们决定使用宏f1作为我们的主要指标，因为它是对不平衡语料库的最佳响应，它计算f1统计量，按类别分开，并且不使用权重分组（溢出，n. d. ）.使用10倍交叉验证技术进行实验，并使用不同的交叉验证随机划分重复30次，以使用t检验获得宏f1值平均差异的4. 结果因为我们有两个变体的生活语料库，一个是所有的样本都翻译成英语，另一个是西班牙语样本，我们决定将实验分为所有有变体的语料库和没有变体的语料库。因此，在本节的第一部分，我们对Life、Reddit和Life Reddit集合进行了实验，所有文本都翻译成了英语。然而，在第二部分中，我们使用了Life_es_en和Life_es_en Reddit语料库，其中Life语料库未翻译。第二部分我们没有只使用Reddit语料库，因为它完全是英文的。4.1. 英语语料库实验在图 2 中，我们可以使用 SVM 分类器（使用特征 BoW ， BoWEmbeddings，Tf/Idf和Tf/Idf Embeddings）和Rasa（使用默认特征提取系统）观察三种不同英语数据集合的结果：Life，Reddit和Life Reddit。使用SVM分类器和BoW作为特征（没有Tf/Idf加权器），宏f1的结果更好。无论我们使用BoW是否使用词嵌入扩展，都没有统计学显著差异。因此，两种系统似乎具有相似的性能。然而，对于较小的语料库，Rasa系统是最好的，这证实了当样本数量很小时，该分类器可以改善其他过程，包括学习的语言模型。在表6中，我们可以看到更详细的结果，并观察宏精度和宏召回率，实现了宏f1的0.79值。正如我们在表中看到的，最好的系统在三个指标（宏f1，宏精度和宏召回）中具有更好的性能。4.2. 西班牙语和英语如上所述，在第二组实验中，原始的生活语料库被单独使用，没有翻译任何样本，或者与Reddit结合使用，完全是英语。这些实验的目的是观察翻译是否影响自杀意念信息分类的结果。如在先前的实验中，使用SVM和Rasa分类器。首先，从每个语料库中提取BoW的特征，用词嵌入对BoW进行扩展，并用Tf/Idf对其权重变量进行扩展。这些实验的结果可以在图中看到。3.第三章。再一次，使用最广泛的语料库（Life_es_en Reddit）与分类器SVM并提取BoW特征，使用或不使用单词嵌入扩展，获得了最好的结果。该系统给出0.80的宏f1（p.01）。<生命语料库的最佳结果没有翻译是使用Rasa（0.48）。在表7中，我们为每个语料库提供了最佳系统，在三个方面（宏f1，宏精度和宏召回）具有更好的性能。虽然最大的语料库的准确率和召回率匹配最好的再-结果，这不会发生与较小的语料库。最佳回忆系统不同于最佳宏f1系统（p. 01）。<此外，如果我们将这些结果与翻译的语料库（表5）进行比较，我们可以观察到轻微的不显著差异（0.800.01对比0.790.01p<.01）。这意味着自动翻译的过程与GoogleTrans库中的西班牙语样本来自原始语料库英语语言并没有明显恶化的表现，R.W. Caicedoetal.互联网干预28（2022）1005195Fig. 1. 系统工作流程方案。该系统的评估使用，原来的生活语料库和翻译生活语料库。该系统由三个过程组成：i）翻译过程，ii）自举语料库扩展，iii）审查，构建和评估最终的监督语料库。R.W. Caicedoetal.互联网干预28（2022）1005196表3迭代的样本数和阈值迭代重复采样阈值表6宏f1、宏精度和宏召回。结合英语语料库的特点进行培训。计算置信区间，p0.01。<表4评审员之间的协议Rasa 0.49± 0.02 0.52±0.03 0.53 ± 0.02BoW 0.43± 0.02 0.40±0.03 0.50 ± 0.01BoW+包埋0.42± 0.02 0.39±0.03 0.51 ± 0.02Tf/Idf 0.41± 0.01 0.35±0.01 0.51 ± 0.01Tf/Idf+包埋0.41± 0.01 0.35±0.01 0.51 ± 0.01组审查人自杀文本风险/无风险相互协议TP/TN卡帕·科恩RedditGC 38/12 38/3 0.82审查人RA 47/32审查员CC 46/4 46/4 1.00审查人RA 46/43审查员KM 45/5 41/3 0.88审查人RA 47/34审查员AR 32/18 26/10 0.72审查人JG 31/19Rasa 0.55± 0.03 0.54±0.04 0.57 ± 0.03BoW 0.51± 0.02 0.48±0.03 0.55 ± 0.02BoW+包埋0.50± 0.02 0.47±0.02 0.54 ± 0.02Tf/Idf 0.52± 0.03 0.50±0.03 0.55 ± 0.03Tf/Idf+包埋0.52± 0.03 0.49±0.03 0.55 ± 0.03生活+RedditRasa 0.65± 0.01 0.76±0.02 0.66 ± 0.01托塔莱斯表5审查人RA 35/15364/87 151/20 0.86BoW 0.77± 0.01 0.77±0.01 0.79 ± 0.01BoW+嵌入0.79± 0.01 0.80±0.01 0.79 ± 0.01Tf/Idf 0.53± 0.04 0.72±0.06 0.58 ± 0.05Tf/Idf+包埋0.51± 0.02 0.68±0.04 0.56 ± 0.01用于实验的语料库。语料库风险不会冒险总仅限英语语料库生活3072102Reddit15318171生活+Reddit18390273西班牙语和英语语料Life_es_en3072102Life_es_en+ Reddit18390273图二. 垂直的尖线是原始 F-measure 结果与生命语料库。检测自杀信息。5. 讨论虽然O'Dea和Go'mez开发的语料库质量图三. 垂直的尖线是原始 F-measure 结果与生命语料库。表7宏f1、宏精度和宏召回。语料库中的英语和西班牙语相结合的培训功能。置信区间计算为p0.01。<功能宏f1宏精度宏召回Life_es_enRasa 0.48± 0.03 0.51±0.03 0.50 ± 0.02BoW 0.40± 0.01 0.35±0.02 0.49 ± 0.01BoW+嵌入0.43± 0.02 0.40±0.04 0.51 ± 0.01Tf/Idf 0.42± 0.02 0.37±0.02 0.51 ± 0.01Tf/Idf+包埋0.43± 0.02 0.37±0.02 0.52 ± 0.01Life_es_en+ RedditRasa 0.67± 0.02 0.78±0.02 0.67 ± 0.01BoW 0.78± 0.01 0.78±0.01 0.79 ± 0.01BoW+嵌入0.80± 0.01 0.81±0.01 0.81 ± 0.01通过协议进行评估，他们的开发方法是不同的：第一，一个开发了一个语料库，来自同一时期从Twitter下载的数据，其中14%的选择被随机分为两个数据集，由人类编码人员进行评估，他们将其分为三类：Tf/Idf嵌入0.63± 0.01 0.78±0.02 0.64 ± 0.010.62± 0.01 0.76±0.02 0.63 ± 0.01121022250.80.96特征宏f1宏查全率33020.992生活R.W. Caicedoetal.互联网干预28（2022）1005197=+在“非常关注”（56%）和“安全忽略”（29%）的类别中，科恩的Kappa一致性为0.76，而分类器正确识别了“非常关注”类别中80%的推文。第二个，一个最初开发了一个有监督的语料库，其中有来自不同来源的注释，因为它是用四个类别进行评估的，具有0.52的适度科恩Kappa一致性（平均k 0.55），在增加语料库样本大小的过程中，使用半监督方法与来自“SuicideWatch“subreddit的文本，这允许将样本数量从102扩展到273（183个风险和90个无风险），Cohen的Kappa注释器之间的一致性为0.86。正如我们在第4节中所看到的，结果是有希望的，作为一个半监督学习系统，它能够实现0.78-0.81的宏f1，接近人类评审员达成的相互协议（科恩的Kappa为0.86）。这些结果是在生命语料库增加了Reddit语料库的171个样本后得出的，其中注释者达成了相互协议。这些结果也表明，我们选择的半监督Bootstrapping不确定性抽样方法，以扩大生活语料库与新的样本是有效的和有用的，以提高抑郁症或自杀意念的信息检测的自动系统的结果。对于较小的语料库，Rasa NLU分类器比SVM更好，可能是因为它使用了一些预先训练的语言模型。然而，BoW和SVM比Rasa深度学习方法更好。使用词嵌入来扩展文本并不影响显著性结果（第01页）或文本的自动翻译成西班牙语<从生活语料库到英语语言使用GoogleTrans图书馆。另一方面，在使用这种方法之前，我们假设Reddit子组中不会有这么多自杀消息，并且初始分类器无法找到这么多这种类型的消息。因此，最终的语料库将更加平衡。然而，使用初步SVM分类器的自举技术的初始分类器比我们预期的要好。这导致我们从一个大多数帖子没有自杀风险的生活语料库转移到另一个Life_es_en Reddit语料库，根据评论者的说法，有自杀意念或抑郁的线索（表5）。6. 结论和今后的工作因为它们已经通过监督方法学进行了注释（Egmond和R. D.- C. T. J. ofCrisis，1990; Barraclough和Hughes，1987; Huang等人，2014），自杀语料库人口一直是昂贵的（Mircoli等人，2017; Akpınar等人，2019;Cremades等人，2017 b; Priyanthan等人，2012年）。这项研究的目的是增加生活语料库的样本数量（刘等人，n.d. ）使用半监督方法（Komiya等人，2018; Braithwaite等人，2016年），这允许保持添加的文本的质量，减少了人力。在这项工作中，我们已经证明了两件事：i）Bootstrapping不确定性抽样技术在本工作中使用可以有助于增加语料库适合自杀预防使用监督机器学习方法，和ii）扩展的生活语料库可以支持建立一个分类器，其中抑郁或自杀意念的消息可以检测几乎以及人类相互协议。在未来的工作中，我们计划试验其他分类算法和新功能，以优化新样本的半监督注释方法，这些样本来自微博网络，博客，论坛或生活语料库的其他来源。不断增加这个语料库的样本数量，在社交网络中对潜在自杀用户此外，我们还想探索更多使用其他Rasa特征或参数的深度学习算法，以及其他NLU分类器或技术，如BERT嵌入。另一方面，我们希望改变词嵌入的使用，直接使用它们的向量用相邻词扩展文本词或尝试使用句子嵌入。同样，我们打算验证半监督注释方法，在本研究中，它使用来自微博网络、博客、论坛或其他来源的样本，以及来自实际临床诊断的样本，基于精神病学流行病学研究，以确定其在现实世界中的有效性，并能够更准确地预测未来死亡想法、自杀意念、自杀计划或自杀企图的概率。此外，我们计划测试不同的机器翻译方法，例如由Google翻译器通过GoogleTrans库提供的方法，以生成扩展到不同语言的平行语料库，从主要用英语编写的原始文本中进行实验，以检测其他语言的社交网络中的自杀用户，由我们的研究小组或其他小组进行，这些小组将能够https://github.com/PlataformaLifeUA中的知识共享许可下免费访问生活语料库的平行语料库。竞争利益作者声明，他们没有已知的可能影响本文所报告工作致谢作者要感谢Universidad Estatal del Sur de Manabí和厄瓜多尔的SENESCYT“ D o c t o r a d o（P h D）p a r aD o c e n t e sd eU n i v e r s i d a d e s y E s c u e l a s P o l i t ' e c n i c a s “ ，

下载后可阅读完整内容，剩余1页未读，立即下载