集成机器学习预测急性自杀意念的社交媒体数据：方法和发现

148 浏览量更新于2024-01-07 收藏 1.04MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

互联网干预25（2021）100424使用集成机器学习模型作者：David A，C. 放大图片作者：Nicholas C. Jacobson a，ba美利坚合众国达特茅斯学院Geisel医学院技术和行为健康中心b美利坚合众国达特茅斯学院Geisel医学院生物医学数据科学系c美利坚合众国达特茅斯学院定量生物医学方案A R T I C L EI N FO保留字：自杀意念数字表型机器学习自杀预测社交媒体A B S T R A C T在线社交网络数据（SN）是一种上下文和时间丰富的数据流，在预测自杀想法和行为方面表现出了希望。尽管这种数字媒介具有明显的优势，但急性自杀意念（SI）的预测建模目前仍不发达。SN数据与强大的机器学习算法相结合，可能会提供一个有希望的前进方向方法：我们在Instagram上先前发布的青少年数据集上应用了一个集成机器学习模型，这些青少年具有先前的SI历史（N=52），以预测过去一个月内的SI。使用捕获该SN内的语言使用和活动的预测因子，我们评估了我们的样本外交叉验证模型相对于先前努力的性能，并利用模型解释器进一步探测相对预测因子重要性和受试者水平的现象学。结果：语言和SN数据预测急性SI的准确度为0.702（敏感性=0.769，特异性=0.654，AUC= 0.775）。模型内省显示，较高比例的SN派生的预测与预测的实质性影响相比，从结构化面试的语言预测。对受试者特异性预测因子重要性的进一步分析揭示了未来急性SI风险预测的潜在信息趋势。结论：集成学习方法应用于SN数据预测急性SI可以减轻这些时间尺度内存在的SI的复杂性和建模挑战。未来的工作需要在更大、更异质的人群中进行，以微调数字生物标志物，并更有力地测试外部有效性。1. 介绍每年，全世界约有80万人死于自杀（世界卫生组织，2014年）。自杀是全球第十三大死因，也是15至39岁人群的主要死因（世界卫生组织，2014年）。这些数字可能并不能反映自杀行为的真实流行率，因为它们依赖于有效性有限的自我报告调查，以及各国登记标准不一致。此外，他们没有考虑到非致命的自杀相关行为（如自杀企图），这可能是致命结果的20倍（世界卫生组织，2009年）。鉴于这种令人担忧的普遍性，识别有自杀风险的个人的新方法将是及时的（国家预防自杀行动联盟，R.P.T.F.， 2014年）的报告。除了过去的自杀行为，自杀意念（以下简称SI）可能是未来自杀风险最一致的预测因素（富兰克林例如，2017; Leon等人，1990; Mann等人，1999; Mundt等人，2013年）。在现代，SI通常在诸如社交媒体的互联网平台上表达（Lu X ton等人，2012; Marchant等人，2017），并且相关数据在开发旨在预测自杀结局和相关风险因素的新工具方面具有价值（Alad ag.et al.， 2018; Birjali等人，2017; Burnap等人，2017; Roy等人，2020年）。这种在线自杀风险评估可以用来识别-风险个人和提供干预措施，以减轻自杀行为（阿德里安和里昂，2018）。然而，开发所谓的自杀风险“数字表型“的过程仍处于早期阶段，相关技术的范围和复杂性仍在继续增长（Braithwaite例如， 2016; Coppermith等人， 2018; O 'Dea等人， 2015年）。贡献* 通讯作者：Center for Technology and Behavioral Health，Geisel School of Medicine，Dartmouth College，46 Centerra Parkway，Suite 300，Lebanon，NH03766，United States of America.电子邮件地址：Damien.Lekkas. dartmouth.edu（D.Lekkas）。https://doi.org/10.1016/j.invent.2021.100424接收日期：2020年11月12日;接收日期：2021年6月17日;接受日期：2021年在线预订2021年2214-7829/©2021的自行发表通过ElsevierB.V.这是一个开放接入文章下的CCby-NC-ND 许可证（http://creativecommons.org/licenses/by-nc-nd/4.0/）中找到。可在ScienceDirect上获得目录列表互联网干预期刊主页：www.elsevier.com/locate/inventD. Lekkas等人互联网干预25（2021）1004242===-=≥为了这些努力，本研究采用了深度集成机器学习方法，使用从社交平台Instagram收集的文本和用户元数据来预测急性SI。借鉴自杀意念的流体脆弱性理论，我们将急性SI概念化为SI动态现象的一种短暂的发作性表现，即当前自杀想法和感受的高度表达（ Kleiman 和 Nock ，2018;Rudd，2006）。社交网络（SN）数据代表了一个有前途的信息流，用于识别自杀风险的数字表型社交媒体上的公开帖子，如Reddit，Instagram和Facebook，提供了一个更自然地观察实验室设置不改变的行为的SN数据通常在不期望隐私的情况下编写，最大限度地减少了回顾性偏倚，并且鉴于该年龄组的用户高度集中，因此在年轻队列中具有很大的实用性（Nesi，2020）-自杀是该年龄组的主要死亡原因。还可以实时获得和分析匿名SN数据，从而实现快速、即时评估。迄今为止，已有几项研究利用SN数据预测自杀相关结局。一项研究帮助建立了SN数据和现实世界自杀结果之间的基本联系，当作者建立了给定州自杀相关推文频率和该州实际自杀率之间的联系时（Jashinsky等人，2013年）。在一个预测模型中，另一项研究分析了与心理健康相关的Reddit公开帖子，并表明语言（例如，差的相干性）和互扰（例如，减少的社会参与）标记物可以被提取并用于预测长达9个月后向SI的增强状态的未来转变（DeChoudhury等人，2016年）。与此相关的是，第三个研究项目使用深度学习模型来检查多个SN（Coppermith等人， 2018年）。Coppersmith和同事发现，一个拟合良好的模型识别出有自杀行为风险的个体使用自杀企图前1 - 6个月的数据，具有临床意义的精确度（0.89-0.94AUC; 70%-85%真阳性率）。虽然数据集中尝试自杀的个体总数很小（N418），但该模型用于预测自杀企图仅使用来自单个帖子的文本，从而训练模型约40万例。这些发现是有希望的，因为它们提高了我们识别有自杀风险的个体的能力，并最终可以通过新兴的数字干预实现有针对性的在线自杀预防策略（Oexle et al.，2019; Robinson等人， 2016年）。对社交媒体内容与自杀之间的联系感兴趣的研究人员已经采用了一系列统计分析方法来解决自杀预测问题（Grant等人，2018; Jashinsky等人，2013年）。虽然描述性分析是基础性的，但自杀研究者也对利用过去SN活动的基于预测的方法感兴趣。例如，一个研究团队开发并训练了一种深度学习算法，以识别Reddit用户中自杀风险的不同标记，并在预测框架中使用这些标记来精确定位（精确度0.79，召回0.83，AUC0.89）将来将显示SI的其他用户（De Choudhury等人，2016年）。使用自然语言处理（例如，可读性，第一人称单数用法）和交互模式（例如，文章的数量或长度，收到的评论数量）。本研究使用了类似的策略，将自然语言处理和用户交互相结合作为风险预测因子，但强调急性自杀风险的识别。在最近的一项分析中，一个研究小组训练并验证了一个神经网络系统，该系统能够将Twitter帖子减少到在十二个关键心理学结构中的每一个上（例如，绝望、压力、失眠; Roy等人，2020年）。基于这些关键结构的个体随机森林模型确定了将要表达SI的个体。分类器预测SI事件的AUC为0.86-0.90. 总之，这种类型的分析为目前的调查。在上述工作对跨几个月收集的数据进行操作的情况下，这项工作寻求利用SN衍生信息的时间丰富的数据结构来预测和分析。探索SI的动力学在一个更接近的，直接的基础上。目前关于自杀行为预测的大多数知识来自流行病学研究，这些研究评估了整个生命周期内的SI和自杀企图，时间间隔不少于12个月（Glenn和Nock，2014）。因此，缺乏专门针对急性自杀行为的研究，因此有关短期风险因素的信息有限。幸运的是，通信的现代趋势提供了一个有前途的新途径（Allen等人，2019年），与SN环境的动态性质有利于捕捉新发展或瞬态SI。Brown et al.（2019 a）和Brown et al.（2019 b）是近年来积极寻求应用SN平台数据探索急性SI预测疗效的少数研究者之一。在他们的工作中，他们调查了急性SI与语言使用以及Instagram上的用户活动和参与度之间的关联。Logistic回归分析被用来模拟各种语言和活动指标的预测能力的存在/不存在急性SI（过去一个月）在一个队列的德国青少年（N52）与以前的生活史的SI。尽管他们的数据收集程序的优势和他们利用的相关信息的新颖性，研究人员没有检查的样本外预测能力，他们的模型，有效地阻碍了调查模型的机会推广和评估其发现的更广泛的适用性。他们的模型产生了将69%的患者正确分配为急性SI与非急性SI表达的能力。这样的承诺保证进一步考虑和扩展，通过额外的建模技术。在Brown et al.（2019 a）和Brown et al. （2019 b）并在在线预测急性SI中提供定量严格的建模管道，目前的研究对这个公开可用的Instagram数据集采用了其他统计和可视化技术帮助理解“模型如何学习”数据的方法用来提供一个更完整的动态视图的预测和指导推理到他们的相对预测效用。具体而言，该模型解释将提供通过相对重要性解析预测因子的能力，并允许潜在地揭示跨生态有效性（即，SN构造，诸如关注者的数量和喜欢的数量）和语义导出的（即，来自采访的语言特征）元素。因此，本研究由以下假设驱动(1) 利用共识集成机器学习模型来使用文本和用户参与元数据预测Instagram上的急性SI将导致相当或更高的预测准确性（0.69）与之前实施的样本内逻辑回归建模相比，超出倍数的性能。(2) 考虑到SN使用和交互的人为设置较少，Instagram用户元数据衍生的特征将具有更高的平均特征重要性值，与访谈中语言使用衍生的特征相比，这反映了对个体急性SI模型预测的更显著贡献。2. 材料方法&2.1. 研究人群数据集这项工作利用了从一项研究中收集的数据，该研究调查了急性自杀，语言使用和Instagram活动之间的关系（Brown et al.，2019年b）。在这项研究中，从一项更大的研究中选择了一部分德国青少年，该研究调查了Instagram上非自杀性自伤的发生率（Brown和Plener，2017）。在通过Instagram Messenger进行个人访谈之前，从受试者那里收集了4周的公共Instagram用户数据和帖子内容4周SN收集窗口是理想的，因为（i）D. Lekkas等人互联网干预25（2021）1004243==--====关注者总数普通人喜欢关注者总数从一天或一周收集数据可能不允许我们的ML(1) 追随者比率（总追随者）（Longobardi等人， 2020; Woodruff等人，模型足够的数据，以找到一个信号的噪音，（ii）有2018年）总跟随考虑到SI虽然倾向于每天波动，但也显示出作为自杀风险因素的长期预测有效性（Leon et al.， 1990; Mann等人， 1999; Mundt等人，2013年）。因此，在当前工作中分析的所得数据集由N 52名研究参与者的随机子集组成[平均年龄 16.6 岁，中位年龄16 岁， N 41（78.8%）女性，N 40（76.9%）就读高中，N 7（13.5%）就读大学或职业学校，N 2（3.8%）失业]，通过Instagram信使对其进行了访谈，并报告了SI的终身史（Brown et al.，2019年a）。参与者在事实发生后，但在采访之前了解就Instagram和访谈数据的后续使用和发布获得了知情同意2.2. 基线特征2.2.1. 自然语言文本分析使用语言查询和字数统计（LIWC）软件（Pennebaker等人，2015）加载了经验证的德语词典（Wolf et al.，2008年）。这个文本分析工具利用了近6400个专家策划的单词的词典，这些单词已经过心理测量属性的评估。每个词都伴随着各种各样的分类定义，包括基本的语言维度以及各种各样的心理过程，包括情感，社会，认知，感知和生物。使用这些LIWC类别，从访谈中得出以下预测因素并用于当前分析：(1) 总字数(2) 第一人称代词的百分比(3) 表示情感表达的单词百分比（影响）(4) 与负面情绪相关的单词的百分比（例如，仇恨，悲伤）(5) 表示为认知过程的单词的百分比（例如，（Think，Perhaps，and Else）Flesch-Reading-Ease Index（FRE）（Flesch，1949）也被用来计算青少年在访谈中回答的可读性和可理解性。FRE是在0和100之间标准化的度量，分数越高表示阅读能力的容易度越高。例如，得分为25分的书面文章比得分为90分的文章更难理解，后者被定义为11岁的学生容易理解。FRE指数由平均句子长度和每个单词的平均音节数确定，如最初定义的（Flesch，1949）。综合考虑，这种分析方法总共产生了6个语言文本分析特征。2.2.2. Instagram功能此外，还收集了Instagram用户特定的元数据，并在五个功能中进行了计算：(1) 关注者总数(2) 数字跟随(3) 上个月上传的图片数量(4) 上个月每张图片的平均评论数(5) 过去一个月内每张图片的平均点赞数2.2.3. 特征工程目前的研究从上面第2.2.2节提供的数据中实施了额外的功能工程，以更全面地捕获Instagram上的用户活动创建的四个功能包括：(2) 参与度（发布图片数量*（平均喜欢+平均评论））(3) 平均评论和每个粉丝的平均喜欢的总和（平均评论+平均喜欢）（DeVries，2019）(4) 平均评论数与平均点赞数之比（平均评论数）参与度指标来自现代社交媒体分析中实施的参与率（ERR）的通用公式（Sehl，2019），但由于仅报告了喜欢和评论的平均值而不是总数，2.3. 结果指标急性SI的存在/不存在是兴趣的主要结局。这是在Instagram信使采访中评估的，问题：“你现在是否正在考虑或计划结束你的生命？“因此，如果对这一问题的答复是“是“，则定义为肯定，如果对这一问题的答复是“否”，则定义为否定。2.4. 数据预处理所有15个特征都被单独标准化，使得数据的平均值为0，标准差为1，用于后续模型。在分析前删除Instagram用户数据不可用的受试者（n2.5. 基线模型测试在他们的论文中，Brown et al. （2019a）和Brown et al. （2019b）对访谈语言使用变量和Instagram活动进行了样本内逐步logistic回归，发现只有访谈中的负面情绪与急性SI结果显著相关。然后，他们运行了第二个单变量logistic回归模型，情绪作为唯一的预测因素，以达到一个在临界值为0.7时，急性SI 的准确性为0.69（灵敏度0.84，特异性0.57）。这种方法虽然常见，但有一些明显的局限性。使用一个模型来有效地为同一数据集上的后续模型选择显著的预测因子会导致偏倚和对预测性能的过度乐观评估（ Reunanen ， 2003;Varma 和 Simon ，2006）。就其各种语言和Instagram活动功能的相对预测效用而言，管道留下了很多额外的探索。为了与当前分析进行更严格的统计学比较，使用相同的变量构建了一个样本外、重复、10倍交叉验证的逐步logistic回归模型，以询问与急性SI的相关性。R包caret和glmStepAIC用于构建和运行Brown等人（2019 a）和Brown等人（2019 b）在此重复交叉验证框架内开发的模型。报告了使用ROC曲线分析每个预测因子的变量重要性、通过准确度和AUC评估的模型性能以及最终模型变量系数和显著性值2.6. 机器学习模型的建立和实现机器学习管道是使用插入符号包在R（v3.6.1）中构建和运行的。预测个体存在/不存在急性自杀念头被视为二元分类任务，并对所有11个基线（第2.2.1和2.2.2节）以及4个额外的衍生特征（第2.2.3节）进行杠杆老化。作为第一步，在重复的十倍交叉验证框架中运行七个单独的模型。这些包括（i）EX treme梯度提升树（Xgboost）（Chen和Guestrin，2016），（ii）提升逻辑决策树D. Lekkas等人互联网干预25（2021）1004244========-=-===---（logitboost）（Dettling和Bühlmann，2003），（iii）通过惩罚最大似然（glmnet）的广义线性模型（Friedman等人，2010），（iv）k-最近邻（knn）（Hechenbichler，2004），（v）三层（即，具有1个隐藏层）前馈神经网络（nnet）（Venables和Ripley，2002），（vi）聚合和平均随机种子神经网络（avnnet）（Venables和Ripley，2002），以及（vii）朴素贝叶斯分类器（naiveBayes）（Majka，2019）。为了减轻由于在该级别进行超参数调整而导致的数据泄漏（以及对模型性能的高估），没有对七个较低级别的模型进行超参数调整。模型在默认包超参数值下运行，glmnet除外，其遵循在单独的Meta分析研究中概述的超参数建议（Probst等人，2019年）。类似于先前管道中概述的用于从电子健康记录预测精神疾病的既定程序（Nemesure等人，2020），然后将来自每个模型的预测概率用作以下五个集成学习模型中的急性自杀想法预测的特征：（i）X gboost，（ii）logitboost，（iii）knn，（iv）nnet和（v）avnnet。在这个堆叠模型的元层中，每个模型都在一个十倍重复、交叉验证的框架内运行，并使用插入符号。最后，这五个堆叠集合模型的预测结果如下：平均以达到急性SI二元分类任务的最终一致预测。报告了5个集成模型以及最终共识模型的模型准确度、Kappa评分、AUC（灵敏度vs 1 -特异性）和F1评分。2.7. 模型内省和特征重要性传统上，机器学习方法缺乏透明度，包括无法理解模型“学习数据”，然后做出决定。与传统的统计模型相比，“黑盒x模型“的绰号反映了机器学习模型在可解释性方面的明显损失模型然而，最近的方法学进步已经开始解决这一限制，并提供了一种方法，通过这种方法，可以在全局（整个数据集）和局部（每个数据点）级别上跨特征解释机器学习模型预测。SHAP（SHapley加法解释）（Lundberg和Lee，2017）是一种基于博弈论的Shapley值（Shapley，1953）的方法。Shapley值被概念化为合作游戏中玩家的相对支出，基于他们的相对贡献，SHAP将玩家等同于预测任务游戏中的特征值。因此，SHAP旨在通过计算每个特征来解释数据集中每个样本的预测结果（例如，Instagram的喜欢）的贡献，预测.因此，结果值被解释为特征影响预测结果的相对幅度。SHAP框架对于这种分析管道特别有吸引力，因为它是模型不可知的，因此适用于所有模型类型（例如，线性的、基于树的）。 R中的iBreakdown包用于预测数据集中每个个体的所有特征的SHAP值。使用SHAPforxgboostR包中提供的数据结构，对共识集成机器学习模型的SHAP值进行可视化。为了增加清晰度，图图1和图2概述了上述分析管道。3. 结果3.1. 基线模型样本外、10倍重复、交叉验证的逐步下降逻辑回归实现产生了最终模型，访谈中的负面情绪（β=0.82，OR= 2.28）和Instagram上的粉丝数量（β0.96，OR 2.61）作为唯一的回归因素。与Brown et al.（2019 a）和Brown et al.（2019 b），只有访谈中的负面情绪在预测急性SI方面具有统计学显著性（p此外，该模型的预测结果报告的准确度为55.6%，Kappa为0.087，AUC为0.560（灵敏度/召回率为0.524，特异性为0.692，F为0.550），表明预测能力低于先前报告的样本内分析。变量的重要性分析进行了使用varImp功能插入进一步表明负面情绪在采访中的最重要的变量（规模的重要性值（SIV）100.000）。其次是访谈（SIV 71.831）和FRE（SIV 47.183）中情感词的百分比，差在访谈中的认知机制词的百分比（SIV 13.380），Instagram上的追随者数量（SIV 2.113）和Instagram上的平均评论数量（SIV 0.000）被认为是最不重要的。3.2. 一致性集成模型性能使用机器学习方法来预测Instagram上的急性自杀倾向，使用基于语言和用户活动的预测器。建模管道包括五个集成模型，这些模型使用来自七个较低级别模型的输出作为预测因子。总结见表1，这五个集成模型的准确度范围为0.523-0.697（灵敏度/召回率=0.190-0.762，特异性= 0.692-0.962，F1 = 0.308-0.727），AUC范围为0.510-0.720。基于神经网络的模型表现最好，而k-近邻算法表现最差。当输出对这些模型中的每一个的预测进行平均以形成最终的一致预测，性能反映出0.702的优异准确度（灵敏度/召回率0.769，特异性0.654，F10.741）和 AUC为0.755。这种集成机器学习方法，包裹在10倍重复交叉验证中，实现了优于基线的总体预测性能（AUC 0.755，与AUC 0.755相比）。AUC 0.560）。基线模型试图复制布朗等人以前的努力。（2019a）和Brown et al. （2019年b）在一个图1.一、基线比较模型的分析管道。D. Lekkas等人互联网干预25（2021）1004245==-=图二. 共识集成模型的分析管道。表1集合和共识集合模型结果。集合模型精度KappaAUROC特异性灵敏度/回忆F1分数Xgboost0.6330.2410.6500.6920.6190.619logitboost0.6050.1970.6600.7310.5710.600KNN0.5230.0250.5100.9620.1900.308nnet0.6970.3910.7300.7310.7620.727亚洲新闻网0.6800.3530.7200.6920.7620.711共识0.7020.3920.7550.6540.7690.741示例框架，用于更直接地比较模型性能。此外，尽管评估样本外，为这项研究实施的集成框架，匹配以前的努力的准确性（70.2%相比，以前的69%），其中的指标是interrogated和计算与样本内的范例。3.3. 基于Shapley得分的集合模型预测中的特征贡献SHAP值涉及（i）受试者关注的账户数量(ii)参与度，（iii）采访中的负面情绪，（iv）关注主题的帐户数量，以及（v）平均喜欢作为模型预测的前五个最有影响力的特征。值得注意的是，五个预测指标中有四个来自Instagram活动，而不是来自结构化面试内容的语言特征。然而，在这五大特征中，面试中负面情绪的存在与Brown et al.（2019 a）和Brown et al.（2019 b）的发现以及基线模型的结果相呼应，在基线模型中，这一唯一的语言特征被发现在急性SI预测中具有重要意义。图4说明了特征重要性的受试者级别差异和趋势。出现了一些值得注意的模式。首先，受试者遵循的账户数量越多，对模型预测的积极影响越大，这表明受试者倾向于被归类为急性自杀。对于更多的追随者和整体参与度得分来说也是如此。具有较高这些特征值的个体倾向于影响模型，以积极预测急性SI。第二，个人较低平均喜欢的数量积极影响了模型对急性自杀状态的预测。第三，大多数具有较低或平均跟随率的受试者（即，与关注该主题的账户的数量相比，关注该主题的账户的数量相对较高）以及较低或平均的类似评论的比率对模型预测具有负面或中性影响，而仅在较高比率的情况下观察到对模型预测4. 讨论这项研究利用了一个数据集，该数据集由来自采访和Instagram帖子内容的LIWC预测因子组成，以及描述过去一个月Instagram活动的那些数据集，这些数据集来自于有SI既往史的德国青少年。当前模型管道的主要结果表明，语言和SN活动变量能够预测急性SI，准确度为70.2%（特异性0.654，灵敏度/召回率0.769，F1 0.741，AUC 0.755）。如前所述，这项工作是Brown et al.（2019 a）和Brown et al.（2019b）进行的研究的延伸。在这项研究中，Brown及其同事基于传统的样本内数据分析，调查了急性自杀意念、Instagram活动和语言使用之间的联系。在最初的分析中，目前的工作开始于使用十倍重复交叉验证框架重述Brown et al.（2019 a）和Brown et al.（2019 b）逻辑回归模型。通过我们的重新分析实现的预测性能远低于原始方法报告的69%的准确度。如果不采用样本外交叉验证方法，数据D. Lekkas等人互联网干预25（2021）1004246===-用于构建原始回归模型的数据与用于量化其性能的数据相同，因此我们的研究结果表明，69%的基准精度可能高估了模型的预测能力。纠正这一点，在当前的重新分析中，Kappa值接近零的情况下达到了约54%的预测准确度，这表明原始逻辑回归模型可能无法提供以前未看到的数据的信息，也无法推广到以前未看到的数据。尽管这种性能差异，布朗等人的先前的努力。（2019 a）和Brown等人（2019 b）以及当前模型强调了面试中的负面情绪词汇是驱动逻辑回归的最重要变量。目前研究的动力部分来自上述结果。核心问题变成了机器学习分类建模是否可以在样本外范式中实现更高的急性自杀意念预测精度，从而进一步突出Instagram活动和语言使用信息的潜在效用。目前的分析利用了七种模型类型，包括基于决策树的，监督聚类，神经网络，线性和概率分类器，用于包容性和不可知的分析方法。这些模型的性能结果如表1所示，反映了70.2%的优越最终准确度，该值与先前在样本内分析中报告的值相当（准确度69.0%），比样本外逻辑回归方法高出约18%（准确度52.0%）。图3中的AUC曲线描绘了正确识别急性自杀者和正确识别非自杀者的权衡。具体而言，获得的AUC为0.755（灵敏度0.769，特异性0.654），这与将急性自杀个体正确分类为急性自杀的能力相对应（76.9%）。这在统计学上意义重大（p0.05）模型预测能力显著提高<与基线样本外逻辑回归相比（图3，右）。这些研究结果表明，目前的机器学习方法作为在线预测急性自杀想法和行为的未来发展途径是非常有前途的。目前的结果表明，在这种二进制分类任务的平衡改善，复杂的结果使用的数据，根据大多数SN预测器假设这种集成方法可以证明对跨不同SN平台的更大，更丰富的特征数据集是有效的，这是不合理的，因为告知模型的变量是可推广到其他在线设置，如Twitter，Facebook和Reddit。在短期内收集语言和用户元数据用于急性SI预测可能在主要在更动态、交互式时间尺度上操作的平台上特别相关，例如Twitter。尽管这种潜在的特征空间的概括性，重要的是要认识到，培训需要特定的检测急性SI的个体与SI的一生的历史。由此产生的歧视性模型，而训练的一个特别困难的任务，在这个队列中的个人的基线风险，将不适合部署在一般人群从未SI控制。这并不一定减损其性能，因为分类的内在细微差别使所获得的准确性特别值得注意。机器学习模型的一个传统缺点是他们在如何使用数据进行预测方面缺乏透明度。认识到这一局限性，目前的工作是有兴趣的decomposing所产生的集成共识机器学习模型，以这样的方式，每个变量的相对影响，用于预测急性SI的状态可以调查。相对新颖的SHAP框架服务于这一目的，SHAP分析的结果为自杀风险预测提供了一些显着的见解。图4按重要性排序（从上到下）显示了在预测急性SI中最重要的特征。有趣的是，前五个最有影响力的预测因素中有四个与社交媒体使用行为有关，而不是与面试相关的语言内容有关。这说明了利用离散行为的可能好处，例如“liking此外，对社交媒体使用的行为信息的自由形式的被动收集可以提供一种非侵入性的替代方案，以辨别独特的微妙的异常活动模式，这些活动模式可以与波动的自杀状态相关联，并作为预测模型的信息变量。值得一提的是，面试中的负面情绪词汇被认为是第三大信息量预测因子，也是前五大最有影响力的特征中唯一基于语言学的特征。回顾Brown et al.（2019 a）的结果和当前研究中校正的基线模型，其在集合管道中的反复出现的突出性进一步突出了这种语言特征，可用于未来研究的预测应用。简而言之，SHAP的结果表明，被动收集的SN间，动作数据，尤其是跟随者、跟随、参与和基于喜欢的度量，可以是未来急性SI的特别有用的预测器。这一发现对识别自杀风险具有重要意义，图三. 一致集成模型性能的ROC曲线。注. （A）ROC曲线反映0.755的AUROC（灵敏度=0.769，特异性=0.654）。(B)与基线模型（红色）相比，Enhancement共识模型ROC（蓝色）表明预测性能有统计学显著性（p0.05）改善

下载后可阅读完整内容，剩余1页未读，立即下载