没有合适的资源?快使用搜索试试~ 我知道了~
互联网干预26(2021)100467利用Reddit上在线社区的帖子检测滥用芬太尼的个人的风险水平Sanjana Garga,1,Jordan Taylora, 1,Mai El Sherief a,Erin Kasson b,Talayeh Aledavood c,Raven Riordanb,Nina Kaiser b,Patricia Cavazos-Bogg b,Munmun De Choudhurya,*a美利坚合众国佐治亚理工学院计算学院,亚特兰大,GA 30332b华盛顿大学医学院精神病学系,圣路易斯,MO 63130,美利坚合众国c芬兰埃斯波阿尔托大学计算机科学系A R T I C L EI N FO关键词:芬太尼阿片类药物过量机器学习检测社交媒体A B S T R A C T阿片类药物滥用是美国的一场公共卫生危机,芬太尼等合成阿片类药物的滥用导致了最近一波阿片类药物相关死亡。由于那些滥用芬太尼的人往往是一个隐藏的高风险群体,因此需要创新的方法来识别有滥用芬太尼风险的个人。机器学习过去曾被用来调查Reddit上围绕物质使用的讨论,这项研究利用类似的技术来识别该平台上关于芬太尼的讨论中的风险内容。方法:临床领域专家开发了一个代码本,其中包含12个指示芬太尼滥用风险的类别,并用于手动标记391个Reddit帖子和评论。利用这些数据,我们建立了机器学习分类模型来识别芬太尼风险。结果:我们的机器学习风险模型能够检测到临床专家标记为风险的帖子或评论,准确率为76%,灵敏度为76%。此外,我们还提供了芬太尼及其类似物的社区特定的口语词汇讨论:本研究采用跨学科方法,利用机器学习技术和临床领域专业知识自动检测风险话语,这可能会引起并受益于及时干预。此外,我们的芬太尼及其类似物的在线术语词汇扩展了我们对阿片类药物在线“街头“命名的理解通过对药物滥用风险因素的更好理解,这些研究结果允许在滥用芬太尼的人中识别风险概念,以告知针对这一风险群体的外联和干预策略1. 介绍在阿片类药物流行病中(Gostin等人,自2013年以来,合成阿片类药物滥用已成为一场紧迫的公共卫生危机,因为这些非法制造的合成药物开始变得更容易获得(DEA,2015; DEA,2018),导致2019年与过量相关的死亡人数是2013年的近12倍(CDC,2019)。芬太尼是一种合成阿片类药物,特别是被认为是一种严重的威胁(Springer et al.,2019年),因为它推动了最近一波合成阿片类药物死亡(斯宾塞等人,2019;CDC,2018)。2016年,芬太尼成为美国过量死亡最常提及的药物,超过了海洛因。(Hedegaard等人, 2018年)。 它是一种非常有效的药物,使用户非常容易上瘾,以及其他药物的用户无意中过量服用,并且它经常在用户不知情的情况下掺入物质中,使过量服用的风险更高(Jones等人,2018; NIDA,2019)。事实上,一项研究发现,芬太尼检测呈阳性的患者中有73%没有报告芬太尼滥用,这表明他们在不知情的情况下注射或服用了该药物(LaRue等人, 2019; Amlani等人, 2015年)。在美国,许多与芬太尼使用有关的过量和伤害的情况都是无意的,通常与使用海洛因,可卡因和其他含有芬太尼的药物有关,以增加其欣快感(CDC,2021;NIDA,2019)。对于那些* 通讯作者:计算机学院,佐治亚理工学院,756 W Peachtree St NW,亚特兰大,GA 30308,美国。电子邮件地址:mchoudhu@cc.gatech.edu(M. De Choudhury)。1 共同第一作者。https://doi.org/10.1016/j.invent.2021.100467接收日期:2021年7月26日;接收日期:2021年9月25日;接受日期:2021年2021年10月20日网上发售2214-7829/©2021的自行发表通过ElsevierB.V.这是一个开放接入文章下的CCby-NC-ND 许 可 证(http://creativecommons.org/licenses/by-nc-nd/4.0/)中找到。可在ScienceDirect上获得目录列表互联网干预期刊主页:www.elsevier.com/locate/inventS. Garg等人互联网干预26(2021)1004672+然而,在故意的芬太尼滥用中,关于滥用动机的理论包括对包括阿片类药物在内的其他药物的高耐受性,其需要更强效的药物如芬太尼来维持高耐受性,与成瘾/依赖和滥用相关的动机以减少或减轻戒断症状,或由于意外暴露于芬太尼而导致的成瘾(Buresh等人,2019年)。通过第一手经验了解故意芬太尼滥用模式的动机和风险对于更好地有效调整预防和干预策略至关重要。然而,由于药物滥用的非法性质和耻辱,往往难以接触到非法药物使用者群体。对非法药物滥用动机的研究还反映了与他人分离或孤立的感觉之间的动态关系(即,社会疼痛)以及身体疼痛,这种疼痛可能会鼓励周期性的,持续滥用物质,以减少这些感觉(Eisenberger,2012;Sullivan和Ballantyne,2021)。芬太尼滥用尤其受到高度污名化;众所周知,患者通常不愿与临床医生、研究人员甚至家人和朋友分享他们的经历(Nelson和Perrone,2012)。因此,对于那些被贴上“成瘾者“标签的人来说,这种耻辱感会导致许多负面结果,包括羞耻、尴尬和不愿意接受治疗(Livingston等人, 2012年)。 这使得很难收集数据,了解芬太尼滥用的做法和风险因素,采访或病人的披露。假名社交媒体网站可以使那些具有污名化身份的人能够披露经历并寻求支持,减少对离线伤害的恐惧(Andalibi等人,2016年)。因此,匿名社交媒体已被用于研究LGBTQ少数群体压力领域的污名化经历(Saha等人,2019),性虐待(Andalibi等人,2016),养育(Ammari等人,2019年)和心理健康(De Choudhury和Sushovan,2014年; Pavalanathan和DeChoudhury,2015 年; De Choudhury等人 , 2016; Naslund 等 人 , 2016; DeChoudhury 和 Kiciman , 2017;Andalibi等人, 2017年; Cavazos-Baug等人,2017; Guntuku等人,2017; Paul和Dredze,2017; Coppersmith等人, 2018年)。一个广泛使用的匿名社交媒体网站是Reddit,它提供特定主题的论坛,称为subreddits,用户可以匿名投票和评论彼此的帖子,使用户能够讨论污名化的话题(Singer等人,2014; Betton等人, 2015; Andalibi等人,2016; De Choudhury等人,2016; Robinson等人,2019年)。根据皮尤的一项调查,在美国,大约15%的成年男性、8%的成年女性 、 22% 的 18 至 29 岁 人 群 和 14% 的 30 至 49 岁 人 群 使 用 Reddit(Perrin和Anderson,2019)。在同一项调查中,14%,12%和4%的西班牙裔,白人和黑人美国人分别为9%,10%和15%的年收入低于30,000美元,30,000美元至74,999美元,以及超过75,000美元的人分别为14%,12%和4%。性地 报道 使用 Reddit. 先前 研究 有 使用 机学习和自然语言处理方法来分析Reddit上关于随意药物讨论,阿片类药物成瘾和阿片类药物使用恢复的替代治疗的帖子(Park和Conway,2018; Chancellor等人,2019年; Lu等人,2019; Alambo等人, 2021年)。然而,没有已知的研究特别关注芬太尼的讨论。此外,据我们所知,现有的数据和语言分析研究都没有关注识别或理解与芬太尼滥用相关的特定风险行为。作为回应,本研究检查了社交媒体平台Reddit中的内容,特别是在subreddit r/fentanyl中。我们使用来自r/fentanyl subreddit的帖子和评论,使用混合方法评估芬太尼滥用风险因素-首先通过在论坛上使用定性内容分析开发一个码本,然后构建和验证监督机器学习分类器来检测风险。通过从社交媒体上识别与故意滥用芬太尼相关的风险,这项工作提高了对这种物质的理解,以更好地进行临床研究,治疗和干预,并与可能难以通过常规手段接触的人群进行接触。2. 方法2.1. 社交媒体数据我们从Reddit的子站r/fentanyl收集了公共数据。R/芬太尼论坛将自己描述为致力于减少危害和交换有关芬太尼及其类似物的信息,提供第一手用户体验和建议,目标是 “ 消 除 有 关 这 些 物 质 的 一 些 常 见 神话”。”从2015年5月到2020年1月,使用PRAW 2库(Boe,2016)和GoogleBig Query(BigQuery,2019)从subreddit历史开始的评论(内容)3我们的r/芬太尼数据集是它包括来自1124个独立用户的6459个帖子和评论。然而,从表2中可以看出,120篇帖子和361条评论是由后来删除帐户的用户撰写的,因此我们数据集中的作者数量可能大于1124。由于这些数据是从公开的subreddit r/芬太尼中收集的,因此本研究不构成人类受试者研究,也不接受机构审查。为了保护用户身份,我们没有包括用户名,也没有直接引用;还有,示例引用 都是为了减少可追溯性为了帮助自动检测这个Reddit论坛上的芬太尼滥用,我们首先确定了芬太尼使用的第一人称报告的帖子和评论;这很重要,因为这些社区包含各种内容,包括对芬太尼使用的态度,个人经历,新闻和错误信息,使用的副作用为此,我们采用了Klein et al.(2017)在注释的药物摄入Twitter数据集上开发的机器学习分类器。该分类器将帖子分为两类:接收(自我报告)和不接收。在迁移学习设置中使用该分类器(Howard等人, 2020年),在我们最初的6459个数据集中,共有1628个帖子和评论被确定为关于芬太尼摄入量的第一手自我报告(表1)。我们使用这个分类器为391个注释的帖子或评论选择了60%的摄入量和40%的非摄入量我们选择纳入分类为无摄入的数据,因为我们的代码本包含与药物摄入无关的类别,例如讨论戒断、耐受性或颜色。从表2可以看出,在我们的注释数据集中,已删除用户的帖子和评论的分布与整个数据集中已删除用户的帖子和评论的比例相当我们还可以在表3中看到,虽然大多数用户在我们的注释数据集中只有一个帖子或评论,但这些用户往往更频繁的海报或评论者比中位数用户。这要作因为每个用户的帖子和评论数量遵循幂律分布。表1数据描述来自r/芬太尼。#用户数# avg. 话#摄入量#无摄入量员额80442288207597评论56559805414214234总645911245916284831PRAW(3 Google BigQuery是一个平台,可以分析PB级。除此之外,它还包含来自不同子Reddit的Reddit帖子和评论,这些帖子和评论存储为数据集。我们使用Google BigQuery只是为了检索数据,而不是为了分析。S. Garg等人互联网干预26(2021)1004673表2删除帐户的用户发布的帖子和评论转让,所有在或超过实质性协议(兰迪斯和科赫,1975年;麦克休,2012年)。第三个共识编码器进一步审查并编码了存在分歧的内容,这发生在36%的病例中(Syed和Nelson,2015)。然后,这些注释用于通知机器学习模型。编码员阅读每个帖子或评论,如果帖子/评论中没有任何风险因素,则编码为“0“,如果帖子/评论中存在风险概念,则编码为然后,编码器将存在的代码数量相加为总分,确定帖子/评论风险级别。 如果有注释数据评论70出现在帖子/评论中,此帖子被归类为高风险帖子(编码为“1”)。如果不存在代码或帖子包含的信息太少而无法编码,则该帖子被归类为帖子*某些类型的帖子没有正文,我们数据集中的一些评论和帖子文本只是说它们被删除或删除。表3在我们的整个数据集和我们的注释数据集中,每个作者的帖子和评论数量的描述。低风险(编码为“0”)。 我们承认这个社区的许多成员都处于某种程度的风险中,这就是为什么我们将“0“类称为“低风险”而不是“无风险”。此外,我们注意到,我们的代码本解决了帖子或评论文本中披露的风险因素注释数据见表4。2.3. 基于机器学习的风险检测整个数据集中整个数据集中我们的芬太尼使用风险码本是广泛的,以捕捉多个所有数据作者全部5. 32(± 15. 14)2. 00职位0.61(±1.39)0.00围绕使用这种物质的风险方面,但这种广泛性使得专家对每个帖子/注释数据评论4.71(±14.47)1.00置评. 因此,为了了解r/芬太尼的话语风险,我们全部16.41(±31.49)7.00员额1.26(±1.96)1.00评论15.15(±30.19)7.00使用领域专家标注的内容构建多个机器学习分类器。一般来说,分类是预测给定数据点的类别我们造了四个分类器,注释数据集中注释数据集中在文献中建立,使用注释数据:逻辑回归,支持向量机(Noble,2006),随机森林(Breiman,带注释的数据作者所有1.78(±1.91)1.00立柱0.19(±0.41)0.00评论1.59(±1.83)1.002001 ) , 以 及 长 短 期 神 经 网 络 ( LSTM ) 分 类 器 ( Hochreiter 和Schmidhuber,1997)。这些分类器使用的特征可以捕捉特定于风险代码的帖子我们使用了80%的注释数据,2.2. 定性数据注释在这个过滤后的数据集上,我们现在描述一种定性的代码风险级别方法。由于缺乏现有框架来支持对社交媒体帖子中的风险水平进行编码,因此使用归纳和演绎方法(Braun和Clarke,2006年)来制定一个代码簿,以描述与样本帖子和评论中的风险相关的因素。首先,使用归纳方法,由人类编码员审查过滤后的摄入样本中大约100个帖子的子集,以确定该子Reddit中通常讨论的风险行为类型。这些主题(例如,耐受性/戒断、物质获取、给药途径、鉴别)然后与先前文献中概述的与物质滥用风险相关的经验支持因素进行比较[即,注射药物使用(Kenney等人,2018),更高的身体和精神疾病负担(Smolina等人,2020)]。更具体地说,考虑到独特的芬太尼滥用风险因素,为具体识别即将发生的物质滥用风险而创建的最终注释代码包括:提及(1)他/她是一名经常吸毒者(Degenhartt等人,2010),(2)高物质耐受性(Darke和Hall,2003)或戒断(Bluthenthal等人,2020年),(3)以前的过量或知道其他人谁已经过量(布里顿等人, 2010年)、(4)多物质使用(Betts等人, 2015; Coffin等人,(2003年),(5)目前接触或主动寻找该物质(Paulozzi,2012),(6)功能性(Barash等人,2017)和生活质量损害(Zibbell等人, 2019),(7)静脉内使用方法(Britton et al.,2010),和(8)用另一种物质切割的药物(LaRue等人,2019年)。因素进一步扩展到寻求剂量或使用方法的建议,以及对风险药物使用的支持性评论(Webster,2017)。一旦建立并完善了密码本,两名临床注释员就审查了一批大约200个帖子/评论,为每个帖子/评论分配代码和风险水平总和。特定风险代码的评分者间可靠性范围为0.71至0.99,风险水平的评分者间可靠性范围为0.64训练我们的模型(也就是说,模型学习了嵌入在数据中的模式),并在剩下的20%上进行测试(也就是说,基于在训练期间学习的模式,对于一个看不见的数据点,模型猜测它最有可能属于哪个类别)。由于我们有显著的阶级不平衡,我们采用了SMOTE,或(Chawla等人,2002年)。我们的模型的更多细节在补充文件的“分类模型”部分中进行了扩展。总之,我们的分类器使用我们的专家注释的帖子和评论中的语言来预测领域专家分配的风险级别是低风险还是高风险(图10)。①的人。3. 结果我们的风险模型的性能总结在表5中,包括每个倍的平均精确度、召回率、F1、准确度和AUC,对应于每个分类器报告的最高平均AUC的超参数设置。我们还包括一个分类器的性能,该分类器具有在我们的整个训练集上训练并在我们的测试集上测试的相同的上述超参数。在我们的测试集上,每个模型的准确率范围从0.74到0.76,精确率从0.71到0.76,召回率从0.73到0.79。然而,当考虑交叉验证期间表5中每个指标的标准偏差时,模型之间的差异在统计学上不显著。总之,在风险等级分类方面,没有模型优于其他模型。最后,虽然我们的模型在帖子和评论上的表现似乎相似,例如我们的LSTM模型正确地分类了我们测试集中10个帖子中的8个,但帖子太少,无法得出关于比较帖子和评论的概率的结论。此外,为了确保我们的模型直接学习信号,与芬太尼的风险相关,从而建立结构效度在我们的模型(O 'Leary-Kelly和Vokurka,1998)中作者从已删除的作者总已删除作者所有数据所有48164597.45%柱120804百分之十四点九三评论36156556.38%所有数据全部8357441.44%正文*3873.36%53571.31%所有53911.28%职位1422.38%评论4349百分之一点一五S. Garg等人互联网干预26(2021)1004674(a)Logistic回归(b)线性SVM表4注释数据统计。低风险风险升高#用户数# avg. 话进气无进气#用户数# avg. 话进气无进气员额22177024037255319评论1449926558920513510315649总14610128559124516212818758(c)随机森林(d)LSTM图1.一、每个分类器的混淆矩阵。(LR-低风险,ER-高风险)。方法部分中描述的分类器)。根据表5,我们所有的模型都优于0.62 F1评分的基线。我们注意到,我们的每个分类器在保持测试集上的F1分数方面表现相似:每个分类器的F1分数范围从0.72到0.75。我们还可以在图2中的ROC曲线中看到,随着决策边界阈值的变化,模型在假阳性和假阴性方面的表现相似。相关地,每个模型具有相似的AUC。 为了进一步阐明这些结果,图2显示了每个分类器的ROC曲线。对于更简单的分类模型,如随机森林,逻辑回归和支持向量机,可以通过对训练模型中每个特征的系数进行排名来量化特征的重要性,系数越高意味着特征与正类(在我们的情况下是高风险类)的相关性越高。表6显示了风险分类任务中的前15个重要特征(单词或短语)正如预期的那样,“drugxyz”一词每个分类器的前两个显著单词或短语 我们进一步观察到,第一人称代词“I”出现在我们的随机森林和逻辑回归分类器的前15个最重要的单词或短语中,而短语“Iknow”出现在我们的支持向量机分类器的前15个中。 经检查,“我知道”可能与风险升高相关,因为这句话是用来在提供建议时提高一个人的可信度,例如“我知道,因为我是一个经常使用芬太尼的人”,在提供建议时提供社会证明(Cialdini,1987),“我知道......”, 并对冲(Lakoff,1975)危险的个人叙述,如“我知道这是愚蠢的,但……”。此外,与采购相关的单词,如“get”和“buy”,以及剂量,如“mg”和“one”,出现在我们的随机森林和逻辑回归分类器的前15个最重要的单词和短语中。与此同时,与戒断和吸毒个人叙述相关的“可怕”一词出现在我们的逻辑回归和支持向量机分类器的15个最重要的单词和短语中。值得注意的是,我们基于神经网络的LSTM模型不能被S. Garg等人互联网干预26(2021)1004675表5宏观平均模型在我们80%的注释数据上进行5倍交叉验证的性能,以及在我们的训练集(80%的注释数据)上训练并在我们的测试集(20%的注释数据)上评估的模型的性能。功能交叉验证精确召回Macro-F1准确度AUC4.1. 实际影响这项研究表明,像Reddit这样的社交媒体网站提供的匿名性允许个人讨论诸如非法物质之类的污名化话题(Birnholtz等人,2015)和芬太尼滥用。此外,这些人中的一些人可能处于更高的风险中,N-革兰氏L+DN-GramL+ DTFIDFL+ D0.82(±0.11)0.82(±0.10)0.84(±0.04)0.81(±0.09)0.81(±0.09)0.83(±0.04)0.81(±0.09)0.81(±0.08)0.82(±0.05)0.81(±0.09)0.81(±0.09)0.83(±0.04)0.91(±0.12)0.89(±0.12)0.92(±0.06)因此,这项工作可以为在这些论坛上向特别脆弱的个人提供预防性支持或临床干预铺平道路。此外,r/芬太尼论坛促进了围绕减少危害和芬太尼及其类似物信息的对话,寻求咨询和社会支持,以及交流信息BERT 0.820.780.780.810.87与这些物质的使用有关Reddit基线(±0.05)0.75(±0.08)(±0.06)0.75(±0.09)(±0.06)0.71(±0.10)(±0.05)0.72(±0.10)(±0.04)0.86(±0.09)促进对特定污名化主题的讨论,加上这项工作中开发的计算方法,因此,有助于及时和 有针对性地接触芬太尼滥用者,特别是功能测试集精度召回Macro-F1准确度AUCN-Gram L+D 0.73 0.76 0.74 0.760.81N-Gram L+D 0.71 0.73 0.72 0.74 0.78TFIDF长+深0.72 0.74 0.73 0.76 0.79BERT 0.76 0.79 0.76 0.77 0.83基线0.64 0.66 0.61 0.62 0.66LR-逻辑回归,SVM-线性支持向量机,RF-随机森林,LSTM NN-长短期神经网络。L+ D-lemmatized和debiased(更多信息请参见补充章节关于去偏置的信息)。由于其复杂的内部结构,类似地解释(Castelvecchi,2016)。然后,我们对我们的分类器检测到的高风险进行了定性分析。 表7显示了一些被我们的逻辑回归分类器正确分类为高风险的实例以及与每个实例相关的风险因素。在该表中,较深的颜色表示该词在分类期间的较高重要性。例如,“off”、“get”、“tolerance”是具有高容忍度或退缩的人的重要特征。同样,“我的”、“家庭”、“薪酬“是功能和生活质量受损风险因素的重要词汇。使用其他物质的例子也值得注意,因为它显示了消除药物名称 偏见 的好处 由于 分类器能够将单词“carfent” 、“logue” 、“butyr”、“x anax”映射到 “ d r u g x y z ” , 因 此 它 可 以 学 习 潜在 的 概 念 , 即 提 到 了 多 种 物 质 , 这 有 助 于 风 险 检 测 任务 , 尽 管 它 们 可 能 是 罕 见 的 药 物 。4. 讨论为了减轻芬太尼滥用造成的严重公共卫生威胁(CDC,2018),本研究利用机器学习,由公共匿名论坛r/芬太尼数据的手动领域专家注释支持,以识别芬太尼滥用风险因素升高的内容。这样,我们的研究结果提供了新的数据和语言分析方法的研究与物质滥用相关的特定的危险因素。本文的显著优势包括使用流行的社交媒体平台,保护用户这使我们能够评估第一手经验,芬太尼滥用和高风险和蒙面人群中的个人风险因素,以有效地适应预防和康复计划。总之,我们的工作可能有助于支持发展和提供及时的治疗和干预措施,以那些有需要的人,同时也扩大了推广方法,以人口难以达到通过传统手段。难 以 接 触 的 人 群 ( Miller 和 Sønderlund , 2010 年 ;Wejnert 和Heckathorn,2012年)。这反过来可以满足识别用于减少伤害干预的个体的需要,同时保持他们的隐私并鼓励使用芬太尼的其他个体之间的真实对话,这可能是治疗性的或在他们自己内部减少伤害(Latkin等人,2003年)。特别是鉴于COVID-19导致治疗障碍增加,利用可获得的方法了解、针对和吸引难以接触的社区的高风险成员接受治疗至关重要。因此,考虑到上述实际使用的潜力,我们讨论了两个影响在线社区讨论物质的使用和滥用。首先,先前的研究表明,Reddit版主在管理其子Reddit上的内容,定义社区特定规则,建立规范以及为发布严重关注内容的人提供支持方面发挥着积极作用(De Choudhury和Sushovan,2014; De Choudhury等人,2016年; Alasekharan等人,2019年)。此外,自动审核工具在subreddit审核中发挥着重要作用,使版主能够通过技术介导的方法对有关内容进行分类,特别是在完全手动分类可能需要版主的时间和精力的情况下(Jhaver等人,2019年)。事实上,Matias等人的研究进行了一项关于自动审核策略的在线实验,发现这种方法有助于内容审核,以及执行和维护反对骚扰的社区规范(Matias,2019)。根据这项研究,我们的工作可以为工具的设计提供信息,以支持与药物使用相关的在线社区主持人的工作。例如,我们的研究结果可以为工具的设计提供信息,以帮助版主针对发布有风险内容的用户进行干预外展,正如最近关于边缘化人群利用社会媒体满足健康需求的研究所讨论的那样(Andalibi等人,2016; Saha等人,2020; Wadden等人, 2021年)。Facebook同样使用人工智能(AI)为那些被确定为有自杀风险的人提供资源,2020年3月,Reddit宣布与Crisis Text Line合作,允许用户标记其他可能处于危机中的用户(Perez,2020)。我们设想,通过将我们的计算方法与非营利组织提供的内容结合起来进行有针对性的外展,版主将更好地应对风险信息,进而不仅有助于提高这些论坛中讨论的整体质量,还可以为公共卫生实体生成并分享有关投资于预防和干预活动的策略的信息。尽管存在这些内容审核的机会和影响,但我们强烈反对使用我们的方法删除内容或禁止用户在这些论坛上发帖。如Chancellor等人在在线支持进食障碍社区的背景下所示,内容删除对于解决社交媒体上的异常行为既无效又有害(Chancellor等人,2016年)。当个人经历脆弱时,他们倾向于向他人伸出援手以S. Garg等人互联网干预26(2021)1004676(a)Logistic回归(b)线性SVM表6(c)随机森林(d)LSTM图二、每个分类器的ROC(受试者工作特征)曲线。(Acton,1973)。比较三个性能最好的分类器的主要特征。权重表示特征的重要性。网络社区提供了一种强大的机制(Coyne和Downey,1991)。因此,任何干预,基于这项工作,授权社区调解人将需要确保社区,如本文所研究的,继续提供一个出口,以寻求这些类型的“安全阀“,以调节个人的情绪,当其次,我们注意到过去在Reddit用户滥用阿片类药物中的研究(Cavazos-Baug等人,2019年; Cavazos-Baug等人,2021)确定了治疗的许多障碍(例如,耻辱/羞耻、对待治疗的态度、治疗准备情况),这些障碍也可能反映在这些在线社区的用户对直接、积极主动的外联战略的开放程度有限。作为应对这一挑战的一种潜在方法,基于先前对在线健康社区中同伴支持的研究(Yang et al.,2019年; Yang等人,2019年a),我们的工作可以用来授权社区主持人,这样他们就可以做出适当的支持规定,涉及社区中的资深成员或其他支持成员,他们愿意这样做,并经过筛选,有能力提供帮助。此外,我们的工作可用于与社区成员联系并直接询问他们的具体意见,以告知可行、可接受和可操作的外展方法,从而减少伤害,并提供支持,以便在检测到此类风险信息时更好地定制使用。上述这些方法当然必须与适当的隐私保护和道德考虑相结合,以便个人在尝试在在线论坛上讨论药物滥用挑战时继续感到安全,并且风险检测不会增加伤害。4.2. 所涉方法其次,在执行方面有一些方法上的影响值得讨论。如前所述,没有模型执行S. Garg等人互联网干预26(2021)100467表77×正确分类的示例,并突出显示相关风险因素和主要特征。在准确度、精确度、召回率和f1方面,这两个模型在统计上显著优于另一个模型,但图2显示了与每个模型的输出决策边界阈值相关的敏感性和特异性权衡。优选的阈值将取决于该分类器在真实世界场景中的应用。例如,如果使用低特异性的风险分类器来支持与药物相关的在线社区的版主,则错误地检测到社区成员发布风险内容的影响可能会 疏 远 用 户 并 抑 制 这 些 在 线 社 区 作 为 “ 安 全 阀 ” 的 潜 在 用 途 ,Chancellor et al.(2016)和Jhaver et al. (2019年)。另一方面,出于筛查目的的风险检测模型的见解的临床使用可能更倾向于更大的假阳性而不是更大的假阴性,因为它将最小化显示出风险芬太尼使用加剧水平的个体被遗漏并因此被排除接受干预的可能性。未来的研究在决定决策边界阈值时必须仔细考虑这些权衡。虽然每个模型在分类上的表现相似,但在解释和审计模型的特性和决策的难易程度上存在明显的差异例如,我们的LSTM神经网络模型使用BERT嵌入(Devlin et al., 2018),将每个帖子或评论表示为512 768矩阵X,这些特征难以直接解释。另一方面,我们的logistic回归模型和SVM模型所使用的n-gram特征向量,或通过对文本中的单词和短语进行计数而得到的向量,更容易直接解释此外,逻辑回归分类模型的输出比LSTM更容易理解,因为前者通过对输入向量应用简单的线性函数进行分类同时,LSTM模型输出是其输入向量的复函数这意味着领域专家更容易审计具有n-gram特征的逻辑回归模型的输出, 正如我们所看到的,我们的逻辑回归和LSTM模型之间的显著分类改进,那些使用这项工作的人应该更喜欢更简单的逻辑回归模型,而不是后者,以使领域专家能够更容易地审核模型输出。此外,我们在表8中发现的改善我们模型的社区特定药物名称列表可以为未来关于讨论阿片类药物、芬太尼或芬太尼类似物的在线社区的研究提供信息。例如,Sarker等人(2019)发现宾夕法尼亚州县级过量死亡率与滥用指示社交媒体帖子之间存在统计学显著相关性,这些帖子使用机器学习分类器标记,该分类器基于一组Balsamo等人(2019)使用类似的方法构建了与阿片类药物相关的subreddits相关的词汇超过70万个,但芬太尼类似物很少出现,因为该列表是由多个阿片类药物相关的subreddits构建的,并且在不到100个帖子或评论中出现的术语被删除。此外,Balsamo et al. s(2019)词汇表未注释药物名称。我们的方法,专注于自动识别芬太尼类似物扩展了这项研究,为未来的工作,研究与各种类型的阿片类药物的危害减少策略打开了机会。此外,虽然我们前面提到的词汇适用于芬太尼类似物的狭窄领域,我们的方法,使用词嵌入找到在线社区特定的药物名称,在我们的补充的“数据过滤注释“部分讨论值得注意的是,Lee和Antin(2012年)发现药物使用研究人员使用的药物名称与成人吸毒者使用的药物名称之间存在不一致。因此,我们的方法可以帮助临床医生更好地设计调查使用口语化的药物名称。S. Garg等人互联网干预26(2021)1004678表8在200个词嵌入标记中,与种子词或词最相似的词是药物相关词。括号中的数字表示右侧药物相关词与左侧种子词之间的余弦相似度对表9中分类错误的员额的分析也指出了一些有趣的见解。我们观察到,我们的分类器无法检测到药物颜色属性。这可以归因于我们的注释数据集中颜色属性的罕见性,也可以深入了解r/芬太尼subreddit上的人们如何谈论药物属性。我们还观察到,Dilaudid(阿片类镇痛药的品牌名称)在我们的药物名称语料库中缺失以进行去偏倚,这表明药物名称或药物品牌名称的外部来源可用于补充该语料库以增强风险检测的分类性能。我们还包括低风险但被归类为高风险的例子。这两个实例指向我们有意限制的码本,其强调常规用户或高容忍度等因素,并且不注释仅提及使用风险的实例。4.3. 局限性、结论和未来方向我们承认对单一在线社区r/fentanyl的关注所带来的普遍性的一些限制虽然在这项研究中可能会考虑其他关于药物滥用的subreddits,但这个特殊的论坛使我们能够范围包括经常滥用阿片类我们的工作也没有考虑Reddit平台上的潜伏者--浏览和消费内容但不发布的个人;事实上,值得注意的是,表9错误分类的例子。在大多数在线平台上,少数用户产生了大部分内容(Van Mierlo,2014)。鉴于这些问题,我们警告不要得出关于芬太尼滥用行为和风险因素的人口水平趋势的可推广结论。我们研究的第二个局限性是,我们的代码本和风险分类器仅基于文本标记个体帖子或评论的风险,而不是探索自我报告的用户级别风险。此外,我们的码本和分类器可能难以对在其父帖子和周围评论的上下文之外模糊的评论的风险进行分类。此外,我们的药物名称列表不包括每一个可能的药物名称,所以评论“Dilaudid似乎只给我一个匆忙,如果它是我的第一枪的一天。奇怪了不过,Fu-f是水溶性的?”很可能被错误分类,因为阿片类药物“Dilaudid”的品牌名称不在我们的此外,我们的码本是使用两个归纳(例如,回顾R/芬太尼方法)和演绎方法(例如,参考过去关于阿片类药物/芬太尼风险的文献)与关于R/芬太尼的帖子和评论一起使用,因此它可能不会转移到与阿片类药物相关的更一般的在线社区。因此,未来的工作可以根据用户的整个发帖和评论历史来探索用户层面的阿片类药物使用风险。此外,未来的研究可以探索社区特定药物名称随时间推移的出现趋势,以了解特定芬太尼类似物的与此相关的是,尽管我们没有应用风险分类器来自动标记未标记的帖子,S. Garg等人互联网干预26(2021)1004679以及r/fentanyl subreddit中的评论,未来的研究可以这样做,以检查有关芬太尼及其类似物的不同讨论中的风险普遍性,并研究它们如何随着时间的推移而演变。还值得在更大的样本中利用类似的可获得和安全的技术,收集更多丰富的定性数据,并扩大人口及其特定成员这将确保有针对性的有效措施,并提供给最需要的人通过使用跨学科方法,包括机器学习技术和关于芬太尼及其类似物滥用的临床人类编码帖子/评论,我们的团队能够自动检测风险并识别可能从物质使用支持和干预中受益的用户。这项工作提高了我们对药物滥用风险因素的理解,并进一步提高了我们在代表性不足的人群中确定此类风险概念的能力,以告知针对这一风险群体的外联和干预战略。这项研究的发现不仅有助于创造新的,有效的方法来识别芬太尼滥用的高风险人群,而且还可以为未来的研究提供信息,旨在开发和调整类似的模型,以促进及时检测其他物质的使用和精神健康风险因素。竞争利益作者没有利益冲突需要报告。确认这项工作的资金由美国国立卫生研究院(NIH)提供[批准号:K02 DA 043657(Cavazos-Bogg博士)和批准号:R 01 MH 117172(De Choudhury博士)],并通过博士后奖学金向James S.麦克唐纳基金会。我们还要感谢Vivian Agbonavbare和Nnenna Anako为这项研究手动编码帖子和评论所做的工作。引用阿克顿,J.P.,1973.评估公共项目以拯救生命。Alambo,A.,Padhee,S.,班纳吉,T.,Thirunarayan,K.,2021年1月Reddit上的Covid-19和精神健康/物质使用障碍:纵向研究。国际模式识别会议(International Conference on Pattern Recognition)Springer,Cham,pp. 20比27Amlani,A.,McKee,G.,Khamis,N.,Ragh
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 新代数控API接口实现CNC数据采集技术解析
- Java版Window任务管理器的设计与实现
- 响应式网页模板及前端源码合集:HTML、CSS、JS与H5
- 可爱贪吃蛇动画特效的Canvas实现教程
- 微信小程序婚礼邀请函教程
- SOCR UCLA WebGis修改:整合世界银行数据
- BUPT计网课程设计:实现具有中继转发功能的DNS服务器
- C# Winform记事本工具开发教程与功能介绍
- 移动端自适应H5网页模板与前端源码包
- Logadm日志管理工具:创建与删除日志条目的详细指南
- 双日记微信小程序开源项目-百度地图集成
- ThreeJS天空盒素材集锦 35+ 优质效果
- 百度地图Java源码深度解析:GoogleDapper中文翻译与应用
- Linux系统调查工具:BashScripts脚本集合
- Kubernetes v1.20 完整二进制安装指南与脚本
- 百度地图开发java源码-KSYMediaPlayerKit_Android库更新与使用说明
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功