没有合适的资源?快使用搜索试试~ 我知道了~
用机器学习自动识别Twitter IPV报告的研究:模型开发和分析
阵列15(2022)100217用于自动识别TwitterMohammed Ali Al-Garadia,*,Sangmi Kimb,Yuting Guo a,Elise Warren c,Yuan-Chi Yang a,Sahithi Lakamanaa,Abeed Sarker a,da美国佐治亚州亚特兰大市埃默里大学医学院生物医学信息学系b美国佐治亚州亚特兰大市埃默里大学护理学院c美国佐治亚州亚特兰大埃默里大学罗林斯公共卫生学院d美国佐治亚州亚特兰大市佐治亚理工学院和埃默里大学生物医学工程系A R T I C L EI N FO保留字:亲密伴侣暴力家庭暴力自然语言处理社交媒体A B S T R A C T亲密伴侣暴力(IPV)是一个可预防的公共卫生问题,影响着全世界数百万人。据估计,无论年龄、种族和经济地位如何,大约每四名妇女中就有一名在其一生中的某个阶段遭受或曾经遭受严重暴力。受害者经常在社交媒体上报告IPV体验,通过机器学习自动检测此类报告可以改善监控,并有针对性地为有需要的人提供支持和/或干预措施。然而,目前还没有用于自动检测的人工智能系统,我们试图解决这一研究空白。我们使用IPV相关关键字列表从Twitter收集帖子,手动审查检索到的帖子的子集,并准备注释指南将推文分类为IPV报告或非IPV报告。我们总共注释了6,348条推文,在1,834条双重注释的推文中,注释者间一致性(IAA)为0.86(Cohen'skappa)。注释数据集中的类别分布非常不平衡,只有668篇文章(约11%)被标记为IPV-报告。然后,我们开发了一个有效的自然语言处理模型来自动识别IPV报告推文。所开发的模型实现了分类F1-得分为0.76的IPV报告类和0.97的非IPV报告类。我们进行了分类后分析,以确定系统错误的原因,并确保系统在决策过程中不会出现偏见,特别是在种族和性别方面。我们的自动模型可以成为基于社交媒体的主动干预和支持框架的重要组成部分,同时也有助于人群水平的监测和大规模队列研究。1. 介绍亲密伴侣暴力(IPV)是一个可预防的公共卫生问题,影响着全世界数百万人[1]。IPV可以定义为身体或性侵犯,或两者兼而有之,配偶,伴侣,或同居约会夫妇[2,3]。据估计,美国每四名妇女中就有一名在其生命中的某个时刻是或曾经是严重暴力的受害者,无论其年龄、种族和经济地位如何[1]。IPV受害者在短期和长期内遭受身体或精神健康问题,包括伤害,疼痛,睡眠问题,抑郁症,创伤后应激障碍(PTSD)和自杀[4]。生活在暴力中或目睹暴力的家庭成员和儿童也可能经历不利的健康和社会发展问题[5]。值得注意的是,暴露于IPV的儿童更有可能经历抑郁、焦虑、创伤后应激障碍、分离和愤怒[6,7]。身体健康后果包括受伤、性传播疾病、背部和四肢问题、记忆力丧失、头晕和胃肠道疾病。非男性受害者可能会经历不良的生殖结果,包括流产和妇科疾病。从经济角度来看,IPV的近似终生成本为每位女性受害者103,767美元,每位男性受害者23,414美元;人口经济负担在受害者的一生中达到近3.6万亿美元(2014年美元)新数据显示,自COVID-19爆发以来,全球IPV报告有所增加[9]。在美国,与往年相比,许多州和城市在COVID-19早期阶段的IPV报告有所增加[10,11]。联合国秘书长将当前的危机描述为“令人* 通讯作者。电子邮件地址:mohammed.a. vumc.org(M.A. Al-Garadi)。https://doi.org/10.1016/j.array.2022.100217接收日期:2022年1月11日;接收日期:2022年7月1日;接受日期:2022年2022年7月20日在线提供2590-0056/© 2022作者。爱思唯尔公司出版这是一篇基于CC BY-NC-ND许可证(http://creativecommons.org/licenses/by-nc-nd/4.0/)的开放获取文章。可在ScienceDirect上获得目录列表阵列期刊主页:www.sciencedirect.com/journal/arrayM.A. Al-Garadi等人阵列15(2022)100217=归因于强制性封锁或行动限制,以遏制COVID-19的传播[12,13]; IPV受害者在家中与施虐者隔离;伴侣之间的紧张关系加剧,安全,健康和财务担忧(例如,社会经济不稳定和企业倒闭)[12,14]。可持续发展目标是17个相互关联的全球目标的集合,旨在成为传统上,IPV相关数据通过调查和医疗/警察报告收集[17,18]。在COVID-19大流行期间,从这些传统来源获得IPV相关数据变得具有挑战性,因为IPV受害者由于担心感染病毒而不愿去看医疗服务提供者[17,18]。社交媒体网站(SMW),如Twitter和Reddit,可以通过在线收集数据来绕过流行病引起的障碍。全球有超过45亿人使用SMW,其中许多人长期使用SMW [19]。SMW已经成为人们表达思想、情感、意见和讨论日常问题的新的沟通工具,而不受地理位置的限制。在COVID-19疫情及封城期间,法定工作场所已成为许多人SMW可能对IPV受害者特别有用,因为他们倾向于与朋友(64%)和家人(49%)分享他们的敏感信息,但与医疗服务提供者(26%),警察(23%)和庇护所倡导者(20%)较少[21,22]。此外,在过去的研究中,SMW已经被证明是精确地、大规模地(即,大量的观察),匿名,不引人注目,成本低[23,24]。因此,关于IPV的SMW数据和IPV受害者行为的其他数字足迹实时模拟IPV模式并发现潜在风险因素,人口和个体水平[25]。此外,在COVID-19大流行期间,联合国敦促增加对在线技术和民间社会组织的投资,为妇女建立无害的途径,在不通知施虐者的情况下寻求帮助和支持,从而减少家庭暴力[12]。SMW,其中用户可以共享匿名发布,可以作为安全平台相比,其他手段(例如,电话、电子邮件),为IPV受害者提供心理、信息和社会支持。SMW的这些优点可以补充(而不是替代)常规资源(例如,此外,还应加强预防传染性脊髓灰质炎和支助传染性脊髓灰质炎受害者的努力据我们所知,还没有研究使用社交媒体分析(例如,自然语言处理(NLP)、机器学习)来识别SMW上的IPV受害者,以进行监视、预防和/或干预。因此,本研究旨在开发一个基于社交媒体的自动化系统,以通过NLP和机器学习检测和分类Twitter上COVID-19大流行期间的流媒体IPV相关大数据(分为IPV和非IPV案例)1.1. 意义一个有效的NLP管道,包括一个自动机器学习分类器,将有助于开发一个监视系统,用于SMW上的IPV自我报告。这样的管道可用于检测并主动接触大量IPV受害者,同时提供支持,而不是等待他们寻求帮助。此外,该管道将奠定基础,以便可能向SMW的IPV受害者提供基于证据的非接触式干预,以预防IPV,心理健康治疗,赋权和支持[26]。1.2. 贡献我们是第一个收集数据,制定注释指南,然后手动注释大量与IPV相关的推文我们也是第一个开发有效的NLP管道的公司,该管道涉及监督机器学习,可以自动提取和分类与IPV相关的推文。我们提出了一个彻底的分析的分类错误,在不同的训练数据大小的模型性能,因为这个信息可能是至关重要的未来的研究。• 我们提出了一个潜在的偏见和可信度的分析,我们的模型我们描述了在分析过程中所面临的挑战和经验教训,这将有助于未来的研究人员为基于社交媒体的数据设计类似的NLP系统。2. 方法2.1. 数据收集我们使用SMW的公共流媒体应用程序接口(API)从Twitter上收集了与IPV相关的公开英语帖子(推文)我们使用的关键字在补充表S1中提供。我们还使用Python库snscrape收集了2020年1月1日至2021年3月31日期间COVID-19大流行期间的数据2.2. 注释指南四个注释者将每条推文编码为两个类别之一-个人(由受害者自己报告)IPV报告(或IPV)或非IPV报告(或非IPV)。每个推文的这种分类是基于IPV的定义进行的。疾病控制和预防中心将IPV定义为现任或前任亲密伴侣的身体暴力,性暴力,跟踪和心理侵略(包括多种胁迫策略)(即,配偶、男朋友或女朋友、约会伙伴或正在进行的性伴侣)[27]。补充表S2提供了各种IPV的详细信息和示例。确定推文是否是IPV的自我报告的两个必要因素是:(1)提到亲密伴侣是虐待者;(2)提到或描述任何类型的虐待(身体暴力,性暴力,跟踪和心理攻击)或虐待策略。我们在小数据集上迭代地进行注释过程(~200条推文)。在IPV定义和领域专家(SK)的指导下,注释者讨论了早期注释中的分歧,直到达成一致的编码规则。根据最终的注释指南,注释者对用于训练和测试我们的NLP模型的最终数据集(n 6,348)进行了编码。一旦注释者之间达到可靠的一致水平,就开发了黄金标准数据集。一个子集的推文被注释两次或三次,以计算注释者间协议(IAA)。对于双重注释的推文,如果注释者不同意该类,则由独立注释者对推文进行评估,并解决分歧。使用Cohen kappa计算最终IAA2.3. 文本分类模型我们研究了三种不同的方法来构建IPV分类器。我们使用了三种传统的机器学习算法:决策树[29],支持向量机(SVM)[30,31]和神经网络(NN)[32]。我们还尝试了更先进的文本分类算法,包括基于深度学习 的 算 法 , 即 双 向 长 短 期 记 忆 ( BiLSTM ) [33 , 34] 和 两 个 基 于transformer的模型,即双向编码器表示(BERT)[35,36]和鲁棒优化BERT(Roberta)[36]。预处理阶段:在将推文馈送到模型之前,通过删除不需要的单词(例如非英语字符)来清理推文。我们将URL和用户名替换并匿名化,2····M.A. Al-Garadi等人阵列15(2022)100217==-=预定义标签(即,URL和user>)。我们还降低了所有文本。传统的机器学习模型:对于传统的分类器,我们产生了1,000个最频繁的n元语法(n从1到3的相邻单词序列:1),bigrams(n[37]第二节:“三位一体”。文本中的词干标记和小写标记是用于生成n-gram向量。深度学习模型:我们将每个单词转换为相应的单词向量,然后将其输入BiLSTM分类器。对于单词到向量的转换,我们使用了Twitter GloVe单词嵌入,这些单词嵌入是在20亿条推文和270亿个令牌上训练的,其中包括120万个单词的词汇。我们使用了200维向量的未分类GloVe嵌入[38]。基于转换器的模型:我们使用BERT和RoBERTA。预处理的训练推文被馈送到模型中,用于微调IPV分类的模型。超参数和技术细节3.2. 分类结果测试集上的分类器性能如表1所示。每个分类器的准确性和类特定的F1分数报告。最佳性能分类器的混淆矩阵(即,RoBERTa)在图2中示出。如表1所示,BERT模型也获得了具有竞争力的结果。然而,传统的机器学习和深度学习模型表现不佳,特别是对于主要评估指标(IPV-reportF1得分),这些分类器之间没有显著差异。3.3. 学习曲线图3示出了在不同百分比的训练数据(20%、40%、60%、80%、100%)下的学习曲线以及使用见补充表S3。固定测试数据。 总的来说,性能趋于改善,模型训练验证:我们的主要目标是创建一个模型,用于从流媒体Twitter数据中识别IPV推文。我们评估分类器性能的主要指标我们将注释数据集分为训练集(70%)、开发集(10%)和测试集(20%)。我们使用训练数据集来训练模型,使用开发数据集来优化模型超参数,使用测试集来评估和比较分类器性能。2.4. 分类后分析学习曲线分析:我们评估了不同训练数据大小(20%,40%,60%,80%,100%)下的模型性能,以研究每个模型在给定训练百分比下的行为,并评估增加训练数据集是否改善了模型错误分析:为了识别错误分类的潜在原因,我们通过手动分析错误分类的推文子集的内容来偏见分析:一般来说,人类通过关注最重要的词来识别句子的含义。在理解帖子的含义和决定其类别方面,有些词比其他词起着更重要的作用(例如,IPV或非IPV)。我们的目标是检查我们的最佳性能模型所关注的单词,以及哪些单词在做出分类决策时比其他单词更重要。这个过程帮助我们确保开发的模型具有低偏差,值得信赖,并理解模型的错误。为了实现这一目标,我们使用了Captum [40,41]提出的分层集成梯度[39]方法。该方法基于一种称为集成梯度的归因技术[42],该技术使用一种可解释的算法,通过近似模型输出相对于输入的梯度积分来我们以这种方式分析了测试集中5%的帖子的随机样本。3. 结果3.1. 注释和注释者间协议有注释的推文总数为6,348条,分布相当不平衡(非IPV推文:5,680条[~89%]; IPV推文:668条[~11%])。我们通过分层抽样将训练集、验证集和测试集的实例分别划分为70%、10%和20%(训练集4,443,验证集635,测试集1,270)。 的双注释推文(N= 1,834)的平均成对IAA为K0.86(科恩的卡帕[ 28 ]),这可以被解释为一个实质性的协议[ 44 ](见图。①的人。增加训练数据,这是预期的,特别是从20%到80%。只有40%的训练数据集,预训练的模型(即,BERT,RoBERTa)在100%的训练数据集上与传统和深度学习模型表现相似。3.4. 误差和模型分析鉴于RoBERTa模型(表1)与其他模型相比产生了最佳性能,我们将其用于NLP管道并研究了该分类器的错误。对于注释为非IPV报告的推文,很少有非IPV示例被分类为IPV,这反映在非IPV类的F1分数非常高(即,0.97)。然而,在少数情况下,当推文包含用户的间接IPV体验时会发生错误(报告IPV不是亲自体验,而是由其他人体验)。例如,“我的前邻居经常划船。他是一个大个子,过了几天我听到他打她;我的心在我的胸口跳动,我敲了他们的门它阻止了那场战斗 <标签:家庭暴力此外,当推文包含作者在现实世界中没有经历过的假设场景时,非IPV示例被错误地归类为IPV,例如:“这是完全不同的问题。不想要孩子和离婚是不一样的。我可以怀着良好的心态生孩子,但还是会离婚,因为我丈夫会虐待我。”相比之下,对于标注为IPV的推文,当作者的IPV在推文中暗示但不明确时,错误分类经常发生在非IPV推文中。例如,“我讨厌施虐者在头脑中为虐待伴侣辩护。我前夫也会这么做。身体上的伤疤会愈合,但精神上的伤疤会留下。”在这个例子中,提交人没有事先说明她的前伴侣伤害了她的身心。“3.5. 模型行为和偏倚分析我们首先检查了模型的分类结果是否偏向于特定的性别或种族群体。我们之所以关注这一点,是因为最近的许多研究表明,表1传统分类器(决策树,SVM,NN)和高级基于变换的分类器(BERT,RoBERTa)在测试集上的准确度和F1得分。分类器准确度(%)IPV F1评分非IPV F1评分决策树支持向量机93 0.52 0.96神经网络91 0.50 0.95BiLSTM 91 0.44 0.95Transformer(BERT)94 0.70 0.97Transformer(RoBERTA)95 0.76 0.97SVM=支持向量机,NN=神经网络,BiLSTM=双向长短期记忆,BERT=来自变压器的双向编码器表示,RoBERTa=鲁棒优化BERT。3M.A. Al-Garadi等人阵列15(2022)100217图1.一、 展示了 描述开发用于对IPV相关推文进行分类的NLP管道的整个过程的一般框架。表2列出了这一分析的实例我们还根据单词重要性进一步分析了错误分类的推文,以了解模型在分类过程中的重点。我们发现,该模型通常会将重要性分配给对人类注释者无用的单词(表2中提供了一个示例)。例如,在表2中的示例中,模型关注于<
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 新代数控API接口实现CNC数据采集技术解析
- Java版Window任务管理器的设计与实现
- 响应式网页模板及前端源码合集:HTML、CSS、JS与H5
- 可爱贪吃蛇动画特效的Canvas实现教程
- 微信小程序婚礼邀请函教程
- SOCR UCLA WebGis修改:整合世界银行数据
- BUPT计网课程设计:实现具有中继转发功能的DNS服务器
- C# Winform记事本工具开发教程与功能介绍
- 移动端自适应H5网页模板与前端源码包
- Logadm日志管理工具:创建与删除日志条目的详细指南
- 双日记微信小程序开源项目-百度地图集成
- ThreeJS天空盒素材集锦 35+ 优质效果
- 百度地图Java源码深度解析:GoogleDapper中文翻译与应用
- Linux系统调查工具:BashScripts脚本集合
- Kubernetes v1.20 完整二进制安装指南与脚本
- 百度地图开发java源码-KSYMediaPlayerKit_Android库更新与使用说明
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功