没有合适的资源?快使用搜索试试~ 我知道了~
软件影响13(2022)100333原始软件出版物2020年美国总统大选期间用于Twitter机器人检测的可解释机器学习管道Alexander Shevtsova,c,ChriyanTzagkarakisa,Despoina Antonakakia,SotirisIoannyanb希腊研究与技术基金会计算机科学研究所b希腊克里特技术大学电气与计算机工程学院c希腊克里特大学计算机科学系自动清洁装置保留字:机器学习Twitter bot检测模型可解释性A B标准这项研究介绍了一种新颖的,可重复使用的Twitter机器人识别系统。 该系统使用机器学习(ML)管道,从Twitter语料库中提取了数百个特征。建议的ML管道的主要目标是训练和验证不同的最先进的机器学习模型,其中选择了极端梯度提升(XGBoost)模型,因为它实现了最高的检测性能。Twitter数据集是在2020年美国总统选举期间收集的,对不同Twitter数据集的额外实验评估证明了我们的方法在高机器人检测准确性方面的优越性。代码元数据当前代码版本v1用于此代码版本的代码/存储库的永久链接https://github.com/SoftwareImpacts/SIMPAC-2022-77可再生胶囊的永久链接https://codeocean.com/capsule/3418007/tree/v1法律代码许可证MIT许可证使用GitHub的代码版本控制系统使用Python、sci-kit learn、Twitter API、Botometer API、BotSentinel的软件代码语言、工具和服务编译要求,操作环境依赖性Python 3需要以下库:sklearn,imblearn,xgboost,shap,numpy,pandas,matplotlib,ast如果可用,链接到开发人员文档/手册https://github.com/alexdrk14/USBotDetection问题支持电子邮件shevtsov@ics.forth.gr1. 介绍本文介绍了“基于可解释的机器学习框架识别Twitter机器人:美国2020年选举案例研究”中介绍的方法的设计和实现我们探讨的影响,实现机器人检测系统,在一个可复制和可重复使用的计划,可以利用的研究社区。所提供的机器学习(ML)管道被摄取了从所收集的Twitter语料库,用于训练和验证不同的最先进的ML模型。基于机器人检测准确性,通过各种指标测量,例如精确度-召回曲线下的面积(PR-AUC),接收器操作曲线(ROC-AUC)和F1分数,选择极限梯度我们的 研究 还 伴随 着 一个 可 解释 性 模块 ,通 过 采用Shapley 加 法解 释(SHAP)方法来解释ML模型预测。Twitter数据集是在2020年美国总统选举期间收集的,本文中的代码(和数据)已由Code Ocean认证为可复制:(https://codeocean.com/)。更多关于生殖器的信息徽章倡议可在https://www.elsevier.com/physical-sciences-and-engineering/computer-science/journals上查阅。通讯作者:计算机科学研究所,研究和技术基金会-希腊。电子邮件地址:shevtsov@ics.forth.gr(A. Shevtsov),tzagarak@ics.forth.gr(C. Tzagkarakis),despoina@ics.forth.gr(D. Antonakaki),sotiris@ece.tuc.gr(S.Ioannovich)。https://doi.org/10.1016/j.simpa.2022.100333接收日期:2022年6月2日;接受日期:2022年2665-9638/©2022作者。由Elsevier B.V.出版。这是一篇开放获取的文章,使用CC BY许可证(http://creativecommons.org/licenses/by/4.0/)。可在ScienceDirect上获得目录列表软件影响杂志 首页:www.journals.elsevier.com/software-impactsA. 舍夫佐夫角Tzagkarakis,D.Antonakaki等人软件影响13(2022)100333图1.一、开 发 的管道:(a)地面实况标记过程和(b)使用K折交叉验证的ML模型调整。对不同Twitter数据集的额外实验评估证明了我们的方法在高bot检测准确性方面的优越性。在这项工作中,我们在收集的大型数据集上构建了一个ML系统,以检测机器人Twitter帐户。目前的研究为以下研究问题提供了答案:• 是否有可能实施和微调基于ML的机器人检测模型,以有效地将其应用于美国2020年选举数据集?• 可以从Twitter应用程序编程接口(API)中提取哪些类型的功能来提高性能?• 提出的ML模型是否充当黑盒子,或者ML模型的机制是否可以该数据集是公开的,以及实现的ML管道,可以在其他领域进行调整和采用。2. 方法为了回答这些问题,我们首先解决以下问题:数据采集,地面真实机器人标记和准确的机器人检测器开发。朝着这个方向,我们通过Twitter API收集了一个Twitter数据集,在那里我们缩小了对2020年美国总统选举主题的搜索范围。为此,我们手动识别美国大选期间最受欢迎的标签,并从2020年9月1日至2020年11月Twitter API不提供任何标签信息,无论帐户是否是机器人,因此应考虑帐户标签方法。此外,Twitter API能够将帐户识别为机器人并将其暂停。但是,我们无法在数据采集阶段提前检索此信息。Twitter的暂停机制是地面实况标签的一个例子此外,用户暂停并不总是反映一个帐户是否是机器人的明确证据,因为该帐户可能因违反规则而被暂停。为了解决这个问题,我们开发了一个地面实况标记过程,如图所示。1.一、在标记过程中,我们利用两个现成的基于ML的机器人检测工具。我们结合了两种工具的检测结果(即,Botometer1和BotSentinel2)通过多数表决,只保留相似的标签。这个过程使我们能够减少噪音和漏标现象,因为现有的工具都没有达到100%的准确性。所开发的方法提供了地面真实标签,并将计算时间从650天大幅减少到仅18天。接下来,开发了一个ML管道,该管道以CSV文件的形式将多个数字用户特征作为输入一系列步骤(即,特征选择,通过K折交叉验证进行超参数调整,选择1https://botometer.osome.iu.edu/。2https://botsentinel.com/info/about。2ML模型性能评估)来检测Twitter帐户是否是机器人,并通过SHAP3方法解释分类结果。实现的ML流水线可以用于额外的分类任务(不仅限于机器人检测),甚至在多类分类任务中,因为它提供了一个单独的微调模型配置,可以针对任何其他用例进行修改。由于我们的方法可以提供模型微调和性能测量的自动化管道,因此用户不需要3. 影响开发人员和研究人员可以使用所提出的可解释的ML框架来准确地检测Twitter上的机器人帐户,最先进的机器学习模型。Twitter bot检测工具评估最先进的ML模型,优化特征选择和建模步骤及其超参数。通过与现有方法的比较,所提出的实现允许通过提供基于SHAP方法的分类结果的组合解释来检测Twitter机器人帐户。正如我们前面提到的,所提供的软件已经在2020年美国总统选举数据集上使用,获得了高度准确的结果,它已经发表在2022年国际AAAI网络和社交媒体会议(ICWSM)的会议记录中。44. 结论和今后的工作与训练数据部分相比,所提出的机器人检测方法在收集的数据集(在不同时间段收集)上实现了高性能根据F1分数,性能仅降低2%(即,从0.916到0.896)和根据ROC-AUC的0.03%(即,从0.98到0.977)。这些结果表明我们的ML模型具有很高的泛化能力。 作为未来的工作,我们打算在不同时间段获得的训练和测试数据上评估机器人检测性能。竞合利益作者声明,他们没有已知的竞争性财务利益或个人关系,可能会影响本文报告的工作致谢我们要感谢评论者的宝贵意见。本文件是研究项目CONCORDIA(授权号830927)、CyberSANE(授权号833683)和PUZ-ZLE(授权号883540)的成果,这些项目由欧盟委员会与(欧洲委员会通信网络、内容和技术总局)共同资助。3https://shap.readthedocs.io/en/latest/index.html。4https://www.icwsm.org/2022/index.html/。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- 利用迪杰斯特拉算法的全国交通咨询系统设计与实现
- 全国交通咨询系统C++实现源码解析
- DFT与FFT应用:信号频谱分析实验
- MATLAB图论算法实现:最小费用最大流
- MATLAB常用命令完全指南
- 共创智慧灯杆数据运营公司——抢占5G市场
- 中山农情统计分析系统项目实施与管理策略
- XX省中小学智慧校园建设实施方案
- 中山农情统计分析系统项目实施方案
- MATLAB函数详解:从Text到Size的实用指南
- 考虑速度与加速度限制的工业机器人轨迹规划与实时补偿算法
- Matlab进行统计回归分析:从单因素到双因素方差分析
- 智慧灯杆数据运营公司策划书:抢占5G市场,打造智慧城市新载体
- Photoshop基础与色彩知识:信息时代的PS认证考试全攻略
- Photoshop技能测试:核心概念与操作
- Photoshop试题与答案详解
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功