没有合适的资源?快使用搜索试试~ 我知道了~
Fumeus: Python文本挖掘工具生成烟雾术语,用于排名和排序数据集
软件影响12(2022)100270原始软件出版物Fumeus:一系列用于使用smoke术语进行文本挖掘的Python工具David M.放大 图 片 作 者:Richard J.放大 图 片作者:Alan S.Abrahams caSan Diego State University,5500 Campanile Drive,San Diego,CA 92182,UnitedStates of AmericabRadford University,P.O. Box 6954,Radford,VA 24142,美国弗吉尼亚理工大学880 West Campus Drive,Blacksburg,VA 24061,美国自动清洁装置保留字:文本挖掘信息检索机器学习决策支持产品安全A B标准从大量文本数据集中合成有意义的见解是复杂和具有挑战性的。对于稀疏目标类,该任务尤其困难。最近的工作提出了“烟雾术语”,或机器学习的单词和短语在目标类中流行。烟雾术语可以用于对文本进行排名或排序,或者它们可以作为后续机器学习模型的特征。本文介绍了Python家族Fumeus,基于烟雾术语分析工具。我们提供了生成新的烟雾术语和使用现有的 吸烟术语字典排名或排序数据集。这些分析有许多学术,监管和行业应用。代码元数据当前代码版本v1用于此代码版本的代码/存储库的永久链接https://github.com/SoftwareImpacts/SIMPAC-2022-19可再生胶囊的永久链接https://codeocean.com/capsule/5287429/tree/v1法律代码许可证MIT许可证使用的代码版本控制系统使用Python的软件代码语言、工具和服务编译要求、操作环境和依赖性Natural Language Toolkit(NLTK)、Beautiful Soup(BS4)、Chardet如果可用,请链接到开发人员文档/手册https://github.com/fumeus/fumeus问题支持电子邮件fumeus@protonmail.com1. 介绍在线媒体和电子口碑的发展使得能够收集丰富的文本数据。然而,尽管文本数据集在创造价值方面具有巨大的潜力,但其数量给寻求综合见解的决策者带来了困难。信息系统文献将这个问题称为从这些数据集中获得可消化的见解仍然是一个具有挑战性的问题,也是正在进行的研究工作的主题最近的几部作品提出使用“烟雾术语”来应对这一挑战。烟雾术语是指在感兴趣的目标类别中特别普遍,而在其他方面则不常见。该方法源于从在线消费者评论中挖掘产品缺陷相关信息的研究工作[4,5]。与缺陷相关的讨论对于行业和监管决策者来说非常有价值,但它们非常稀少,因此手动审查文本是不切实际的。行业特定的烟雾术语,如 由于最近的努力还将该方法从产品相关投诉扩展到医院服务[12]和金融服务[13,14]等领域。比较分析发现,当试图检测稀疏目标类别时,烟雾术语通常表现出开箱即用的方法,例如情感分析[6,10,15对几个应用程序的比较分析发现,深度学习单词本文中的代码(和数据)已由Code Ocean认证为可复制:(https://codeocean.com/)。更多关于生殖器的信息徽章倡议可在https://www.elsevier.com/physical-sciences-and-engineering/computer-science/journals上查阅。*通讯作者。电子邮件地址: dgoldberg@sdsu.edu(D.M. Goldberg),rgruss@radford.edu(R.J. Gruss),abra@vt.edu(A.S.亚伯拉罕)。https://doi.org/10.1016/j.simpa.2022.100270接收日期:2022年2月18日;接收日期:2022年2月22日;接受日期:2022年3月9日2665-9638/©2022作者。由Elsevier B.V.出版。这是一篇开放获取的文章,使用CC BY许可证(http://creativecommons.org/licenses/by/4.0/)。可在ScienceDirect上获得目录列表软件影响杂志 首页:www.journals.elsevier.com/software-impactsD.M. Goldberg,R.J.Gruss和A.S.亚伯拉罕软件影响12(2022)1002702嵌入模型[13,14]。然而,烟雾条款的一个实质性的优势,这些模型是他们的可解释性。而不是一个‘‘Interpretable artificial intelligence’’ hasbeen an emerging area in the literature in recent years [[19]发现缺乏可解释性的模型面临采用障碍。在本文中,我们提出了一个新的Python工具家族,用于烟雾术语分析,称为Fumeus(拉丁语为Fumeus为众多学术、政府和行业文本分析应用程序提供丰富的烟雾术语分析2. 软件描述Fumeus有两种形式。首先,我们提供Python源代码,以便研究人员和从业人员可以直接利用它进行分析。这些Python脚本可以集成到现有的工作流程中,为新的应用程序构建,或适应进一步的实验。其次,我们还提供了一个Web图形用户界面(有关详细信息,请参阅FumeusGitHub页面),它允许用户执行相同的分析,而无需直接参与Python源代码。缓存文件在使用后会被删除,设置和结果都不会被缓存,从而保持分析的机密性。Fumeus提供两个核心功能:烟雾术语生成和烟雾术语评分。2.1. 烟项生成Fumeus的第一个核心功能是为任意文本数据集生成烟雾术语。支持三种长度的烟雾术语:一元词(单词)、二元词(两个单词的短语)和三元词(三个单词的短语)。此外,支持四个信息检索指标来导出烟雾术语:Fumeus通过cho-sen度量返回得分最高的smoke术语的列表以及返回的smoke术语的相应得分。在所有指标中,得分最高的吸烟术语在目标类与对比(非目标)类中具有最高的相对流行率(根据该指标)。参见Goldberg和Abrahams [10]对这种方法的详细讨论。图1示出了烟项生成过程的示意图。结果按所选信息检索指标降序排序,并以逗号分隔值(CSV)或JavaScript对象表示法(JSON)格式提供。 图图2显示了使用示例数据集和输出的Fumeus生成烟雾项的示例。3. 影响Fig. 1. 烟雾术语生成过程。2.2. 烟雾术语评分Fumeus的第二个核心功能是计算看不见的记录(文本叙述)的基于烟雾术语的分数。执行此分析需要文本数据集和加权烟雾术语词典。烟雾术语词典可以是Fumeus的烟雾术语生成的直接输出,或者替代的烟雾术语词典(诸如情感词典)可以被替代地利用。在计算基于smoke术语的分数时,每次出现smoke术语都会使分数增加其权重,然后按降序对记录进行排序。正如Goldberg和Abrahams [10]所讨论的,在一个子步骤中,这个分数可以通过字数来标准化,以避免偏向较长的记录。然而,正如几项研究所发现的[10,14],这种归一化不一定会提高性能,因此Fumeus不执行这种归一化。Fumeus返回每条记录的非标准化分数以及每条记录中找到的所有烟雾术语的列表。结果按未规范化的分数降序排序,并以逗号分隔值(CSV)或JavaScript对象表示法(JSON)格式提供 图图3示出了烟雾术语评分的过程,其中包括示例数据集、字典和输出。3.1. 烟雾术语在文本挖掘中的应用所生成的烟雾术语和相应的权重对于文本分析有一些研究直接使用烟雾术语来对记录进行排名或排序[4-然后,记录可以按此分数以降序排列,其中高分记录最有可能属于目标类。在本申请中,烟雾项模型不作为分类器,而是决策者的优先化工具。决策者可以手动评估最可能相关的最高等级记录,并且继续以降序读取,直到他们评估他们已经用尽了有价值的记录。在过去的工作中,已经使用了诸如归一化贴现累积增益[21]之类的方法来评估这些排名的质量[9]。以前的作品也表明,烟雾术语可能是程式化的(粗体,突出显示等)。在每个记录中,将模型的内部工作传达图4显示了一个示例应用程序,其中开发了烟雾术语来识别安全隐患D.M. Goldberg,R.J.Gruss和A.S.亚伯拉罕软件影响12(2022)1002703图二. 烟雾术语的产生。图三. 烟雾术语评分。见图4。 基于smoke术语的界面示例。[10]第10话烟雾术语用红色、粗体和下划线强调。强调的烟雾术语不是专门向决策者展示每个评论都涉及安全隐患的信心(例如,使用深度学习单词嵌入模型),而是通过展示模型的原理来提高可解释性烟雾术语的进一步使用是作为后续机器学习模型中的特征。由于大型语料库包含许多独特的n-gram,因此维数降低是基于文本的机器学习模型的重要问题[22]。权重最高的烟雾项可能是强预测因子,因此它们可以用于降低文本的维度并为机器学习模型提供合适的向量。Brahma等人[13]和Goldberg等人[14]都为此目的使用了烟雾术语,并且都发现后续机器学习模型接近深度学习单词嵌入模型的准确性。其他研究使用启发式方法微调候选烟雾术语以最大化精度[9,10,16]。3.2. 应用领域和今后的工作从历史上看,烟雾术语的主要应用是识别在线讨论中提及的产品缺陷,例如消费者评论或其他讨论论坛[4在这一背景下,提及产品缺陷是相对少见的,而烟雾术语提供了一种对记录进行排序的方法,以帮助决策者进行评审。这项研究的一个子集侧重于更具体的安全缺陷目标类别,这些缺陷对决策者来说同样具有很高的价值,但在在线媒体中却非常稀少[7,10,23]。其他应用包括医院服务[12]和金融服务[13,14]。Fumeus在各种领域都有未来的应用。例如,Fumeus可用于使用医疗记录进行预测分析。医生记录中的吸烟术语可以被生成以预测不良健康结果,从而构建未来并发症的早期预警系统。或者,Fumeus也可以应用于挖掘恐怖聊天,其中目标类在大型数据集中可能非常稀疏。烟项可以显著降低数据的维度,然后使决策者能够考虑记录的短名单进行更仔细的分析。竞合利益作者声明,他们没有已知的竞争性财务利益或个人关系,可能会影响本文报告的工作D.M. Goldberg,R.J.Gruss和A.S.亚伯拉罕软件影响12(2022)1002704引用[1]P.J.丹宁,ACM主席的信:电子垃圾,Commun。ACM 25(3)(1982)163-165。[2] S.R. Hiltz,M. Turoff,构建计算机中介通信系统以避免信息过载,Commun。ACM28(7)(1985)680[3] P. Hemp,信息过载导致的死亡,Harv。总线Rev. 87(9)(2009)83[4] A.S. Abrahams,J. Jiao,W. Fan,G.A. Wang, Z.张,在这嗡嗡的暴风雪中有什么在嗡嗡作响?社交媒体帖子中的汽车部件隔离,Decis。55(4)(2013)871-882。[5] A.S. Abrahams,J. Jiao,G.A. Wang,W. Fan,来自社交媒体的车辆缺陷发现,Decis。支持系统54(1)(2012)87[6] 穆马拉内尼河Gruss,D. M. Goldberg,J.P. Ehsani,A.S. Abrahams,婴儿床质量监控和安全危害检测的社交媒体分析,Saf。Sci. 104(2018)260-268。[7] M. Winkler,A.S.亚伯拉罕河Gruss,J.P. Ehsani,在线评论的玩具安全监督,Decis。支持系统90(2016)23[8] D.Z.亚当斯河Gruss,A.S. Abrahams,从在线评论中自动发现关节肌肉疼痛缓解治疗的安全性和有效性问题&,国际期刊。Med.Inf. 100(2017)108-120.[9] D.M.戈德堡,S。汗北Zaman,R.J. Gruss,A.S. Abrahams,使用在线媒体进行上市后食品安全监督的文本挖掘方法,风险分析。(2020年)。[10] D.M. Goldberg , A.S. Abrahams , A tabu search heuristic for smoke termcurationinsafety defect discovery,Decis。支持系统105(2018)52[11]D.劳河Gruss,A.S.亚伯拉罕,自动缺陷发现洗碗机电器从网上消费者评论,专家系统。Appl. 67(2017)84[12] N. Zaman,D.M. Goldberg,A.S. Abrahams,R.A. Essig,Facebook医院评论:自动服务质量检测和与患者满意度的关系,Decis。Sci. 52(6)(2021)1403-1431。[13] A. Brahma,D.M. Goldberg,N.扎曼,M。Aloiso,从文本对话中自动检测抵押贷款起源延迟,Decis。支持系统140(2021)113433.[14] D.M. Goldberg,N.扎曼A. Brahma,M. Aloiso,抵押贷款关闭延迟风险可预测吗?一个预测分析使用文本挖掘的讨论线程,J。Assoc. INF. Sci. Technol. (2021年)。[15] A.S. 亚 伯 拉 罕 , W. Fan , G.A. Wang , Z. Zhang , J. Jiao , An integrated textanalysisframework for product defect discovery , Prod. 操 作 员 管 理 。 24 ( 6 )(2015)975-990。[16] D.M. Goldberg,A.S.亚伯拉罕,从在线评论中获取产品创新情报,Decis。支持系统(2022年)。[17]N. Zaman,D.M.Goldberg,R.J.Gruss,A.S.Abrahams,S.Srisawas,P.瑞瑟姆M.M.从在线评论中发现跨类别缺陷:用特定类别的语义补充情感,Inf.2006。系统前面(2021)1[18] C. Rudin , Stop explaining black box machine learning models for highstakesdecisions and use interpretable models instead,Nat. Mach.内特尔1(5)(2019)206-215.[19] S. Sachan,J.- B.杨,D.- L. Xu,D.E. Benavides,Y.李,一个可解释的人工智能决策支持系统,以自动化贷款承销,专家系统应用。144(2020)113100。[20] W.范博士 Gordon,P.Pathak,EffectiveProfilingofConsumerInformationRetrieval Needs:A Unified Framework and Empirical Comparison,Decis. 40(2)(2005)213-233。[21] K. Järvelin,J. Kekäläinen,基于累积增益的红外技术评估,ACMTrans. INF. 系统20(4)(2002)422[22] H.作者:Kim,P.帕克,北基于支持向量机的 文 本 分 类 方 法 研究. 马赫学习. Res. 6(1)(2005)。[23] L. 纳 斯 里 , M 。 巴 格 萨 德 河 Gruss , N.S.W. Marucchi , A.S. Abrahams , J.P.Ehsani,对在线视频作为安全危害报告来源的调查,J. Saf。Res.65(2018)89-99.
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- zigbee-cluster-library-specification
- JSBSim Reference Manual
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功