没有合适的资源?快使用搜索试试~ 我知道了~
MoreThanSentiments:文本挖掘软件包及其在会计分析中的应用
软件影响15(2023)100456原始软件出版物MoreThanSentiments:一个文本分析软件包Jinhang Jianga,Karthik SrinivasanbaWalmartInc.,702 SW 8th St.Bentonville,AR 72716,United Statesb堪萨斯大学,国会大厦联邦大厅,4143室,劳伦斯,KS 66045,美国A R T I C L E I N F O保留字:文本挖掘自然语言处理信息提取文本复杂性衡量指标商业分析会计A B标准近年来,由于信息检索和机器学习方法的进步,大型数据集上的文本挖掘已经获得了实用性和普及性。然而,流行的文本挖掘软件包主要集中在情感分析或语义提取,需要对大量的文本数据进行预训练。相比之下,MoreThanSentiments提供了较新的文本归因度量的计算,包括锅炉分数,特异性,冗余和硬信息,这些都是在会计分析文献中提出的。我们的软件包采用Python语言,参数设置灵活,可适应不同的应用。通过这个包,我们试图简化部署非平凡的信息提取技术的过程中发表的特定领域的文本分析研究领域不可知的分析应用程序。代码元数据当前代码版本V 0.2.0用于此代码版本的代码/存储库的永久链接https://github.com/SoftwareImpacts/SIMPAC-2022-293可复制胶囊的永久链接https://codeocean.com/capsule/3686195/tree/v1法律代码许可证BSD 3条款许可证使用Git的代码版本控制系统使用Python的软件代码语言、工具和服务编译要求、操作环境和依赖关系tqdm(4.59.0)、spacy(3.3.0)、pandas(1.2.4)、nltk(3.6.1)如果可用,请链接到开发人员文档/手册https://github.com/jinhangjiang/morethansentiments/blob/main/README.md技术支持邮箱Jinhang. walmart.com1. 动机和意义自然语言处理作为数据挖掘的主要方法之一,在过去的几十年里得到了广泛的发展,并在许多研究领域得到了应用。研究人员已经付出了大量的努力来研究-通过利用信息提取和检索技术来处理非结构化文本数据。使用预先训练的模型,例如TextBlob [1]或VADER [2]提供的情感分析模型,用户可以部署强大的模型,以更少的训练时间和资源来处理这些任务。最近的研究还提出了更新的方法,例如来自变压器的双向编码器表示(BERT)[3],用于提取短信了然而,Python和R中现有软件包的文本特征要么使用预先训练的高性能模型,导致无法直接解释的特征,要么提出解释文本内容性质的范围有限的特征。情感分析软件通常提供文本中表达的极性或聚合消极/积极情感。文本分析软件如py-readability-metrics提供了一些指标,包括Gunning Fog、SMOG和Flexh-Kincaid,这些指标专注于识别文本的可读性。另一方面,深度学习方法已被用于将较长的文本总结成简短的段落[4]。MoreThanSentiments [5]的动机是这样一个事实,即用户渴望寻求更重要的方法来量化文本,本文中的代码(和数据)已由Code Ocean认证为可复制:(https://codeocean.com/)。更多关于生殖器的信息徽章倡议可在https://www.elsevier.com/physical-sciences-and-engineering/computer-science/journals上查阅。∗ 通讯作者。电子邮件地址:Jinhang. walmart.com(J. Jiang),karthiks@ku.edu(K.Srinivasan)。https://doi.org/10.1016/j.simpa.2022.100456接收日期:2022年12月8日;接收日期:2022年12月12日;接受日期:2022年12月13日2665-9638/©2022作者。由Elsevier B.V.出版。这是一篇开放获取的文章,使用CC BY许可证(http://creativecommons.org/licenses/by/4.0/)。可在ScienceDirect上获得目录列表软件影响杂志 首页:www.journals.elsevier.com/software-impactsJ. Jiang和K.Srinivasan软件影响15(2023)1004562W总结一下课文的结构。目前,该软件包支持以下文本复杂性度量:样板[6],信息量的度量; Redemption [7],有用性的度量; Specificity [8],与特定主题唯一相关的质量的度量;和相对流行度[9],硬信息的度量。这个与领域无关的包可以很容易地在各种项目中实现文本量化任务。此外,我们希望这个包中的新功能可以作为不同下游工作的推动者。2. 软件描述在本节中,我们将讨论MoreThanSentiments的功能,然后是主要功能的演示2.1. 软件构架MoreThanSentiments是用Python实现的。目前,它由一个支持所有功能的主要模块组成:• 读取原始文本。将数据格式化为pandas框架• 清理和预处理文本语料库• 计算样板、冗余、特异性、相对流行率2.2. 软件功能样板是一组单词(例如,在文本分析中,可以从语句中省略而不改变其语义含义。换句话说,它是对信息量的衡量。锅炉分数[6]是通过比较使用样板语言的句子数量与单词总数来确定的。因此,锅炉分数越高,给定语料库的信息量越低。要识别样板,用户首先需要设置长度。默认值为四个单词,即四字母组。然后将扫描整个语料库,并将每个文档的样板频率(https://pypi.org/project/MoreThanSentiments/).我们用来实验的数据集是BBC商业新闻数据集[10]。下面的代码演示了如何读取原始文本数据对于数据清理函数(“clean_data”),我们提供以下选项:• lower:把所有的单词都写下来• 标点符号:删除语料库中的所有标点符号• number:删除语料库中的所有数字• unicode:删除语料库• stop_words:删除语料库中的停用词下面的代码演示了如何计算锅炉得分。它需要应用于整个语料库,而不是单个文档。被抓默认情况下,只有至少在五个文件和不到75%的文件总数将用于计算锅炉得分。频率阈值用作偏置控制。样板的公式如下:对于样板文件=WsDWs是有样板的句子的字数Wd是整个文档的字数(一)• input_data:此函数需要标记化的文档。• n:要使用的ngrams的数量默认值为4。• min_doc:在构建ngram列表时,忽略文档频率严格低于给定阈值的ngram。语料库的冗余度表明了语料库的有用程度。它是真正的大句子或短语的比例(例如,10克),在给定文档中出现不止一次。如果一个超长的语句或短语被重复使用,这意味着作者试图强加重复的信息。因此,这条信息应标记为无用。与样板文件类似,Reddit值越高,给定的语料库就越没有用。具体性是衡量与特定主题具体相关的能力。它被描述为特定实体名称、数值和时间/日期的数量,由一份文件目前,spaCy的命名实体识别器是Specificity函数的基础给定语料库的硬信息用相对流行度来度量。它将数值的数量与文本的总长度进行比较。它有助于评估特定文本中的定量数据量。3. 说明性实例在本节中,我们将举例说明MoreThanSen- timents的三个用法示例。如需完整的使用指南,请参阅图书馆文件-老了默认值为5个文档。文件数量的30%建议。当参数以小数形式给出时(例如,0.3),将其作为百分比读取• get_ngram:如果此参数设置为4. 影响我们提出的软件包包含的功能,可以在多个学科进行有益的研究,包括但不限于会计,金融,信息系统,市场营销,管理科学,信息科学,应用计算机科学和应用语言学。例如,财务披露的锅炉分数可以表明公司倾向于采用其他公司的常用短语或重复使用以前披露的声明的程度。关于样板文件,具体性和硬信息的披露报告行为的趋势可以帮助理解披露脚本在公司形象,业绩和市场行为中的作用。另一个检查Specificity、Boilerplate和Reddit的J. Jiang和K.Srinivasan软件影响15(2023)1004563可能是预先编写的机器人对客户查询的响应的影响。机器人响应的哪些文本特征最受最终用户的赞赏,以及它如何有助于解决问题,这可能是一个有趣的研究问题。第三个潜在的应用是垃圾邮件与普通电子邮件的文本特征的比较。人们可以预期,锅炉分数为常规电子邮件可能会远远低于锅炉分数为垃圾邮件,因为这些电子邮件往往倾向于使用共同的“关键”短语面向恐惧和点击诱饵的最终用户。虽然像样板和Reddit这样的指标在会计文献中被广泛使用[6我们的软件代码已从GitHub存储库中广泛下载。因此,我们决定将代码转换为软件包,以便于使用和程序可复制性。5. 结论我们提出了一个新的软件包称为MoreThanSentiments,其中包括一个列表的文本特征。我们通过python软件包提供的文本功能在其他地方无法作为通用应用程序的可复制代码或软件。这些特征源于会计分析学科的多项研究,这些研究侧重于收集有关公司财务披露的各种可量化信息。我们使这些定量功能可用于通用的应用程序,通过允许的灵活性,使用简单的功能与用户定义的参数生成的功能。我们的软件包有利于文本字符化超越情感分析,计数的话,计算可读性。未来的发展将集中在前,在它可以计算的文本属性度量方面扩展它的能力[12-这将涉及继续改进基本的机器学习算法和信息检索方法,并纳入用户反馈,以确保软件满足广泛用户的需求。 通过提供一个灵活且易于使用的大型数据库文本挖掘包,MoreThanSentiments有可能成为各个领域研究人员和从业者竞合利益作者声明,他们没有已知的竞争性财务利益或个人关系,可能会影响本文报告的工作引用[1]S.Lorla,TextBlob文档版本0.16.0,TextBlob,2020,textblob.readthedocs.io/en/dev/。[2]C.J.E. Hutto , VADER Gilbert , A Parsimonious Rule-based Model for , EighthInternational AAAI Conference on Weblogs and Social Media , 2014 , p. 18 ,https://www.aaai.org/ocs/index.php/ICWSM/ICWSM14/paper/viewPaper/8109.[3] J.德夫林,M.- W. Chang,K.李,K. Toutanova,BERT:深度双向转换器语言理解的预训练,2018,http://arxiv.org/abs/1810.04805。[4]M.优素福-阿扎尔湖Hamey,使用无监督深度学习的文本摘要,Exp。68(2017)93 http://dx.doi.org/10.1016/j.eswa.2016。十点零七分[5] J.Jiang,K.Srinivasan,MoreThanSentiments,2022,http://dx.doi.org/10.5281/zenodo.6853351.[6] M. 朗湖,澳-地 文本分析与国际财务报告:大样本证据,J。帐户. 经济60(2015)110http://dx.doi.org/[7] R.A. Cazier,R. J. Pfeiffer,10-K披露重复和管理报告激励,J.Financial Rep. 2(2017)107http://dx.doi.org/10.2308/jfir-[8]O.-- K.霍普,D. Hu,H. Lu,特定风险因素披露的好处,Rev. Account。Stud.21(2016)1005-http://dx.doi.org/10.1007/s11142-016-[9]E. Blankespoor,信息处理成本对公司披露选择的影响:来自XBRL授权的证据,J.Account。Res. 57(2019)919[10] D. Greene,P. Cunningham,对核心文档聚类中对角优势问题的实际解决方案,ACMInt.Conf.Proc.Ser.148(2006)377http://dx.doi.org/10.1145/1143844.1143892[11] S. Pu,K. Srinivasan,AIS电子图书馆(aisel)是项目叙事属性指示的预购活动在众筹平台上的成功?-文本挖掘方法是指示众筹平台上的预购活动成功的项目叙述属性,在:MWAIS2022PROCEEDINGS,2022中。[12] A.K. 戴 维 斯 , J.M. Piger , L.M. Sedor , Beyond the numbers : Measuring theinformation content of earnings press release language,Contemp。帐户. Res. 29(2012)845http://dx.doi.org/10.1111/j.1911-3846.2011.01130[13] F. Li,企业文件中前瞻性陈述的信息内容-朴素贝叶斯机器学习方法,J.Account。Res. 48(2010)1049http://dx.doi.org/10.1111/j.1475-679X.2010.00382[14] S. V. Brown , J.W. Tucker , 大 样 本 证 据 对 公 司 Res. 49 ( 2011 ) 309http://dx.doi.org/10。j.1475-679X.2010.00396。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- zigbee-cluster-library-specification
- JSBSim Reference Manual
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功