没有合适的资源?快使用搜索试试~ 我知道了~
沪公网安备31010502000118号原始软件出版物埃德加:美国的R包SEC EDGAR检索和解析公司文件Gunratan Lonarea, Bharat Patilb,Nilesh Rautca美国北卡罗来纳州夏洛特市北卡罗来纳大学金融系,邮编28223b锡拉丘兹大学金融系,锡拉丘兹,纽约13244,美国c英国伦敦政治经济学院卫生政策系,伦敦WC2A 2AEar t i cl e i nf o文章历史记录:收到2020年2021年8月11日收到修订版,2021年保留字:财务报表文本分析a b st ra ct本文介绍了R软件包edgar下载并分析了美国证券交易委员会美国的公司以电子方式向SEC提交定期报告、注册报表和财务报告。SEC通过电子数据收集、分析和检索系统(EDGAR)向所有人公开这些报告。由于财务报告是金融体系中最重要的方面之一我们总结了edgar软件包的实现,该软件包方便了企业报告的下载、解析、搜索和情感分析。版权所有2021作者。由爱思唯尔公司出版这是CC BY许可下的开放获取文章(http://creativecommons.org/licenses/by/4.0/)中找到。代码元数据当前代码版本V2.0.4用于此代码版本的代码/存储库的永久链接https://github.com/ElsevierSoftwareX/SOFTX_2020_222代码海洋计算胶囊无GPL许可证使用git的代码版本控制系统使用R v3.4的软件代码语言、工具和服务编译要求,操作环境依赖性R Packages:R.utils,tm,XML,stringr,stringi,qdapRegex如果可用开发人员文档/手册的链接RCRANManualanddDocumentationWeblink技术支持电子邮件lonare. gmail.com1. 动机和意义值得注意的是,美国证券交易委员会每个季度都会从美国的公共和私人公司收到数TB的强制性运营和财务报表,通常被称为申报文件U.S.1 下载和分析基本面,会计状态-这些公司的有效发展和未来增长的可能性至关重要。因此,在R统计编程软件中开发的edgar包[10]允许研究人员,从业者和投资者从SEC文件中大规模访问有价值的信息。*通讯作者。电子邮件地址:glonare@uncc.edu(Gunratan Lonare),bpatil@syr.edu(Bharat Patil),n.raut@ lse.ac.uk(Nilesh Raut)。1 SEC要求公司为特定目的提交特定类型的表格列在https://www.sec.gov/forms上。https://doi.org/10.1016/j.softx.2021.100865美国证券交易委员会该平台允许公众将这些文件用于研究、投资和分析目的。然而,EDGAR网络界面一次只允许访问一个文件。为了做出系统的决策,edgar软件包帮助研究人员和分析人员从这些文件中批量检索和解析所需的信息,并执行情感分析。SEC已经改进了其服务器安全性,包括2017年对其Web界面进行了重大更改。 大多数错误开发的软件包都缺乏与升级后的EDGAR存储库的接口。例如,在[8,9]中提到的EDGAR服务器目录的链接不再工作。此外,这些包不提供在单个查询中对多个文件的访问。例如,XBRLR包中的xbrlDoAll函数仅适用于2352-7110/©2021作者。 由Elsevier B.V.出版。这是一篇开放获取的文章,使用CC BY许可证(http://creativecommons.org/licenses/by/4.0/)。可在ScienceDirect上获得目录列表SoftwareX期刊主页:www.elsevier.com/locate/softxGunratan Lonare、Bharat Patil和Nilesh Raut沪公网安备31010502000118号2表1EDGAR采矿平台的比较分析工具平台规格限制EdgarWebR[1]R提供访问SEC- 缺乏批量挖矿功能EDGAR系统- 仅提供元数据和公司信息- 缺乏对重要信息归档的分析- 缺乏本地存储管理OpenEDGAR[2]Python下载文件并提供文件搜索- 缺少解析重要工具来自文件的信息,如文件头、8-K事件,业务描述- 使用外部关系数据库- 需要计算机知识来安装和使用搜索引擎[3]Python提取公司及其子公司名称- 无存储结构从10-K表格- 软件包处于beta阶段- 没有帮助文档python-edgar[4]Python下载每日索引文件- 提供最少的功能- 表格类型- 缺乏正确的错误处理[5]第五章Python下载10-K、10-Q、8-K和13-F表格[6]R- 提供公司的备案信息- 从XBRL年度报告中提取财务报告报告简体中文[CN]R从XBRL中[八]《中国日报》SAS下载文件并提供关键字- 使用许可软件搜索功能- 表格类型- 无存储结构[9]第一章Perl- 下载季度指数- 操作时间- 下载和分析8-K文件- 脚本- 存储结构效率- 对申报类型的一列纵队表1报告了提供下载和解析EDGAR文件功能的类似工具的主要局限性。开源的edgarR包减轻了这些限制并添加了新的例程。具体来说,它提供了一个开源工具,访问所有文件,强大的错误处理,更好的文件管理系统,以及抓取和解析功能。最近研究方法的进步导致了对使用这种专门工具的需求增加。2. 软件描述edgar 包 利 用 了 R.utils[11] 、 tm[12] 、 XML[13] 、stringr[14]、stringi[15]和qdapRegex[16] R包中的函数。用户可以使用以下代码在R中安装它。install.packages(edgar)2.1. 软件功能表2报告了edgar包提供的所有功能。2.2. 软件构架高效下载和分析大量文件需要适当的存储管理。edgar软件包使用用户机器上的工作目录以层次结构存储数据。它会在相应的函数调用时自动创建所选工作目录看到图1,edgar R包中的其他函数分别调用getMasterIndex和getFilings函数从SEC服务器检索备案信息和下载备案。我们建议-每日索引:此目录在调用getDailyMaster函数时生成,包含每日归档信息,也称为每日主索引文件,采用Rda格式,文件名为daily_idx_[index date].Rda。2主索引:这个目录是在调用getMasterIndex函数时创建的,它 以 Rda 格 式 保 存 每 年 的 主 索 引 , 文 件 名 为[Year]master.Rda,例如,1994年质量标准。Edgar filings_full text:这个目录是在用户调用getFilings函数时生成的。它将完整的文本格式文件存储在表格类型和公司CIK编号的单独子目录中,文件名为[CIK]_[表格类型]_[提交日期]_[登录号]。3例如,CIK = 38079的公司的10-K报表可以在“Edgar filings_full text- > Form 10-K- > 38079-”位置找到>38079_10-K_2005-03-15_0001047469-05-006546.txt“。Edgar filings_HTML视图:此目录在调用getFilingsHTML函数 时 创 建 , 并 以 HTML 格 式 保 存 文 件 , 文 件 名 格 式 为[CIK]_[form type]_[date filed]_[Accession Number] 。 这 些HTML文件存储在表单类型和公司CIK编号的单独子目录中。例如,上例中10-K语句的HTML视图可以在文件路径“Edgar filings_HTML view- > Form 10-K- > 38079- >38079_10-K_2005- 03-15_0001047469-05-006546.html” 中 找到。关键字检索结果:使用searchFilings功能创建该目录,并以HTML格式保存提取的归档检索结果。搜索结果的HTML视图提供由用户关键字包围的提取的归档文本。每次申请的这些结果以[CIK]_[表格类型]_[申请日期]_[登录号]的格式存储。虽然不是强制性的,但为了保持同样的工作状态,目录,以便利用现有数据。Edgar包将提交信息、完整的提交和提取的数据存储在如下所示的单独的子目录中。2 Rda是一种原生的R数据结构,用于存储向量,矩阵和矩阵的对象。3 中央索引键(CIK)充当公司的主要标识符,向美国证券交易委员会提交披露的个人·····Gunratan Lonare、Bharat Patil和Nilesh Raut沪公网安备31010502000118号3表2edgar包提供的函数。getDailyMaster检索每日主索引getMasterIndex检索季度主索引getFilingInfo检索公司的备案信息getFilings从SEC服务器getFilingsHTML获取EDGAR文件getFilingHeader删除EDGAR文件头信息searchFilings搜索特定单词的EDGAR文件geturgDescr从年度报告getMgmtDisc从年度报告中检索MD A部分get 8 KItems检索Form 8-K事件信息getSentiment提供EDGAR文件的情绪度量Fig. 1. EdgarR包的架构业务描述文本:该目录以文本格式存储提取的业务描述部分,文件名为[CIK]_[表单类型]_[提交日期]_[登录号]。 它是使用geturgDescr函数创建的。MD A章节文本:该目录以文本形式保存提取的管理层它在调用getMgmtDisc函数时创建。3. edgar包的实现3.1. SEC关于下载EDGAR文件的指南为了避免EDGAR服务器上的负载拥塞,SEC建议只下载所需的文件。SEC要求用户在请求头中声明用户代理ID。给定的链接详细解释了此要求:https://www. sec.gov/os/accessing-edgar-data网站。因此,edgar包要求用户为它的所有功能传递user-agent id。因此,用户需要以以下形式声明它R> useragent =“您的名字Contact@domain.com“3.2. 从SEC EDGAR服务器美国证券交易委员会定期收到各种公共和机构公司的财务报告SEC发布季度指数文件(也称为主索引),其中包含给定季度提交给SEC的所有文件的信 息。 季 度 主索 引以 idx ( 索 引) 压 缩格 式 上传 到 SEC 服 务器www.sec.gov/Archives/edgar/full-index/ , 其 中 包 括 中 央 索 引 键(CIK)编号、公司名称、表格类型、提交日期和财务报告的网络链接。 edgar包的getMasterIndex函数通过将年份向量作为用户输入来下载这些季度主索引。此功能下载季度主索引文件,清理它们,将季度索引合并为年度索引,并将它们作为Rda格式的年度主索引文件存储在目录"主索引“中用户在使用edgar软件包时需要维护相同的工作目录,因为它利用这些年度主索引来搜索归档信息并从EDGAR服务器下载归档。下面的代码演示了此函数的用法。R> getMasterIndex(2006,useragent)正在从SEC服务器下载2006的主索引... 第一季度总指数第二季度总指数第三季度总指数第四与季度索引文件类似,SEC也维护在给定日期提交给SEC的文件的索引文件这些关于归档的每日信息可以使用getDailyMaster函数获得。因此,函数接受用户输入的日期,下载并清理每日索引文件,并在一个索引框中返回有关每日文件的信息。··Gunratan Lonare、Bharat Patil和Nilesh Raut沪公网安备31010502000118号43.3. 搜索备案信息和下载备案getFilingInfo函数提供R>word.list- c+form.type=c(“10-K“,“10-K405“,“10KSB“,“10KSB40“),+filing.year=c(2005,2006),word.list,useragent)基于公司标识符的公司它需要一个所需的公司标识符R>输出Cikcompany.nameform.typedate.filednword.hits以完整/部分公司名称或CIK编号的形式,提交年份,41 1000180SANDISK CORP10-K 2005-03-18 32 1000180SANDISK CORP10-K 2006-03-15 5归档季度和表单类型作为输入参数。下面的代码演示了这个函数的用法。R> info- getFilingInfo的3 38079森林石油公司10-K2005-03-15 04 38079森林石油公司10-K2006-03-16 0searchFilings函数还生成详细的搜索目录"关键字搜索结果“中每个文件的结果+filing.year= c(2005,2006),quarter= c(1,2),+form.type=c('10-K','DEF14A'),useragent)正在搜索主索引以获取归档信息.R>infocik company.name form.typedate.filedquarter1 101829 UNITEDMATERILOGIES CORP DE10-K 2005-02-10 1HTML格式。有了这个搜索结果,用户可以看到准确的位置,在提交和其他周围的文本输入的话,最多250个字符。例如,从上一个 命 令 生 成 的 文 件 “Key-wordsearchresults->1000180_10-K_2005-03-18_0000950134-05- 005462.html"显示以下内容使用getMasterIndex函数生成的年度主索引文件包含提交信息以及上传到SEC EDGAR服务器上的完整文件的部分链接。getFilings函数通过将CIK、表单类型、提交年份和提交季度作为函数参数来方便文件的下载。以下是实现此功能的示例。R>output- getFilings(cik.no=c(1000180,38079), c+2006,quarter=c(1,2,3),downl.permit=“n”,+ useragent)要下载的文件总数= 4。是否要下载(y/n)?y下载填充物。请稍候...|==================================================================|百分百getFilings函数从SEC服务器下载文本格式的完整提交文件。用户可能希望查看HTML格式的这些文件。getFilingsHTML函数将CIK、表单类型、提交年份和提交季度作为用户输入。然后,它读取下载的文件,将文件(不包括证物)丢弃,并将文件内容以HTML格式保存在目录"Edgar filings_HTML view“中3.4. 提取归档标题信息并搜索输入关键字的归档分析师可能需要公司的文件头信息,如报告期间、SIC代码、营业地址。getFilingHeader函数接受CIK、表单类型和申报年份的输入,并抓取所需申报的标题信息。下面的代码演示了它的用法。R>header.df- getFilingHeader(cik.no= c+form.type=+ useragent)研究人员经常使用财务报告中的定性信息。特别是大量的研究使用财务报告中提到的特定关键词来开发一个定性的代理。edgar包提供了一个searchFilings函数,它搜索用户关键字列表的文件,并返回其提及次数(nword.hits)以及文件信息。用户需要提供搜索关键字列表以及CIK、表单类型和申请年份。下面的代码演示了此函数的用法。4 默认情况下,此函数提供输入年份所有季度3.5. 从年度报表中提取业务描述和MD A部分近年来,使用10-K中公司产品/业务描述部分和管理层讨论与分析(MDA)部分的文本分析的研究17edgarpack-age中的geturgDescr(getMgmtDisc)功能使分析人员和研究人员能够在单个组件中提取所需公司的业务描述(MDA)信息。mand.它使用公司CIK(s)和申报年度(s)作为输入参数。它顺序读取10-K文件,删除HTML标记,提取业务描述(MDA)部分,并将 它 们 存 储 在 目 录 "Business descriptions text“ ( ”MDA sectiontext“)中的文本文件中&这些函数还返回一个包含归档信息和提取状态的框架,值为1表示成功提取。R> output-geturgDescr(cik.no = c(1000180,38079),+filing.year=2005,useragent)R> output-getMgmtDisc(cik.no = c(1000180,38079),+filing.year=c(2005,2006),useragent)3.6. 电子表格8-K项目信息get8KItems函数提供了一个提取Form 8的工具。K事件。此函数以公司CIK和提交年份作为输入参数。它从SEC下载所需的8-K文件输出框架包含Form 8-K事件信息以及归档信息。下面的代码演示了此函数的用法。R> output- get8KItems(cik.no = c(1000180,38079),+filing.year=c(2005,2006),useragent)2 1018293 101829UNITED EQUIPLOGIES CORP DEUNITED EQUIPLOGIES CORP DEDEF 14A 2005-02-2510-K 2006-02-0911搜索结果4 101829UNITED EQUIPLOGIES CORP DEDEF 14A 2006-03-091Gunratan Lonare、Bharat Patil和Nilesh Raut沪公网安备31010502000118号53.7. 生成SEC文件的情绪指标getSentiment 函 数 提 供 SEC 文 件 的 情 绪 度 量 。 它 需 要Loughran-McDonald(LM)情感词典的帮助下面的代码演示了它的用法。R>senti.df-getSentiment(cik.no= c+ form.type = c+filing.year=2006,useragent)4. 影响自过去十年以来,使用提交给SEC的财务报表的流行程度呈指数级增长。这些公司文件的使用在许多领域都在增长,如法律,会计,金融,市场营销,管理,统计,环境科学。然而,SEC这就需要轻松地批量自动下载这些文件此外,越来越多的主题使用文本挖掘的SEC文件呼吁注意开发一种工具,帮助分析师和研究人员对这些文件进行预处理。为了弥补这一差距,edgarR包提供了下载,解析,搜索和情感分析文件的功能5. 结论2000年后,利用公司财务和运营披露的文本分析研究出现了前所未有的增长,导致对高效开源平台的需求增加,以下载和分析披露。本文详细介绍了EdgarR软件包,并将其应用于 作为研究人员、从业人员和投资者使用SEC EDGAR文件实现各自目标该软件包可在主要操作系统上运行,具有更大的简单性,提供11个功能,以方便检索、存储、搜索和解析SEC EDGAR服务器上的所有可用文件自2015年植入以来,edgar软件包经历了多次更新。我们计划扩展它的功能通过增加功能,根据院士未来的要求从申请中抓取其他重要信息,分析机构的竞合利益作者声明,他们没有已知的竞争性财务利益或个人关系,可能会影响本文报告的工作引用[1]瓦尔德斯坦湾EdgarWebR:SEC文件访问。2021,URLmwaldstein.github.io/edgarWebR,R包版本1.1.0。[2]放大图片作者:J. OpenEDGAR:用于SEC EDGAR分析的开源软件。2018年,可在SSRN 3194754 URLdoi:10.2139/ssrn.3194754.[3]罗扎普Corpcrawl 0.0.37:证券交易委员会EDGAR的Python scraper。2013年,URLhttps://www.cnpython.com/pypi/corpcrawl。[4]爱德华·S Python-edgar 3.0.1:下载自1993年以来的SEC EDGAR指数。2014年,URLhttps://pypi.org/project/python-edgar。[5]拉胡尔河SECEdgar 0.1.1:实现了一个基本的sphinx爬虫程序来下载文件。2014年,URLhttps://github.com/rahulrrixe/SEC-Edgar。[6]李 ·S Finreportr : 来 自 美 国 证 券 交 易 委 员 会 的 财 务 数 据 。 2016 年 ,URLhttps://CRAN.R-project.org/package=finreportr,R包版本1.0.1。[7]贝 托 鲁 索 河 XBRL : 从 “xbrl” 文 档 中 提 取 业 务 财 务 信 息 。 2017 年 ,URLhttps://CRAN.R-project.org/package=XBRL,R包版本0.99.18。[8]作者:J.如何使用网络爬虫收集数据:使用SAS搜索EDGAR的应用程序。2007年,可在SSRN 1015021 URLdoi:10.2139/ssrn.1015021上获得。[9]García D , Norli 爬 行 埃 德 加 。 Span Rev Final Econ 2012;10 ( 1 ) :1https://doi.org/10.1016/j.srfe.2012.04.001[10]Lonare G,Patil B. Edgar:美国证券交易委员会EDGAR检索和解析公司文件的工具。2021,URLhttps://cran.r-project.org/web/packages/edgar,R包版本2.0.4。[11]本 特 森 ·H R.utils : 各 种 编 程 实 用 程 序 。 2019 年 , URLCRAN.R-project.org/package=R.utils,R包版本2.9.2。[12]Feinerer I , Hornik K. TM : 文 本 挖 掘 包 。 2019 年 , URLhttps://CRAN.R-project.org/package=tm,R包版本0.7-7。[13]Temple Lang D. XML : 在 R 和 S-Plus 中 解 析 和 生 成 XML 的 工 具 。 2020 ,URLhttps://CRAN.R-project.org/package=XML,R包版本3.99-0.3。[14]威 克 姆 ·H Stringr : 简 单 、 一 致 的 通 用 字 符 串 操 作 包 装 器 。 2019 年 ,URLhttps://CRAN.R-project.org/package=stringr,R包版本1.4.0。[15]Gagolewski M,Tartanus B,其他贡献者; IBM和Unicode and Inc.和其他贡献者; Unicode和Inc.。stringi:字符串处理工具。2020,URLhttps://CRAN.R-project.org/package=stringi,R包版本1.4.6。[16]林 克 河 qdapRegex : 正 则 表 达 式 删 除 、 提 取 和 替 换 工 具 。 2017 年 ,URLhttps://CRAN.R-project.org/package=qdapRegex,R包版本0.7.2。[17]放大图片作者:Hoberg G.产品市场的协同效应和竞争在合并和收购:基于文本的分析。RevFinancStud2010;23(10):3773https://doi.org/10.1093/rfs/hhq053[18]Hoberg G,Phillips GM. 基于文本的行业发展势头。 J Financ Quant Anal2018;53(6):2355https://doi.org/10.1017/[19]Loughran T,McDonald B.会计与财务的文本分析:一项调查。J Account Res2016;54(4):1187-https://doi.org/10.1111/[20]Loughran T,McDonald B.什么时候责任不是责任?文本分析,字典,还有10-k。J Finance 2011;66(1):35//doi.org/10.1111/j.1540-6261.2010.01625.x网站。
下载后可阅读完整内容,剩余1页未读,立即下载
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://profile-avatar.csdnimg.cn/default.jpg!1)
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
我的内容管理 收起
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助
![](https://csdnimg.cn/release/wenkucmsfe/public/img/voice.245cc511.png)
会员权益专享
最新资源
- 京瓷TASKalfa系列维修手册:安全与操作指南
- 小波变换在视频压缩中的应用
- Microsoft OfficeXP详解:WordXP、ExcelXP和PowerPointXP
- 雀巢在线媒介投放策划:门户网站与广告效果分析
- 用友NC-V56供应链功能升级详解(84页)
- 计算机病毒与防御策略探索
- 企业网NAT技术实践:2022年部署互联网出口策略
- 软件测试面试必备:概念、原则与常见问题解析
- 2022年Windows IIS服务器内外网配置详解与Serv-U FTP服务器安装
- 中国联通:企业级ICT转型与创新实践
- C#图形图像编程深入解析:GDI+与多媒体应用
- Xilinx AXI Interconnect v2.1用户指南
- DIY编程电缆全攻略:接口类型与自制指南
- 电脑维护与硬盘数据恢复指南
- 计算机网络技术专业剖析:人才培养与改革
- 量化多因子指数增强策略:微观视角的实证分析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
![](https://img-home.csdnimg.cn/images/20220527035711.png)
![](https://img-home.csdnimg.cn/images/20220527035711.png)
![](https://img-home.csdnimg.cn/images/20220527035111.png)
安全验证
文档复制为VIP权益,开通VIP直接复制
![](https://csdnimg.cn/release/wenkucmsfe/public/img/green-success.6a4acb44.png)