“证券风险分析：证券报道中风险语句提取与分类的研究”

45 浏览量更新于2024-01-02 收藏 1.28MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

International Journal of Information Management Data Insights 2（2022）100096证券报道中风险语句的提取与分类藤井元正a，坂地弘树b，增山茂a，佐佐木一c，a日本东京理科大学管理学研究生院b日本东京大学工学院c东京大学未来倡议研究所，日本aRT i cL e i nf o保留字：风险分析金融文本挖掘风险提取风险分类a b sTR a cT随着商业环境的急剧变化，即使是专家也很难从包含大量非结构化信息的证券报告中正确提取和分类风险陈述。已有的方法在处理不确定性风险表达时面临困难。这项研究提出了一个开放领域的风险分析框架，结合了人类和机器的优势。其包括界定适当的业务风险及根据该等定义构建受监督的数据。然后从一组具有代表性的日本公司的证券报告中提取风险并进行分类。我们确认了模式匹配的局限性和上下文分析方法的有用性。我们亦确认根据适当的数据分类指引构建监督数据的重要性。本研究提出了一个框架，可以快速有效地从大量非结构化信息中得出给定行业或公司介绍随着企业经营环境的急剧变化，快速、恰当地评估企业风险变得更加重要。根据Truant等人（2017年）的说法，最近可持续发展报告的政策变化扩大了财务和社会环境报告中道德，社会和环境风险的披露，从而强调了风险识别的重要性（Truant等人，2017年）。环境、经济和社会对企业的影响是大多数企业不能忽视的风险因素。有人强调，不参与有助于实现可持续发展目标（SDG）和环境，社会和企业治理的活动本身就可能是一种风险（经济产业省，2019年;Godfrey等人，2009年）。此外，评估企业价值的投资者强调为应对COVID-19大流行而制定的业务连续性计划的内容（Mukherjee et al.，2020年）。公司的非财务信息，如风险，是一个重要的信息来源，难以量化。在企业价值评估中，企业传统上，已经提出了各种方法来计算公司价值，使用诸如实际交易股票价格、未来自由现金流量和资产负债表上列出的价值等指标（Brigham等人， 1985年）。但是，检查非财务信息是必要的，因为不可能推断业绩等内容仅来自财务信息的因素（Christensen等人，上市公司须提交的财务、证券报告，不仅包括财务报表，还包括广泛的项目，包括业绩因素和潜在的公司风险。在日本，在证券报告中披露风险是强制性的。然而，一个人不可能提取、分类和分析所有必要的文本，这些文本是巨大而多样的。此外，政府和企业在披露风险信息方面变得越来越积极（经济产业省，2017年）。如上所述，随着风险描述数量的增加，需要处理的信息量呈指数级增长（Cohen等人，2012;Dyer等人，2017;Symes等人，2017年）。人类产生的信息量每年都在增加，即使是该领域的专家也不可能完全掌握它（Sasaki et al.，2020年）。对公司价值的实际评估在这种情况下，越来越需要有效的信息，使用诸如人工智能领域中的文本挖掘之类的方法进行处理。Bao Datta（2014）和Dyer等人（2017）提供了一种方法用于分析公司&的文本风险披露以发现风险因素（Bao Datta，2014 ; Dyer等人，2017年）。Huang et al.（2020）和Chang et al.（2021）使用文本挖掘评估了企业价值评估，他们的结果证实了有改善∗ 通讯作者。电子邮件地址：sasaki@i fi.u-tokyo.ac.jp（H. Sasaki）。https://doi.org/10.1016/j.jjimei.2022.100096接收日期：2021年10月27日;接收日期：2022年6月21日;接受日期：2022年6月21日2667-0968/© 2022作者。出版社：Elsevier Ltd这是CC BY许可下的开放获取文章（http://creativecommons.org/licenses/by/4.0/）可在ScienceDirect上获得目录列表国际信息管理数据见解期刊主页：www.elsevier.com/locate/jjimeiM. Fujii，H. Sakaji，S. Masuyama等人International Journal of Information Management Data Insights 2（2022）1000962在对公司进行投资建议的价值评估的准确性方面（Chang等人， 2021;Huang等人， 2020年）。 Kurian等人（2020年）使用机器学习和关键词分析来分析事件，并试图减轻油砂作业的风险（Kurian等人，2020年）。关于可持续发展目标，Sebestyén等人（2020年）使用文本挖掘算法将不同国家发布的100多篇关于可持续发展目标的国家评论转化为关键词网络（Sebestyén等人，2020年）。Kumar等人（2021年）认为，使用文本挖掘和NLP进行风险分析对于更好地理解用户需求方面的管理是有效的（Kumar等人， 2021年）。这些机器方法存在挑战。关键词的数量通常是有限的，这限制了文本挖掘过程中每个文档可以表达的信息量，从而难以获得新的知识。并非所有病例都事先建立了风险分析的数据，例如涉及使用Pandey等人（2021）（Pandey等人，2021年）。Li（2010）指出，与以字段格式存储在数据库中或在文件中注释的数据相比，财务披露文件中的非结构化文本信息通常更难用传统计算机程序理解，因为其存在违规和歧义（Li，2010;（EDINET -投资者网络电子披露2022））。人类分析师的理解比计算机程序的理解具有更高的准确度。从这个角度来看，黄和李手动形成风险分类。在他们的研究中，研究人员对在审查年度报告后，我们明确识别出25个风险因素（Huang& Li，2011;FinancialService Agency 2018）。在某种程度上，这种方法解决了上述需要领域知识的问题。然而，存在着广泛的风险因素，涵盖了所有这些因素，不可能Lewis和Young指出，随着来自几家公司的报告的增加，文档的形式变得更加多样化，缺乏标准化和结构化使得分析更加困难（Lewis &Young，2019; Fu等人， 2020年）。单独使用基于计算机的方法会产生一些问题，但是单独使用人工分析方法也会产生一些问题;因此，集成的方法很重要。这一观点在记录管理方面尚未得到充分研究。讨论这个观点很重要在一个机器和人类都应该被重视的数字社会里。在分析风险时，正确提取风险因素的文本非常重要（Campbell etal.，2014; Godfrey等人， 2009年）。此外，由于在实际应用中识别特定行业或特定时期的风险至关重要，因此应进行风险因素聚类（MassonMontariol，2021年;Hegde Rokseth，2020年）。为了对大规模数据进行适当的提取和分类，需要构造适当的正确答案数据。但是，必须客观地评价这一点。此外，有必要能够考虑上下文，这对于传统的基于关键字的PM是不足够的。这项研究的挑战是克服财务文件的模糊表示。本研究在非结构化金融文件风险分析方面的学术贡献可以概括为以下两点：首先，它提出了一个框架，利用计算机和人类的优势来提取和分类传统PM无法处理的风险。第二，它表明，可评估的风险定义对于这一目的至关重要。尽管监督数据的构建对于利用监督机器学习的力量是必要的，但在整体业务风险的背景下，还没有提到对监督数据的评估。从模糊或非结构化的信息中提取和分类有用的风险陈述是非常昂贵的，无论是使用人工还是计算机。对于专家来说，这是一项耗时的任务，对于为计算机构建教师数据也是如此。由于风险因素每天都在变化，传统的模式匹配不允许进行灵活的上下文感知风险分析。有限的研究讨论了确定风险和评估教师数据的重要性，应将其置于风险分析的上游。本研究提出了一个框架，一系列的风险分析：适当的定义，建设教师数据、风险提取、风险分类和风险评估企业和行业。它表明，通过适当地定义风险，可以构建一个模型，不需要高水平的专业知识和现实数量的教师数据可以用来立即有助于风险分析实践。这将允许每个公司根据需要以低成本构建适合其时代的教师数据本研究对实践的贡献在于提供了一个框架，使企业能够在企业所处的风险环境发生重大变化的情况下，与时俱进地进行灵活的风险分析。相关工作越来越多的公司正在寻求采用大数据分析和决策支持系统，以帮助管理人员通过利用数据中隐藏的趋势和信号来做出数据驱动的决策（Arjun等人，2021; Kushwaha等人，2021; Unhelkar等人，2022;Kushwaha 等人， 2021; Arjun 等人， 2021; Unhelkar 等人， 2022年）。利用机器学习从书目信息中提取风险也变得可能一些研究调查了上下文年度报告和财务报表中描述的风险（Fu等人，2020;Wei等人，2019年）。如果可以提取风险，则可以将其充分用作企业评估（Aven& Krohn，2014; Creedy，2011; Paltrinieri等人，2019），使这成为一个值得解决的问题，在任何行业。许多风险分析是在封闭域中进行的;Carracedo et al.（2020）通过使用统计软件R进行文本挖掘分析，调查了COVID-19大流行对公司的影响（ Carracedo et al. ， 2020 年）。同样， Zhao 等人（2019）旨在使用文本挖掘技术识别石油市场中的风险因素（Zhao等人，2019年）。 Hegde&Rokseth（2020）进行了关键词检索，并从Scopus和Engineering Village数据库文章中检索了相关文献，并使用机器学习方法对出版物进行了结构化回顾，以帮助进行工程风险评估（Hegde& Rokseth，2020）。然后对面临类似问题和采取类似发展战略的国家进行了分组和分析。该等研究集中于特定事件或市场，并分析风险; Koch et al.（2021）调查COVID-19如何影响就业市场，但将其讨论范围限于公共部门就业平台和风险（Koch et al.，2021年）。其他人讨论了具体的风险和影响-例如保险部门中的风险--从使用文本挖掘来分析公司周围的风险的角度来看（Rawat等人，2021年）。该等闭域风险分析具有高度特定性，因为其允许评估该领域的特定风险。虽然在每个领域都有效，但没有领域知识，很难进行适当的评估。由于每个封闭域都有独特的模式，因此有必要提取提供风险线索的关键字。提取风险的最常用方法之一是使用关键字。例如，Kurian等人（2020）提出了一种使用机器学习和关键字构建高效事件报告系统的方法（Kurian等人，2020年）。这种方法被称为模式匹配（PM），需要事先收集许多可以用作线索的关键字。为此，特定领域专家的知识也是必不可少的。因此，以PM为代表的传统研究由于缺乏领域知识，在缺乏线索的情况下无法正确提取和分类关键词。仅使用现有风险因素的关键词提取与之前未发生的事情相关的风险是困难的。在目前的情况下，风险因素甚至更加多样化，必须考虑背景情况，对风险进行适当在这项研究中，我们处理领域无关的风险，并尝试分析在定义上开放的领域中的风险和分类。目标是通过开放域风险分析，教师数据可以用最少的知识和应用程序提取。M. Fujii，H. Sakaji，S. Masuyama等人International Journal of Information Management Data Insights 2（2022）1000963Fig. 1. 方法概述用于仿制药行业。为此目的，综合办法很重要，因为仅以计算机为基础的办法是有问题的，但仅以人为基础的办法也有问题。在风险管理方面，这一观点尚未得到充分考虑。它在数字社会中讨论这一观点很重要，重点应该放在机器和人类上。方法概述本研究中使用的方法包括三个主要部分：数据准备、数据分析和稳健性检查和评估。另外，这些部分包括六个步骤。该方法的概述如图1所示。下一小节提供了一个概要。在第3.2节中，我们更详细地描述了每一步数据准备第一步是对风险进行定义和分类（图1中的步骤1）。在对风险进行提取和分类之前，有必要明确风险的定义。此外，根据先前几项研究的结果，风险被分为五类。风险的定义和分类详见第3.2节。接下来，进行数据收集（图1中的步骤2）。本文的研究对象是证券报告，它是《金融工具与汇率法》规定的信息披露文件。因此，几乎统一的格式。提取证券报告的目标公司是日本股票市场的代表性公司。这使我们能够提取一个平衡良好的公司集团。下一步是注释数据（图1中的步骤3）。七位注释员根据步骤中定义的分类注释了数据1.我们试图通过采用多人同意的注释来确保训练数据的可靠性。详情见第3.4节。作为评价标签结果的客观标准，我们使用了衡量多名评价者评价之间一致性程度的系数（第3.6节）。数据分析下一步是建立模型（图1中的步骤4）。我们使用PM，机器学习（支持向量机[SVM]），逻辑回归（LR），随机森林（RF）算法和深度学习（双向长短期记忆[bi-LSTM]和BERT）作为分析方法，本研究这些方法的概述见第3.5节模型开发。在构建这些模型之后，我们使用步骤4中构建的多个模型进行风险句子提取和分类实验，并将步骤3中注释的句子作为训练数据（图5中的步骤5）。 1）。稳健性检查和评价最后，为了评估实验，计算并验证了提取和分类性能。同时，作为一个具体的案例，我们将通过对特定行业的讨论来促进讨论（图6中的步骤6）。 1）。风险定义和分类在提取风险时，重要的是要明确定义它们。风险在不同领域有不同的定义。例如，该文献指出，“标记规则是如果句子包括不确定性的概念，并且如果存在来自风险三元组的至少一个其他元素，则[23].然而，本研究的目的是将所获得的信息用于企业价值评估，因此需要一个更合适的定义。国际风险管理标准ISO 31，000：2018《风险管理-指南》将风险定义为“目标不确定性的影响”（国际标准化组织，2018年）。2019年修订的《公司信息披露条例》对证券报告的内容进行了具体规定，指出所述风险是“可能对投资者的判断产生重大影响的事项，如合并公司的经营成果和其他情况发生异常变化，对特定客户、产品、技术的依赖等，独特的法律规定、交易惯例、管理政策、重大诉讼案件的发生等，董事，大股东，股东等的重要事项。（国际协调会议Q9，2005）。该研究将风险定义为“通过采取行动可以获得的未来结果的不确定性”。在这里，&对于本研究，根据上一节所述定义提取的风险被分为几类，M. Fujii，H. Sakaji，S. Masuyama等人International Journal of Information Management Data Insights 2（2022）1000964本书旨在帮助读者理解文中经常描述的风险类型。根据CasualtyActuarial Soci... 企业风险管理委员会。（2003），商业风险可以分为“战略风险、运营风险、财务风险和危害风险”。（精算学会企业风险管理委员会，2003年）。然而，根据Kaplan Mikes（2012年），存在内部和外部风险观点;运营风险和财务风险可被视为内部风险，而危害风险可被视为外部风险（Kaplan Mikes，2012年）。很难确定这是否是战略风险的情况。因此，在本研究中，我们对战略风险进行了重新分类，特别是那些由外部因素引起的风险，如“经营环境风险”。因此，本研究将公司风险分为五类：战略风险、运营风险、商业环境风险、财务风险和危害风险。这些风险的描述如下：一个公司自愿承担一些风险，以获得优越的回报，从其战略（伤亡精算学会企业风险管理委员会，2003年）。换句话说，战略风险组织&战略风险的例子包括资本投资、需求变化、人力技能流失、声誉损害、竞争、客户需求、人口、社会和文化趋势、技术创新、资本可用性以及法规和政治发展。运营风险产生于组织内部，与组织在实现战略目标时面临的日常问题有关（Kaplan Mikes，2012;Lewis Young，2019）。运营风险是由人员、流程和控制引起的，如业务运营、授权、信息和业务报告（伤亡精算学会企业风险管理委员会，2003年;金融服务机构，2018年）。一些风险来自公司外部的事件，超出了公司的能力和控制范围（Li，2010）。战略风险包括完美、客户偏好、技术创新以及监管和政治障碍。其中，竞争环境变化、人口结构变化等经济社会趋势带来的风险最为显著（金融服务业代理，2018年; Li，2008）。该等风险已重新分类为营商环境风险。金融风险包括价格（资产价值、利率、汇率、商品等），流动性（现金流、看涨风险、机会成本等），信用（违约、降级等），在通货膨胀或购买力，以及对冲基础风险（伤亡保险精算学会企业风险管理委员会，2003年）。该等金融资产及负债受市场原则（如利率、汇率、商品价格、流动资金风险及信贷风险）影响（FinancialService Agency，2018; Li，2008）。危险风险来自财产、责任或人员损失（金融服务机构，2018年）。例如，火灾和其他财产损失、风、森林、其他自然灾害、盗窃和其他犯罪、人身伤害和业务中断。疾病和残疾（包括与工作有关的伤害和疾病）和责任。表1列示风险分类及每种分类的具体例子。数据检索和句子抽取本研究的主题是基于日本证券报告的风险提取和分类。EDINET（Electronic Disclosure for Investors我们试图从包括日经股票平均指数在内的主要公司在EDINET上以数字数据形式披露的证券报告中随机抽取5000个与商业风险项目相对应的句子。这些句子被用于分析表2。数据注释基于获得的句子，我们创建了训练数据。创建训练数据的第一步是用二进制值注释句子，以确定它们是风险句子还是非风险句子。接下来，使用风险分类对提取的句子进行注释。换句话说，使用两个注释水平来构建训练数据。由7名熟悉证券报告的个人（5名工人和2名监督员）进行注释。从作者所在部门中挑选了7名20多岁的日本人，毫无偏见地进行注释和监督。彼等属于企业管理范畴，对阅读日本证券报告有丰富经验。我们确认他们拥有足够的知识来注释和进行文本挖掘。五个注释者，每人分配1000个句子，判断是否每个句子都是基于第节中所示标准的风险句子3.2 风险定义和分类。与此同时，他们根据风险类别对被判断为风险句子的句子进行了对于每5000句由五个注释者完成，监督A执行相同的过程5000句。主管B同样处理了5000个句子五名工人和两名主管的决定是独立的，他们彼此不交换信息。如果三个答案中的两个或两个以上（注释者注释结果的评估将在稳健性检查部分详细描述模型开发本节介绍了本研究中使用的分类方法。分类方法有PM，SVM，LR，RF算法，bi-LSTM和BERT。SVM，LR和RF是经常被讨论为文本分类方法的评估目标的代表性方法（Pranckevičius Marcinkevičius，2017）。在下面描述的所有方法中，使用MeCab的形态分析来提取在学习期间用作特征的语素。此外，CaboCha被用作蕴涵分析器（Kudo Matsumoto，2002）。(1) 按单词形式的PM是一种预先定义字符串模式并检查模式是否出现在目标句子中的方法。我们使用PM在提取和按关键字分类方面的准确性作为比较其他方法的基准。字符串模式使用正则表达式定义。在这项研究中，我们将证券报告中的风险表达模式分为以下两类：如前所述，单词串模式表示为正则表达式。第一种模式包括逻辑句子中使用的连接词。复合句的从句是前者，主句是后者。复句表达的是一种关系（因果关系），前半部分命题的真值与后半部分命题的真值相关联。当前一部分尚未发生时，这些句子满足风险的定义;如果前一部分已经发生，它们不满足定义。此外，可以用上述连词替换的单词也以同样的方式处理。第二类表达式尽可能地描述事件（命题）的内容，或者可以用这样的表达式来代替即使这些条件-如果满足条件，则该命题被排除，如果它代表企业活动，如“经营业绩将下降”或“财务状况将恶化”。这是因为上述命题对应的是风险定义中的“结果”，与提取的内容不同（提取的原因是结果不确定）。上述第一和第二类表达式分别称为假设表达式和可能表达式。M. Fujii，H. Sakaji，S. Masuyama等人International Journal of Information Management Data Insights 2（2022）1000965表1风险分类的具体示例。风险分类定义风险描述一个具体的例子参考。A战略风险在执行商业投资和营销等战略时，管理层的判断和决策所产生的风险。这种风险是公司可以控制的，是由最高管理层的行为造成的。管理战略资本投入、现有业务改革伤亡精算学会企业风险管理委员会（2003年）;市场营销不断变化的需求，技术创新金融服务机构，（2018年）;Kaplan&Mikes（2012年）;Lewis Young，2019年;Li（2010年），（2008年）B操作风险由于IT系统或设施故障、罢工等原因导致主要业务活动无法运作的风险。该风险无法由公司控制，并且是由该领域的中层管理人员的行为造成的人事制度产品与服务法律与道德人力资源外包流程产品缺陷、召回专利纠纷内部欺诈伤亡精算学会企业风险管理委员会（2003年）;金融服务机构2018;C业务环境风险由于竞争（商业）环境的变化而产生的风险，如经济条件的变化或法律法规的加强。这种风险是公司无法独立控制的，是由人和公司的标准行为环境环境污染、废物处理修改法律，政治不稳定经济经济波动，原材料涨价社会谣言，消费者运动Kaplan&Mikes（2012）;Lewis Young（2019）;Li（2008）伤亡精算学会企业风险管理委员会（2003年）;金融服务机构（2018）;Kaplan&Mikes（2012）;Lewis Young，（2019）;Li（2008）D财务风险与融资有关的风险，例如资金采购及汇率波动。这种风险是公司无法控制的（即，风险可以通过套期保值交易降低，但不能消除;资产管理股票价格波动贷款损失伤亡精算学会企业风险管理委员会（2003年）;公司不能干预市场本身）。结算利率波动、汇率波动金融服务机构（2018）;Kaplan&Mikes（2012）;Lewis Young，2019;Li（2008）E灾害风险地震、台风等灾害、战争、内乱、盗窃等犯罪风险。这种风险是公司无法控制的;它不能干预事件本身，尽管它可以减轻风险资本和负债供资费用增加地震，恶劣的天气条件伤亡精算学会企业风险管理委员会（2003年）;表2通过保险等措施。风险是由无法人为干预的因素或个人、公司或国家的异常行为（战争、恐怖主义和犯罪）造成的。火灾、设备故障金融服务机构（2018）;KaplanMikes（2012）;Li（2008）关键词风险句子风险分类关键词战略风险开发、创新、合并、竞争、研究、广告、客户、就业、人力资源、新产品、资本投资、广告、战略、联盟、需求、收购、哑弹、优势、营业额、新业务操作风险违规、隐瞒、污染、缺陷、环境、管理、缺陷、侵权、罢工、产品责任、诉讼、骚扰、质量、欺诈、缺陷、冲突、错误、执行、召回、泄漏、劳动争议商业环境风险图像，改革，供给，商业环境，经济，飞涨的价格，供给和需求，需求，消费者运动，信贷，税收，税收制度，系统，商业，谣言，抵制，贸易，法律，立法，大众传媒，媒体金融风险信用评级、坏账、股票价格、汇率、融资、利率、财务规划、资产、地价、衍生品、破产、房地产价格、坏账、证券危害风险病毒、火灾、传染病、天气、故障、事故、自然灾害、信息系统、洪水、战争、停电、恐怖主义、天气、盗窃、内战、风暴、骚乱我们研究的主要目的是通过提取风险而不使用现有的关键字来实现早期风险管理。然而，在评估新方法之前，有必要使用关键词验证风险分类方法的性能。因此，在确定风险表达时，除了监督机器学习和深度学习之外，我们还手动确定了可以被视为特别表达证券报告中描述的风险内容的单词和短语。(2) 支持向量机另一种模型是SVM，一种使用最简单的神经元模型（线性阈值元件）构造两类模式分类器的方法。在这项研究中，支持向量机被采用作为一个有效的方法进行二进制分类，因为训练数据不大。从一组训练样本中，使用“裕度最大化”的准则来学习线性阈值元件的参数。SVM具有监督机器学习模型，其中在数据空间中构建区分超平面，并且仅最混乱的数据点（即，在噪声条件下最有可能被误判）被选择和训练，使得超平面尽可能远离它们。在高维空间中可以构造一组超平面来进行分类和回归。边际越大，分类器的泛化误差越小。因此，通过与给定类的最近训练数据点具有最大距离的超平面来实现适当的分离。使用判别函数（线性判别函数）计算输入特征向量的二进制输出值。M. Fujii，H. Sakaji，S. Masuyama等人International Journal of Information Management Data Insights 2（2022）1000966在实现中，SVM-light被用作风险感知判断的学习器，scikit-learn和OneVsRestClassier被用于风险分类（Pedregosa等人， 2011年）。(3) 逻辑回归（LR）LR是一种多变量分析方法，用于预测和解释定性数据中的因变量。作为一种可以分析而不受数据规模和分布显著影响的方法，即使用于风险声明分类的数据集很复杂，预计也会有一定的效果。它使用多个解释变量解释和预测单个二元变量的概率。一般来说，机器学习算法对决策边界的形状做出假设。在LR的情况下，假设决策边界是线性的。LR是已知的难以过拟合，因为决策边界是线性的，而不是复杂的。LR也可以用来检查目标变量的效应大小。它是一种多变量分析方法，用于预测和解释定性资料中的因变量。Scikit-learn用于实现，OneVsRestClassi fier用于风险分类（Pedregosa等人，2011年）。(4) 随机森林算法RF算法是一种方法，其中通过随机采样创建多个决策树，从而允许重复，并且通过对每个树的预测结果进行多数投票来确定最终预测值。该算法是一种简单的学习方法，但它可以比典型的决策树更好地识别和预测。由于RF对输入场进行采样，因此即使对于具有众多特征的数据集，也应该快速准确。在本研究中，我们采用了这种方法，因为当用于风险分类的特征数量很大时，预计这种方法是有效的。RF算法的另一个有用的特性是，当森林大小增加时，它不会过度拟合。该实现基于 scikit-learn ， OneVsRestClassi fier 用于风险分类（Pedregosa等人， 2011年）。(5) Bi-LSTMBi-LSTM在几个自然语言处理任务中表现出了高性能（Chen等人，2016年）。我们使用长短期记忆（LSTM）-一种开发用于处理串行数据的递归神经网络（Hochreiter Schmidhuber，1997）。在LSTM中，我们从句子的开头到结尾使用双向信息，反之亦然;因此，我们实现了bi-LSTM。这是因为在某些情况下，不仅需要前向上下文，还需要后向上下文，例如，单词消歧; bi-LSTM通常执行得更有效。特别是因为证券报告有很长的句子，有必要考虑向前和向后的上下文;我们考虑了如果我们只考虑一个方向，信息可能会丢失的可能性。我们使用PyTorch来实现bi-LSTM。就风险分类而言，我们使用与五个风险类别中每一个的风险判断相同的学习方法（五次二元分类学习迭代(6) 伯特BERT是Devlin等人（2018）提出的一种基于预训练的大规模语言模型与自然语言处理相关的任务（Devlin等人，2018; Jiao等人，2019年）。在这项研究中，我们使用它来提取风险句子通过微调。该模型是在日本东北大学Inui实验室出版的日语维基百科上训练的为了在这个实验中使用BERT，我们使用了三种方法以及它们的结果的组合。该方法包括BERT_（a）普通多标签分类，BERT_（b）同时提取风险句和分类学习（共6个多标签分类），以及BERT_（c）对5个风险分类中的每一个进行二进制分类学习。我们采用BERT_（b）是因为适合每个风险类别的风险句子占总句子的大约10%。我们预计，通过应用二进制分类，性能将得到改善，特别是对于需要处理大量数据的模型，如BERT。图图2显示了用于图2. BERT模型（Devlin等人， 2018年）。图3. 基于二进制分类的多标签分类。本研究图3显示了使用二进制分类的风险分类图。采用BERT_（c）是因为我们预测包含每个风险类别的风险句子的总数会有所不同;因此，单独训练它们会产生更准确的结果，因为学习过程中标签数量的变化可能导致少数标签的准确率较低，即使整体准确率很高。在本研究中，对每种风险分类分配了相同的重要性。然而，当试图对齐每个数据集的数量时，在减少数据时存在丢失必要信息的风险。此外，当增加少数数据量时，由于数据填充，存在过度学习的风险。因此，每个风险类别的准确性（特别是那些数量比其他类别小的风险类别）可以通过消除数量上的不平衡来提高正面标签的数量（包含该风险的风险陈述的数量分类）分别学习。将这些方法结合起来是因为可以通过结合校正不平衡和过度学习的结果来提高精度，由于上述原因，这可能是本项目中使用的数据的问题。BERT_（a）和BERT_（c）看起来很相似，之所以将它们结合起来，是因为在一个只使用被判断为有风险的句子的实验中，当使用方法（a）时，金融风险（风险D）和危险风险（风险E）在风险分类中的表现更高，M. Fujii，H. Sakaji，S. Masuyama等人International Journal of Information Management Data Insights 2（2022）1000967图第四章按行业分列的风险判决（橙色条）和非风险判决（蓝色条）的数量分布。而战略风险（风险A）、操作风险（风险B）当使用BERT_（c）时，商业环境风险（风险C）更高。在采用非多数表决法时，如果将这两种方法分开计算，则整体准确性可能会更高。我们还分析了BERT_（abc）作为一个模型集成所有的BERT_（a），BERT_（b）和BERT_（c）。稳健性检查和模型评估为了检查注释数据的鲁棒性，我们使用Fleiss&在风险句子提取注释中，根据一致性来判断句子是否是风险句子。在风险分类注释中，确定各风险类别的判断是否完全一致。根据LandisKoch（1977）对铜值的评估被用作常规标准。风险提取和风险分类分析通过将获得的注释数据按7：2：1的比例分为训练、测试和验证数据来进行。训练数据被用来建立模型，并利用试验数据对模型进行了评价。验证数据用于评价对未知数据的拟合。使用精确度、召回率和F1分数来评估模型。精密度表示真阳性数除以M. Fujii，H. Sakaji，S. Masuyama等人International Journal of Information Management Data Insights 2（2022）1000968+++表3Fleiss&K解释<0一致性较差0.01 –略有一致0.21 –公平的协议0.41 –中度一致0.61 –基本一致0.81 –几乎完全一致表4按注释风险分类的句子数量（统一标记）。数量的句子风险分类注释527商业环境风险522战略风险507操作风险443金融风险235危害风险真实和假阳性。��=��召回率是真阳性的数量除以真阳性和假阴性的总和。其指该模型成功预测的相关分类与现有相关数据相比的百分比。��=��一般来说，在查准率和查全率之间存在一个权衡。通过计算精确度和召回率的调和平均值获得F1分数。��1��结果从日经225指数成份股公司发布的证券报告中提取与商业风险相关的句子后，提取了5007个句子作为有效句子。使用上述方法（图1中的步骤3）对数据进行注释，通过该方法，我们发现2494个句子包含风险（定义为风险句子），2513个句子不包含风险。提取的风险句子（橙色条）和非风险句子（蓝色条）按行业的分布如图4所示。图中的顶级行业;服务、制药、化工、机械、银行、零售、食品和制药是日经225指数的主要行业。为了检查这些提取和分类注释的稳健性，我们计算了Kappa值。对于风险句子提取符号，获得的值为0.77对于分类注释，获得的值为0.56如表3所示，这些结果对于风险提取注释被解释为实质性，对于分类注释被解释为中度。表4说明了由于注释而分类的每个句子的细目本表中的“单标记”表示仅分配一个标记。类似地，表4显示，最常注释的类别是业务环境风险。有类似数量的风险判决被归类为战略风险。此外，与其他四个风险类别相比，危害风险最不显著。表5还显示了按注释分类的每个句子的细分，但有两个标记的句子。表5注释风险分类（双标记）的句子数量。数量的句子带注释的风险分类对64操作风险、危害风险47战略风险、经营环境风险45经营环境风险，财务风险32经营风险、经营环境风险30经营环境风险、危害风险双标签意味着一个风险句子有两个标签;换句话说，不可能确定一个标签或另一个标签。表5表明，业务风险和危害风险之间有着相对较强的相互关系。实验结果如下：用于评价的数据集列于表6中。通过这些训练和测试数据，呈现了模型开发第3.5节中描述的五种分析方法的结果。风险语句提取的评价结果如表7所示。宏观平均值用于计算精度，召回率和F1分数。在精密度方面，除基于专家的方法外，其他方法的优越性无显著差异。然而，基于专家的方法的有效性也表现在召回方面。F1分数表明机器学习和深度学习方法都可以比基于专家的方法获得更好的整体结果风险判决的分类表现结果见表8。数据中共纳入风险刑2494人在所有的机器学习方法中，精确度低于Recall。RF尤其如此，其总体性能低于SVM和LR。在深度学习中，精确度和召回率之间的关系就像机器学习中的关系一样。在BERT中，性能优于机器学习，但在LSTM中，性能不如机器学习。行业特定风险分类分析在图5中，我们从每个行业的公司的安全报告中组织了分类的风险句子，以理解每个行业特有的风险。图5显示，建筑业和电力业的战略风险比例最低。相反，服务业的战略风险比例高于平均水平。危害风险在保险业中是非常低的。所有行业的营商环境风险占比至少为14%，而部分行业的财务和危害风险占比不到5%，部分行业的战略和运营风险相关的风险陈述无法确认。讨论检索到的数据从图3中可以看出，在所有行业中，风险和非风险句子之间的比率没有极端偏差，它们可以被视为适当的训练数据。五个风险评估的结果（在表4中标注为单一标签）表明，除危害风险（235句）外，句子总数没有差异。另一方面，战略风险（522句话）、运营风险（507句话）、商业环境风险（527句话）和财务风险（443句话）被认为是常见的，无论行业如何。然而，E：危害风险判决是有限的，因为在认为有必要在证券报告中明确说明这类风险的行业和认为M. Fujii，H. Sakaji，S. Masuyama等人International Journal of Information Management Data Insights 2（2022）1000969表6用于风险提取分析的句子数据汇总

下载后可阅读完整内容，剩余1页未读，立即下载