欧盟委员会年度国家报告预测主权评级：Doc2vec模型的应用

14 浏览量更新于2024-01-22 收藏 695KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

专家系统与应用：X 5（2020）100026使用欧盟委员会国家建议预测主权评级：主题建模方法伊万·帕斯托·桑兹巴利亚多利德大学，商业和经济学院，阿夫达。Valle del Esgueva 6，47011巴利亚多利德，西班牙Ar ticlei n f o ab st ract文章历史记录：收到2019年9月6日2020年2月27日修订2020年2月27日接受2020年2月28日在线提供JEL分类：C35G24G15H63保留字：信用评级欧洲国家Doc2vec国家风险本文探讨了文本和非结构化数据在主权信用风险评估中的作用。具体而言，本文提出了一种理解和预测主权评级的新方法。为此，欧洲联盟委员会发布的年度国家报告中所载的信息采用了该模型采用基于神经网络的文档嵌入，称为文档到向量（Doc2Vec），将每个国家的报告转换为数字向量，然后将其用作逻辑回归的特征。该模型使用2011年至2019年的信息进行训练，它正确预测了测试样本中70.27%的国家评级，略微改善了仅使用宏观经济变量获得的结果。© 2020作者由Elsevier Ltd.发布。这是CCBY-NC-ND许可下的开放获取文章。（http://creativecommons.org/licenses/by-nc-nd/4.0/）的网站上进行了介绍。1. 介绍在一个更加全球化和复杂的世界里，投资者需要标准的指标来比较发行人之间的信用质量，即使他们属于非常不同的国家。评级是最常用的指标之一。评级将债务人按时足额偿还债务的能力和意愿概括为一个单一的标签&，其中隐含的违约概率可能与之相关（Chen，Chen，Chang Yang，2016）。虽然信用评级机构（CRA）的数量很多，但只有三家机构占据了90%以上的市场份额：穆迪&、标准普尔和惠誉。评级机构为公司甚至国家进行评级。近年来，评级债务人的数量大幅增加。迄今为止，对信用评级的依赖赋予了信用机构很高的权力和政治权力。这种不确定性已得到法律的确认，例如在《巴塞尔协议》的框架内，信贷机构信贷评级决定债务人在资本市场的融资成本以及获得衍生工具和贷款合同的机会。然而，尽管信用评级机构很重要，但它也受到了批评。例如，由于他们的表现在很大程度上-电子邮件地址：ivanpastorsanz@gmail.com亚洲金融危机和俄罗斯金融危机等重大危机，20世纪90年代末，甚至是2008年开始的全球金融危机。在这些事件中，信用评级机构加剧了不平衡，花费太多时间来应对或预测违约事件，然后他们做出过度反应，严重降级（Pagano& Volpin，2010;Reinhart，Levich& Majoni，2002;Reinhart，2002 b）。例如，在最近的金融危机中，欧洲经济体的评级平均被下调三级。希腊和意大利是受影响最严重的国家之一，分别从A降至CCC和从AA-降至BBB。此外，信用评级机构受到质疑，因为所谓的&&“发行人支付”模式，即发行人支付机构发布评级的费用，这是利益冲突的潜在来源（Bernal，Girard Gnabo，2016 ; Haan Amtenbrink，2011）。20国集团和金融稳定委员会的原则最近鼓励金融机构使用内部评级而非外部信用评级，即使是计算自有资金要求，以减少对外部信用评级的过度依赖。巴塞尔银行监管委员会于2014年12月明确将减少对外部评级的机械依赖作为其目标之一在评级过程中，考虑了许多因素，包括政治、增长、外债、金融部门、公共和私营部门的结构、社会发展和其他方面的贸易。CRA提供了有关以下过程的一般信息-https://doi.org/10.1016/j.eswax.2020.1000262590-1885/© 2020作者。出版社：Elsevier Ltd这是一篇CC BY-NC-ND许可下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）的网站上进行了介绍。可在ScienceDirect上获得目录列表专家系统与应用：X期刊主页：www.elsevier.com/locate/eswax2个IP。Sanz/专家系统与应用：X 5（2020）100026对一个公司或一个国家的评价。例如，标准普尔（Standard andPoor&然而，在评级过程中，各因素的权重和组合方式是未知的，不透明的，并且存在定性判断，这些定性判断通常在评级过程中起着非常重要的作用。此外，这些因素的重要性随着时间的推移而发生变化，因为宏观经济形势的变化更多地是在时间点而不是顺周期性的（ Kiff ， Nowak Schumacher ，2012;Mora，2006）。自过去二十年以来，对评级质量及其理解的担忧一直是世界各地研究的动力。例如，人们认为，了解评级的决定因素对未评级的国家进行评分同样重要信用评级的复制主要基于不同的经济计量模型，试图找到一组更好地解释它们的宏观经济变量。最常见的方法通常是普通最小二乘回归或有序响应模型。然而，信用评级研究普遍忽视了定性和更主观的信息。这些额外的信息可以补充当前的量化宏观经济信息，并改善信用评级模型的性能。在本文中，定性信息的重要性，以解释标准普尔的信用评级进行评估。为此，使用了欧洲联盟委员会为欧洲成员国发布的年度国家报告。在《国别报告》中，欧洲委员会监测每个成员国在社会和经济问题上取得的进展。每个成员国都有一份国别报告，以定量和定性的方式概述欧盟经济的总体状况。特别地，使用了最近连续的空间模型doc2vec（Le&Mikolov，2014），其是word2vec嵌入模型的扩展（Mikolov etal.，2013），一种用于自然语言处理的学习技术。提出的模型首先使用浅层神经网络将这些报告中包含的单词转换为n维空间向量。因此，文档中的每个词被转换为向量，使得在语料库中共享共同上下文的词在空间中彼此紧密接近地定位。在这种情况下，不仅文字，而且整个国家报告都被矢量化。这意味着每份报告中包含的所有定量和定性信息将汇总在一个向量中。作为最后一步，每个国家向量被用作逻辑回归的输入，试图预测国家评级。根据我们的模型，它是基于国家报告中提供的定性信息，克服了仅基于一组宏观经济变量的模型的准确性。提出的模型证明了定性信息作为信用评级决定因素的重要性，以及自然语言处理在降低信用风险方面的潜力。本文的组织结构如下。第二节回顾了信用评级模型的研究进展.第3节描述了处理文本数据的最常用方法：嵌入方法。第4节详细介绍了根据欧洲国家报告从拟议模型中获得的数据和主要结果。第5节将拟议模型与两种不同的模型进行比较，首先是仅使用宏观经济信息的有序逻辑回归，然后是其他综合宏观经济信息和从国家报告中提取的信息。最后，结论见第6节。2. 文献综述和CRA外部评级变得越来越重要，自2010年以来，1990年代，例如，确定一个国家的资金成本是相关的。截至2018年12月，三大主要信用评级机构中至少有一家自过去二十年以来，对评级质量及其理解的关注一直是世界各地研究的动力。鉴于其重要性，应评估评级的质量，并以某种方式透明地追踪和复制评级，但这在实践中并非易事。尽管信用评级机构提供了如何建立评级的方法指南，但这些信息被认为不够透明或不容易复制。第一步，评级机构依靠宏观经济、公共和外部融资以及机构因素来建立初始评分或评级，然后由分析师委员会进行讨论。该委员会主要以简单多数票决定最终评级。他们的决定亦包括前瞻性意见，考虑发行人（例如一个国家）在承受适度压力的情况下是否会经历不寻常的不利情况。因此，评级过程可以分为两个主要部分：基于基本面分析和主观。关于评级过程的第一部分，即基本面因素，三家主要机构（标准普尔、惠誉和穆迪）衡量的是类似的因素。然而，因素组合的方式并不完全相同。标准普尔因素从一（最强）开始，以六点数字量表进行评估到六个（最弱的），并分为两大类：主权的制度和经济概况。然后，使用矩阵将所得两个类别合并，以确定“指示或基本评级水平”，通常使用补充调整因子进行修改。标准普尔不公布变量的权重，甚至不公布他们使用的变量的完整列表，难以复制评级过程。另一方面，惠誉（2014）的评级基于宏观经济，公共财政（一般政府），外部财政和结构性维度，包括18个不同的变量，如消费者价格指数，实际GDP增长或人均GDP等。在这一部分，惠誉的方法比标准普尔更透明，公布了他们方法中四个关键因素的权重，尽管没有提供每个变量的重要性。最后，穆迪每一个决定因素都是基于一个定义明确的变量列表的子集。评级机构公布变量的权重和阈值，是评级分配这一基本部分中最透明的机构。虽然在某些情况下，评级标准更...尾，如惠誉和穆迪，一些作者（Gärtner等人，2011;&&D 'Agostino Lennkh，2016 ; Vernazza Nielsen，2015）已经证明，评级过程的主观重要性是很高的，甚至它会随着时间的推移而变化尽管主观成分的准确性很高，但一些仅使用一组减少的变量来预测评级的尝试已经证明了理解信用评级的高能力。文献中有两种主要方法，使用的经济方法。第一种方法通过固定或随机效应对面板数据的评级的数值表示使用线性回归方法。线性回归具有较好的预测能力，有助于更好地理解主权信用评级的主要决定因素。因此，在关于这一主题的第一篇重要论文中，Lee（1993）使用9个变量估计了1979- 1987年40个发展中国家的线性回归模型，Cantor和Packer（1996）解释了标准普尔和穆迪I. P. Sanz/专家系统与应用：X 5（2020）1000263经济变量六个变量达到了较高的预测能力（人均收入，GDP增长，通货膨胀，外债，经济发展水平和违约历史）。后来，其他作者在他们的方法中扩大了国家、变量和时期的数量。因此，Monfort和Mulder（2000）将样本期延长至1994Eliasson（2002）使用随机效应面板数据模型，使用宏观经济指标来解释标准普尔评级，发现最初在Cantor和Packer（1996）中使用的变量仍然解释了国家评级的重要部分。Afonso（2003）于2001年6月对81个国家进行了广泛的研究。Alexe、Hammer、Kogan和Lejeune（2003）&利用1998年12月底69个国家的样本获得了一个与标准普尔评级高度相关的线性模型，Rowland和Torres（2004）利用16个新兴市场发行人的面板数据确定了利差和信誉的决定因素。文献的第二股使用有序响应模型-试图解决以前方法的一些局限性。因此，在本发明中，在线性回归中，假设信用评级类别是均等分离的。这意味着所有评级类别之间的风险差异是相同的。这种说法不一定是真的。事实上，信用评级机构明确指出，一个国家是否被归类为投资级，其感知风险存在重大差异。在有序响应模型的情况下，评级类别之间的差异在模型本身中估计。将有序变量视为连续变量可能会导致推断错误（Afonso，GomesRother，2011;Bessis，2002;Bissoondoyal-Bheenick，2005;Mora，2006;Trevino Thomas，2001）。Hu、Kiaman和Perraudin（2002）使用一个同时排序的概率单位模型，估计了标准普尔Bissoondoyal-Bheenick（2005）利用有序反应模型分析了标准普尔和穆迪在这项研究中，对1995-1999年期间的95个国家进行了抽样调查。作者认为，量化指标只是主权评级决策输入的一部分。人均国民生产总值和通货膨胀率似乎是最相关的经济变量。此外，随着时间的推移和机构之间的经济变量并不保持同样的重要性。Bissoondoyal-Bheenick、Brooks和Yip（2006）比较了有序概率单位和基于案例的推理技术对主权评级决定因素的建模。他们还发现，由于科技发展，特别是流动电话的使用，是信贷评级的重要决定因素，而以往的研究并没有采用这一点。Hill、Brooks和Faff（2010）使用了1990-2006年期间129个国家的数据他们发现，几个变量在解释使用累积概率模型的机构评级时具有不同的重要性。最近，Andreasen和Valenzuela（2016）研究了金融开放对公司和债务评级的影响，发现金融开放对信用评级有重大影响。最后，Teixeira et al.（2017）使用有序模型研究了1993-2013年主权的决定因素。它们表明，危机和非危机时期的信用评级是不同的，而且这些差异也取决于国家所属的地区。在这一领域也使用了其他不同的方法-从线性和有序响应模型。因此，Yim和Mitchell（2005）使用不同的统计技术，如神经网络或自组织地图等，在 2002年使用52个国家的样本预测国家评级。他们的结论是，混合神经网络优于所有其他模型，包括logit和probit模型。Bennell，Crabbe，Thomas和Gwilym（2006）还比较了有序概率模型和人工神经网络（ANN）的性能。在本文中，ANN显示出更高的预测主权评级的准确性。 Van Gestel et al.（2006）描述了一个过程模型，利用支持向量机在分类任务中的优势来开发评级系统。Polito and Wickens（2015）根据一国财政状况得出的模型计量方法计算14个欧洲国家于一九九五年至从以往的研究中，可以得出一些结论：首先，许多研究集中在以前的文献中使用的变量通常很小。这一事实有助于减少对新变量的探索，这可能会提高模型的准确性。这可能是一个限制，因为信用评级机构更新其方法和新的一些变量可以添加。其次，由于难以了解和理解外部评级机构使用的标准，尽管定性专业知识信用评级机构是主权评级的重要组成部分。关于使用文本和非结构化数据来预测主权评级是稀缺的。例如，Albergis（2015）研究了新闻如何影响三个有主权债务问题的欧洲国家（即希腊、爱尔兰和葡萄牙）的信用评级。得出的结论是，来自市场的消息来源是一个很好的决定因素的信用评级。截至本文发表之日，尚未发现任何试图提取文本信息的文章来预测主权信用评级3. 处理文本数据下一节将对拟议框架进行解释。该模型将使用来自欧洲国家报告的文本信息来预测主权信用评级所提出的模型包括两个步骤。第一步包括一个无监督算法（doc2vec模型），用于学习每个报告中包含的句子的矢量表示。第二步使用逻辑回归执行分类任务，使用先前的解释向量作为输入变量。欧洲国家报告将被用来提取有用的信息，以预测主权评级。从这个意义上说，这是一个常见的预测问题。然而，挑战在于文本和非结构化信息的处理方式。文本信息应经过适当的转换才能包含在分类算法中。我遵循的转换方法称为最简单的词嵌入方法之一被命名为然而，这种方法有几个缺点。因此，结果嵌入的大小和稀疏性很大，因为它是由词汇表的大小固定的。此外，这种方法不会学习不同单词之间的相似性。例如，像“危机”和“衰退”这样的词2013年，Mikolov等人提出了一种有效的神经方法来学习高质量的嵌入，克服了以前的模型： word2vec 模型。Word2vec基于一个三层神经网络，一个输入层，一个隐藏层和一个输出层。有两个主要的网络架构用于训练模型，如图所示。 1：跳跃文法和连续词袋（ CBOW ）体系结构。CBOW体系结构试图通过组合其周围单词的分布式表示来预测目标单词。另一方面，Skip-gram试图通过使用输入词的分布式表示来预测词的上下文。-是的4个IP。Sanz/专家系统与应用：X 5（2020）100026Fig. 1. 连续词袋（CBOW）和跳跃语法模型。因此，作为当前单词的窗口大小或训练上下文，Skip-gram旨在最大化对数概率的平均值，以基于当前单词wt来预测上下文单词wt+j，如下所示：4. 数据和拟议模型本文提出了一个预测国家评级的两步模型。这一模式以欧洲联盟委员会发布的国别报告中提供的在国家-Skip−gram =1不t=1Kj=−k洛格山口w t+j|公司简介（一）欧盟委员会监测每个成员国在社会和经济问题上取得的进展每个成员国都有一份而使用CBOW方法，目标是基于上下文中的周围单词来最大化目标单词wj路上了这些报告通常在每年2月底公布。对于模型开发，收集了一段时间内所有可用的报告，特别是涵盖从CBOW=1不t=1t−kj=k洛格山口w t|wt+j（二）2011年至2019年。一些欧洲国家并非每年都有报告。例如，克罗地亚在2013年之前没有报告，希腊在某些特定年份也没有报告。表1列出了拥有可利用的Word2vec神经网络的输出是一个词汇表，其中每个单词都有一个与之相关联的数字向量。一组经过良好训练的词向量将在该空间中将相似的词彼此靠近。例如，像“危机”和“衰退”这样的词会有非常接近的向量。受word2vec成功的启发，Le和Mikolov（2014）将word2vec扩展到doc2vec，它为每个文档生成一个向量表示，称为段落向量或文档嵌入。Mikolov提出了两种类型的神经网络架构，称为分布式记忆模型段落向量（PV-DM）和分布式词袋模型（PV-DBOW）。doc 2 vec模型中的PV-DM和PV-DBOW类似于 word 2 vec模型中的连续词袋和跳过语法模型。在PV-DM中，该模型被训练为使用小窗口中的上下文词来预测中心词，以及如图2的左侧所示的段落向量。另一方面，在PV-DBOW架构中，训练段落向量以直接预测上下文单词（图2右侧）。PV-DM模型通常比PV-BOW模型表现得更好，PV-BOW模型通常创建非常高维的表示，导致泛化能力较差。按年报告共使用了246份报告需要对数据进行预处理，以提取有用的信息或特征来训练模型（Feinerer，Hornik& Meyer，2008）。数据清洗或预处理数据涉及以下步骤：删除格式，将数据转换为纯文本，删除空格和数字，删除字符，删除停用词，最后删除词干。停用词被定义为语言中非常常见的词，其信息值几乎为零。由于所有国别报告都有英文本，这些停用词的一些例子是介词、限定词、连词另一方面，词干提取过程是指擦除单词后缀以检索单词的根（或词干）的过程，这降低了数据的复杂性，而不会丢失大量信息。因此，一个词作为动词 “argue” 将减少到干“argu”，无论形式或复杂性的话，在因此，其他形式的“argued”，“argues”，“arguing”和“argus”也被简化为相同的词干。词干提取程序减少了要考虑的单词数量，并提供了更好的频率表示。在预处理步骤之后，数据集由60.516个独特的单词或标记组成。不-是的不..I. P. Sanz/专家系统与应用：X 5（2020）1000265图二、分布式记忆模型段落向量（左）和分布式词袋模型（右）。表1一段时间内可用报告的列表国家/年份201120122013201420152016201720182019奥地利XXXXXXXXX比利时XXXXXXXXX保加利亚XXXXXXXXX克罗地亚XXXXXXX塞浦路斯XXXXXXXXX捷克共和国XXXXXXXXX丹麦XXXXXXXXX爱沙尼亚XXXXXXXXX芬兰XXXXXXXXX法国XXXXXXXXX德国XXXXXXXXX希腊XXXXX匈牙利XXXXXXXXX爱尔兰XXXXXXXXX意大利XXXXXXXXX拉脱维亚XXXXXXXXX立陶宛XXXXXXXXX卢森堡XXXXXXXXX马耳他XXXXXXXXX荷兰XXXXXXXXX波兰XXXXXXXXX葡萄牙XXXXXXXXX罗马尼亚XXXXXXXXX斯洛伐克XXXXXXXXX斯洛文尼亚XXXXXXXXX西班牙XXXXXXXXX瑞典XXXXXXXXX联合王国XXXXXXXXX一些国家272728282727272728要预测的评级是每年6月发布每份欧洲报告时的评级。由于报告在每年上半年发布，因此假设信用评级将在年底收集欧盟委员会的最新意见和最新的宏观经济信息去年的。所有欧洲国家目前都由三个CRA评级。穆迪信用评级被概括为一个单一的标签，从AAA（最高质量）到D（最差质量）。分配给欧洲国家的评级并不涵盖惠誉和标准普尔评级水平的全部可能评级范围。因此，信用评级仅被分为6类，以便对样本中的每个评级水平都有足够数量的观察结果，并以这种方式训练鲁棒模型。这种方法在以前的国家评级研究中得到了广泛应用（ Bissoondoyal-Bheenick ， 2005;Bennell 等人， 2006;Boumparis ， Milas& Panagio-2015;Sehgal ， Mathur ， Arora&Gupta，2018）。表2显示了所有评级类别与最终使用的六个类别惠誉和标准普尔之间的评级差异很小为欧洲国家。事实上，在2019年12月，22两个评级机构对28个国家的评级完全相同，如果存在差异，差异不超过两个等级。一旦应用表2由于标普是世界上评级国家最多的信用评级机构，本文以标普评级作为因变量进行预测。1图3显示了标准普尔对欧洲国家2011年至2019年的信用评级分布。标准普尔认为评级是对债务人整体信誉的前瞻性意见为了训练模型，数据集被分为两个部分：训练样本和测试样本。训练样本包括172份国家报告，占总数据集的70%供试品符合74份报告。两个样本中信用评级类别的比例均保持不变。所提出的模型是一个两步模型：首先使用训练集训练doc2vec模型。通过第一步，每个报告都转换为数字向量。1该模型还使用惠誉评级进行了测试，结果与使用标准普尔获得的结果相似。因此，没有观察到任何选择信用评级机构的偏见。6个I.P. Sanz/专家系统与应用：X 5（2020）100026表2信用评级映射用于训练模型。最终标签AAA 6AA+ 5AA 5AA-5A+ 4一个4A-4BBB+ 3BBB 3BBB− 3BB+ 2BB 2BB-2B+ 1B 1B− 1CCC 1CC 1SD/D 1图三. 2011年至2019年欧洲国家信用评级分布。doc2vec模型需要一组需要调整的超参数：用于训练模型的架构（图1和图2）。1和2架构）、向量和窗口大小、在训练阶段中要考虑的单词的最小频率、对高频单词进行下采样的阈值、负单词样本的数量以及训练时期的数量。使用交叉验证方法获得的结果用于优化doc2vec模型的超参数。这些超参数的最佳配置产生了一个doc2vec模型，其中每个国家报告将被转换为大小为100的数字一旦每个报告被转换，向量被用来作为特征来训练逻辑回归，其中因变量是由SP分配的信用评级。所提出的模型的准确性进行测量，比较预测的评级与真实的。表3和表4分别显示了训练样本和测试样本的结果。该模型准确预测了训练样本中98.25%的评级，正确预测了测试样本中70.27%的国家评级。所有的错误分类都在训练样本中的一个等级范围内，直到两个国家的测试样本中的两个等级。表4还显示了该模型在对评级类别中的国家进行分类时存在的一些困难等级这些评级确定了投资和投机之间的界限，分数。根据标准&普尔2，包含BBB+、BBB和BBB-的评级类别显示，从历史上看，年度变化性大于其余评级等级的变化性，并且在较短的时间范围内，升级和降级大致平衡，这可能使模型的分类更加困难。因此，一个国家可以被提升一个等级，并在下一年再次被降级，回到最初的评级。我们亦观察到最差及最佳评级的一些错误分类。例如，对于评级为AAA的5个国家，该模型分配的评级水平低于一个等级。另一个缺点是向量不可解释，这意味着一旦报告被转换为向量，就不可能识别报告中解释所产生的预测的主观因素、句子或词语。5. 包括宏观经济信息的在本节中，首先，开发了一个仅基于一组宏观经济变量的新模型。该模型是一个有序logit模型，遵循文献中最常见的方法。然后，一个新的模型将被训练，但这一次，组合-使用宏观经济信息和从doc2vec模型获得的先前向量。前一个模型作为前一节中开发的模型的基准，而后一个模型试图评估定量变量和从报告中提取的主观信息的组合是否会产生更具预测性的模型。对于这两个模型，选择了一组14个宏观经济变量纳入模型中，涵盖2011年至2019年的同期。这些变量被信用评级机构，特别是本文所参考的评级机构标准普尔所使用，并且在以前的类似研究中，它们已经成为主权评级的相关统计变量（ Armstrong ， De Kervenoael ， Li Read ， 1998;Dreisbach ，2007;Manasse Roubini，2009;Yim Mitchell，2005）。使用了以下变量：消费者价格（年度变化%）、GDP（年度变化%）、国际储备、外国直接投资流入/GDP、贸易条件、预算平衡（占GDP的%）、公共债务（占GDP的%）、人均GDP和一组六项治理指标（腐败控制、政府效率、政治稳定性和无暴力/恐怖主义、监管质量、法治以及话语权和问责制指标）。变量从Worldbank数据库中提取。所选变量的描述性分析见表 5 ，其中还包括预期体征（E.S.）从一个国家的信用价值的单变量角度来看，每一个变量，其中一个积极的迹象意味着信用价值增加时，该比率增加。宏观经济数据的样本被分为一个火车和测试样本，其方式与在模型中使用国家报告。一些宏观经济信息中存在的缺失值被列车样本计算的每个变量的平均值所取代。所有的变量然后线性缩放，以具有零均值和单位方差。关于仅基于宏观经济信息的第一个模型，第2节指出，两种主要方法用于预测主权评级：基于评级数字表示的线性回归方法和有序模型。虽然线性回归模型在以往的研究中具有很好的预测能力，但与有序响应模型相比，线性回归模型在概念和方法上都存在很多缺陷，目前应用较少。这32违约、转型和复苏：2018年度主权违约和评级转型研究。3可应要求提供线性回归模型的结果。I. P. Sanz/专家系统与应用：X 5（2020）1000267表3训练样本中的混淆矩阵。观察/ Pred.低于B+（1）BB+/BB/BB-（2）BBB+/BBB/BBB（3）A+/A/A（4）AA+/AA/AA+（5）AAA（6）B+以下（1）60 0 0 0BB+/BB/BB−（2）0210 0 0BBB+/BBB/BBB（3）0 0340 0 0A+/A/A（4）0 0 2330 0AA+/AA/AA+（5）0 0 0 1400AAA（6）0 0 0 035表4供试品中的混淆矩阵。观察/ Pred.低于B+（1）BB+/BB/BB-（2）BBB+/BBB/BBB（3）A+/A/A（4）AA+/AA/AA+（5）AAA（6）低于B+（1）11 0 0 0BB+/BB/BB-（2）081 1 0 0BBB+/BBB/BBB（3）0 360 0A+/A/A（4）0 0 3120 0AA+/AA/AA+（5）0 0 1 1100AAA（6）0 0 0 515表5选定变量的描述性分析。可变数量变量名称编号NAS最小最大1.四分3. 四分平均中值标准差偏度峰度 E.S1消费者价格（年度变化百分比）246 0 −2.05 31.58 0.44 2.52 1.81 1.50 2.71 6.18 59.942国内生产总值（年度变化百分比）2460−9.2025.021.203.502.172.132.871.5516.84+3国际储备2461207.47248，856344563，14447，16424，94356，7631.431.15+4外来直接投资/国内生产总值246 0 −672.90 1355.50 1.15 5.15 24.69 2.33 144.165.80 48.02+5贸易条件246 18 40.08 117.60 89.52 101.77 93.65 97.94 14.22 −1.79 3.61+6预算余额（占国内生产总值的百分比）246 0 −32.06 3.42 −4.20 −0.43 −2.74 −2.39 3.56 −2.84 17.92+7公共债务（占国内生产总值的百分比）246 0 6.07 181.77 40.15 85.93 66.82 63.39 33.93 0.62 0.278人均国内生产总值246 0 0.01 0.12 0.02 0.05 0.03 0.03 0.02 1.52 3.10+9控制腐败指数10政府效能指标11政治稳定和无暴力/恐怖主义指数12监管质量指标246 0 −0.27 2.40 0.33 1.67 1.03 0.95 0.78 0.09 −1.26 +246 0 −0.33 2.24 0.81 1.58 1.14 1.12 0.55 −0.34 −0.37+246 0 −0.32 1.46 0.49 1.02 0.74 0.78 0.37 −0.43 −0.32+246 0 0.24 2.05 0.83 1.64 1.20 1.16 0.45 0.02 −1.19+13法治指数246 0 −0.11 2.10 0.77 1.74 1.16 1.13 0.60 −0.26 −0.96+14声音和问责制指数246 0 0.31 1.69 0.96 1.37 1.11 1.11 0.34 −0.45 −0.44 +表6显示了仅基于宏观经济变量的有序logit模型的变量、预期符号、系数、标准误差和重要性。标准误差基于Eicker-White方法，无论残差的同方差性假设是否成立，该方法都会产生一致的值（Bennell等人，2006年; Trevino& Thomas，2001年）。根据表6，在六个评级类别中，共有8个经济变量是重要的，具体而言，国际储备、外来直接投资/国内生产总值、预算平衡（占国内生产总值的百分比）、公共债务（占国内生产总值的百分比）、人均国内生产总值、政府效率、监管质量以及话语权和问责制指数。从这份清单中，只有一个变量显示出错误的迹象相比，预期的一个：监管质量指数解释的高相关性与其余的治理指标。由于欧元区在所考虑期间的特殊情况以及这些年来变量的波动性，欧洲增长的年度变化评级较低的国家，如塞浦路斯，匈牙利或葡萄牙，2018年的GDP增长率高于2%，而其他信用评级较高的国家，如法国或德国在同一年的增长率不超过1.5%。其他变量，如贸易条件或外国直接投资流入率，在欧洲国家之间没有显示出很大的差异。信用评级机构提供的准则通常用于建立世界各国的排名。由于该模型是在特定经济领域开发的，因此某些变量并不十分重要也就不足为奇了。模型的-2对数似然率为231.37，卡方统计量，这表明该模型比仅基线截距模型有显著改进。在逻辑回归和有序回归模型的情况下，不可能计算与线性回归相同的R平方统计量，因此应该计算近似值。在该模型中，Mc-Fadden伪R平方达到60.06%.有序模型的基本原理之一是每对结果组之间的关系是相同的，这是使用平行线检验来检验的。进行了平行线检验，未发现足够证据拒绝模型规范的主要假设，因此比例优势假设似乎适用于模型。8个I.P. Sanz/专家系统与应用：X 5（2020）100026表6结果基于使用宏观经济变量的有序logit模型。变量编号变量名称E.S Coe检验t统计量p值1消费者价格（年度变化百分比）2国内生产总值（年度变化百分比）+ −0.291 −1.428 0.1533国际储备+1.985 6.097 0.0004流入外国直接投资/国内生产总值5贸易条件+0.227 0.964 0.3356预算余额（占国内生产总值的百分比）+0.450 2.094 0.0367公共债务（占国内生产总值的百分比）8人均国内生产总值+2.595 3.647 0.0009控制腐败指数+ −1.000 −0.985 0.32510政府效能指数+2.028 3.074 0.00211政治稳定和无暴力/恐怖主义指数+ −0.140 −0.447 0.65512监管质量指数+ −1.533 −2.950 0.00313法治指数+0.946 1.071 0.28414发言权和问责制指数+2.488 3.167 0.002切割1| 2−11.729−7.0450.000切割2| 3−7.492−5.5590.000切3| 4−3.835−3.5710.000切口4| 5−0.634−2.2150.028线5| 64.3563.6430.000准确度（训练样本）71.51%准确度（供试品）67.57%在解释力方面，该模型准确预测了训练集中71.51%的国家评级和测试样本中67.57%的根据国家报告，该模式与拟议模式的准确性相比，差别不大。拟议的模型改进了这一基准模型，只有两个国家的测试样本中测量。结果相当有趣，因为在国别报告中有欧洲联盟委员会提供的非结构化文本数据和意见最后，结合宏观经济变量和doc2vec模型的结果向量来训练最终模型，以检查具有不同信息的模型是否提高了各个模型的预测准确性。尽管最初预计这是一个更好的模型，其中宏观经济变量与更主观的信息相结合，但结果并没有显示出显著的改善。在训练样本中达到的准确率达到100%。但在测试样本中，该值下降，达到71.62%的准确度，这仅在一个国家中提高了仅使用coun获得的准确度。试试报告。对结果的主要解释是，国别报告中获得的信息已经收集了宏观经济变量中包含的所有信息，并不像最初预期的那样完整。国家报告实际上包含了所有宏观经济信息，并对当前形势作了补充解释和前瞻性意见。因此，在这种情况下，宏观经济信息并没有增加更多的价值。6. 总结发言近年来，信用评级的数量及其重要性大大增加。信用评级将政府在评级过程中，会考虑许多因素，包括政治、增长、外债、金融部门、公共和私营部门的结构、社会发展和贸易等。过去，宏观经济变量一直是理解和预测信用评级的良好代理。尽管如此，这些信息只能解释评级过程的一部分。在本文中，这种非结构化的和定性的信息来解释标准普尔的信用评级的重要性进行了评估。为此目的，联合国秘书处印发的年度国家报告欧盟委员会为欧洲成员国使用。在国家报告中，欧盟委员会监测每个成员国在社会和经济问题上取得的进展，以定量和定性的方式概述欧盟经济的总体状况该模型首先使用浅层神经网络将每个报告转换为n维空间向量。这意味着，报告中所载的所有定量和定性信息将以数字矢量形式汇总。一旦报告被转换，它们就被用作逻辑回归的输入，试图预测国家评级。该模型略微克服了仅基于一组宏观经济变量的模型的准确性，这是文献中最常见的方法。如果把宏观经济数据和国别报告所载资料结合起来，拟议模式的准确性就会提高。本文论证了定性信息作为信用评级决定因素的重要性，以及自然语言处理在缓解信用风险方面的潜力。最后，本文开辟了新的研究路线，以测试使用不同嵌入模型对模型准确性的影响，甚至使用预先训练的模型来预测评级，而不仅仅是针对国家。竞争利益声明作者声明，他们没有已知的竞争性财务利益或个人关系，可能会影响本文报告的工作。作者声明以下经济利益/个人关系可能被视为潜在的竞争利益：CRediT作者贡献声明伊万·桑兹牧师：概念化，方法论，数据处理，写作-原始草稿，可视化，调查，验证，写作-评论编辑。引用Afonso，A.（2003年）的报告。理解政府债务评级的决定因素：两个主要机构的评估。Journal of Economics and Finance，27（1），56-74.Afonso，A.，戈麦斯，P.M.，&Rother，P.（2011）.主权债务信用评级的短期和长期决定因素。国际金融与经济学杂志，16（1），1I.P. Sanz/ Expert Systems with Applications：X 5（2020）1000269Alexe，S.，哈默，P.L.，Kogan，A.，&Lejeune，M. A.（2003年）的报告。一个非递归的回归-国家风险评级模型。罗格斯大学研究报告，9，1Andreasen，E.，&Valenzuela，P.（2016）.金融开放、国内金融发展和信用评级。金融研究快报，16，11e18。Algis，N.（2015年）。新闻通讯信息和主权信用评级：来自紧缩改革方案下的欧洲国家的证据。国际金融分析评论

下载后可阅读完整内容，剩余1页未读，立即下载