全局可解释:就是试图理解“模型如何进⾏预测?”和“模型的⼦集如何影响模型决策?”。要⽴即理解和解释整个模型,
我们需要全局可解释性。全局可解释性是指能够基于完整数据集上的依赖(响应)变量和独⽴(预测变量)特征之间
的条件交互来解释和理解模型决策。尝试理解特征交互和重要性始终是理解全球解释的⼀个很好的⼀步。当然,在尝
试分析交互时,在超过两维或三维之后可视化特征变得⾮常困难。因此,经常查看可能影响全局知识模型预测的模块
化部分和特征⼦集会有所帮助。全局解释需要完整的模型结构,假设和约束知识。
局部解释:试图理解“为什么模型为单个实例做出具体决策?”和“为什么模型为⼀组实例做出具体决策?”。对于本地可
解释性,我们不关⼼模型的固有结构或假设,我们将其视为⿊盒⼦。为了理解单个数据点的预测决策,我们专注于该
数据点并查看该点周围的特征空间中的局部⼦区域,并尝试基于该局部区域理解该点的模型决策。本地数据分布和特
征空间可能表现完全不同,并提供更准确的解释⽽不是全局解释。局部可解释模型 - 不可知解释(LIME)框架是⼀种
很好的⽅法,可⽤于模型不可知的局部解释。我们可以结合使⽤全局和局部解释来解释⼀组实例的模型决策。
模型透明度:为试图理解“如何根据算法和特征创建模型?”。我们知道,通常机器学习模型都是在数据特征之上利⽤算
法来构建将输⼊映射到潜在输出(响应)的表⽰。模型的透明度可能试图了解模型的构建⽅式以及可能影响其决策的
更多技术细节。这可以是神经⽹络的权重,CNN滤波器的权重,线性模型系数,决策树的节点和分裂。但是,由于业
务可能不太精通这些技术细节,因此尝试使⽤不可知的局部和全局解释⽅法来解释模型决策有助于展⽰模型透明度。
可解释性的作⽤
对于想要了解模型如何⼯作的数据科学家来说,评估模型的准确性通常是不够的。数据科学家通常想知道模型输⼊变
量如何⼯作以及模型的预测如何根据输⼊变量的值⽽变化。
机器学习算法和模型的⼯程应⽤中⽤到最多的主要是树类模型(lgb,xgb)和神经⽹络(cnn, rnn),使⽤者往往习惯于很少
去思考其中的含义和解释性。需要思考⼀个模型的哪些东西是可解释的?
所以有⼏个问题值得讨论:
哪些特征在模型看到是最重要的?
关于某⼀条记录的预测,每⼀个特征是如何影响到最终的预测结果的?
从⼤量的记录整体来考虑,每⼀个特征如何影响模型的预测的?
为什么这些解释信息是有价值的呢:
调试模型⽤
⼀般的真实业务场景会有很多不可信赖的,没有组织好的脏数据。你在预处理数据时就有可能加进来了潜在的错
误,或者不⼩⼼泄露了预测⽬标的信息等,考虑各种潜在的灾难性后果,debug的思路就尤其重要了。当你遇到了
⽤现有业务知识⽆法解释的数据的时候,了解模型预测的模式,可以帮助你快速定位问题。
指导⼯程师做特征⼯程
特征⼯程通常是提升模型准确率最有效的⽅法。特征⼯程通常涉及到到反复的操作原始数据(或者之前的简单特
征),⽤不同的⽅法来得到新的特征。有时候你完成FE的过程只⽤到了⾃⼰的直觉。这其实还不够,当你有上百个原
始特征的时候,或者当你缺乏业务背景知识的时候,你将会需要更多的指导⽅向。如何创造出这样优秀的特征呢?
如何找到最重要的特征的⽅法,并且可以发现两个特别相关的特征,当⾯对越来越多的特征的时候,这些⽅法就会
评论0