机器学习中矩阵求导详解：快速入门与常见争议

需积分: 0 165 浏览量更新于2024-09-03 收藏 811KB PDF 举报

矩阵求导是机器学习中不可或缺的一部分，它将多元函数求导的概念扩展到矩阵和向量的上下文中，以适应数据科学中的线性代数操作。在学习这一主题时，重点在于理解和掌握规则，而不是严格遵循数学教科书中的严密形式。由于矩阵的特殊性质，比如复杂数学运算和维度转换，矩阵求导可能会涉及一些特殊的处理和技巧。矩阵求导的核心概念是将多元函数的链式法则应用到矩阵上，但要注意的是，直接对矩阵每个元素求导可能会导致计算冗余且易于出错。因此，了解并记忆一些常见的矩阵求导规则，如偏导数和梯度矩阵，能极大地方便实践中的计算。例如，当处理矩阵与向量、向量与矩阵、矩阵与矩阵之间的求导时，虽然理论上可能形成高阶张量，但实际操作中通常采用更为简洁的方法，避免使用过于复杂的张量表示。矩阵求导的标准布局规则，即MixedLayout，意味着求导结果保持与原矩阵或向量相同的形状，而不是转置。这样做的目的是为了保持操作的直观性和简洁性。然而，这可能导致与某些教材或资源中的符号和结果不一致，因此在阅读过程中需要注意作者的特定约定。在符号表示方面，常量用小写字母或希腊字母表示，如α、β；向量用粗体小写字母，如v，其元素标记为v_i，而向量的行向量则通过转置表示，如v^T。矩阵则用大写字母，如A，其元素记为A_ij，而不同的矩阵用下标区分，如A_1 和 A_2。函数和变量的表示也有明确的规定：常用字母表靠前的字母如a、b表示常数，而常用字母表靠后的字母如x、y等代表变量或函数。特殊情况下可能有不同的约定。学习矩阵求导的关键在于掌握基本原理和常见规则，同时理解和适应作者的符号体系。在遇到差异或困惑时，可以参考博主的博客或联系博主ruanchong_ruby@163.com寻求帮助。通过实际应用和不断练习，读者可以逐步熟练掌握矩阵求导，并将其运用到机器学习算法中，如线性回归等模型的优化。

本文的目标读者是想快速掌握矩阵、向量求导法则的学习者，主要面向矩阵、向量求导在机器学习中的应用。因此，本教程而非一

份严格的数学教材，而是希望帮助读者尽快熟悉相关的求导方法并在实践中应用。另外，本教程假定读者熟悉一元函数的求导。

所谓

矩

阵

求

导

，

本

质

上

只

不

过

是

多

元

函

数

求

导

，仅仅是把把函数的自变量以及求导的结果排列成了矩阵的形式，方便表达与计算

而已。复合函数的求导法则本质上也是多元函数求导的链式法则，只是将结果整理成了矩阵的形式。只是对矩阵的每个分量逐元素

地求导太繁琐而且容易出错，因此推导并记住一些常用的结论在实践中是非常有用的。

矩阵求导本身有很多争议，例如：

对于求导结果是否需要转置？

不同教材对此处理的结果不一样，这属于不同的Layout Convention。本文

以

不

转

置

为

准

，即求导结果与原矩阵/向量同

型，术语叫Mixed Layout。

矩阵对向量、向量对矩阵、矩阵对矩阵求导的结果是什么？

最自然的结果当然是把结果定义成三维乃至四维张量，但是这并不好算。也有一些绕弯的解决办法（例如把矩阵抻成一个

向量等），但是这些方案都不完美（例如复合函数求导的链式法则无法用矩阵乘法简洁地表达等）。在本教程中，我们认

为，

这

三

种

情

形

下

导

数

没

有

定

义

。凡是遇到这种情况，都通过其他手段来绕过，后面会有具体的示例。

因此，本教程的符号体系有可能与其他书籍或讲义不一致，求导结果也可能不一致（例如相差一次矩阵转置，或者是结果矩阵是否

平铺成向量等），使用者需自行注意。另外，本教程中有很多笔者自己的评论，例如关于变形的技巧、如何记忆公式、如何理解其

他的教程中给出的和本教程中形式不同的结果等。

文中如有错漏，欢迎联系 ruanchong_ruby@163.com，我会尽快订正。

标量用普通小写字母或希腊字母表示，如等。

向量用粗体小写字母或粗体希腊字母表示，如等，其元素记作（注意这里没有加粗。加粗的小写字母加下标，例如

等，表示这是两个不同的常数向量）。向量默认为列向量，行向量需要用列向量的转置表示，例如等。

矩阵用大写字母表示，如等，其元素记作（注意这里用的是小写字母。大写字母加下标，例如等，表示不同

的常数矩阵）。

用字母表中靠前的字母（如等）表示常量，用或字母表中靠后的字母（如等）等表示变量或函数。

有特殊说明的除外。

综上所述，本文进行如下约定：

矩阵/向量值函数对实数的导数：

要点：求导结果与函数值同型，且每个元素就是函数值的相应分量对自变量求导

若函数，则也是一个维矩阵，且，也可用劈形算子将导数记作

，或记作。

由于向量是矩阵的特殊情形，根据上面的定义也可以得到自变量为向量时的定义：若函数，则也是

一个m维向量，且。若函数值是行向量则结果为行向量，可记作或；若函数值

是列向量则求导结果为列向量，可记作或。

注：本文开头即说明过，变量为向量时仅仅是将其看作多个实数，无所谓行向量与列向量之分。这里用行向量或列向量的

说法仅仅为了把公式用矩阵相乘的方式表示出来方便，因为在数学公式总要指定向量是行向量或者列向量中的某一个，才

能与公式里的其他部分做矩阵运算时维度相容。下同。

实值函数对矩阵/向量的导数：

要点：求导结果与自变量同型，且每个元素就是对自变量的相应分量求导

若函数，则也是一个维矩阵，且。也可使用劈形算子将导数记

作。

由于向量是矩阵的特殊情形，根据上面的定义也可以得到自变量为向量时的定义：若函数，则也

是一个维向量，且。若自变量是行向量则结果为行向量，可记作或；若自变量

是列向量则求导结果为列向量，可记作或。

机

器

学

习中

的

矩

阵

、

向

量

求

导

写

在

前

面

符

号

表

示

→

∂

/∂

(∂

/∂

= ∂ /∂

)

∇

′

→

∂

/∂

(∂

/∂

= ∂ /∂

)

∇

∂ /∂

∇

∂

/∂

: →

∂

/∂

(∂

/∂

= ∂

/∂

)

∇

: →

∂

/∂

(∂

/∂

= ∂

/∂

)

∇

∂

/∂

∇

∂

/∂

下载后可阅读完整内容，剩余9页未读，立即下载

SUFEctrl_F

粉丝: 65

机器学习中矩阵求导详解：快速入门与常见争议

使用BUS端口保护阵列实现有源ESD保护

BusMatrix Verilog COde配置生成源代码

complex valued matrix derivatives

Are Hjorungnes - Complex-Valued Matrix Derivatives (2011).pdf

complex-valued matrix derivatives with applications in signal processing and

Complex-valued_matrix_derivatives.pdf

vector,matrix,and tensor derivatives

Matrix Logarithm with Frechet Derivatives and Condition Number：使用导数和条件数计算实数/复数算术中的矩阵对数。-matlab开发

MATRIX COOKBOOK

matrix calculus

最新资源