SDE生成器——基于SDE的瞬时流建模方法

随机微分方程

29 浏览量更新于2025-01-16 收藏 1.83MB PDF 举报

11635

神经TMDlayer：通过SDE生成器建模要素的瞬时流

孟梓航

Vikas Singh

Sathya N.

拉维

威斯康

星大学麦迪逊分校

伊利诺伊大学芝加

哥分校

网址：zihangm@cs.wisc.edu，vsingh@biostat.wisc.edu，网址：www.example.com，sathya@uic.edu

摘要

我们研究了如何随机微分方程（

SDD

）为基础的想

法可以激发新的修改现有的一组问题在计算机视觉的

出租。松散地说，我们的配方是有关的显式和隐式的

数据扩充和组

equivariance

的战略，但来自新的结果估

计无穷小发电机一类随机过程的

SDE

文献。如果并且

当在应用程序

任务的需求与我们可以有效处理的过程

类型的固有属性和行为之间存在名义上的协议时，我

们获得了可以被并入任何现有网络架构内的非常简单

和有效的插件层，具有最小的修改和仅几个附加参

数。我们在一些视觉任务上展示了有前途的实验，包

括几个镜头学习，点云变换器和深度变分分割，以提

高效率或性能。

介绍

考虑具有参数

我们使用下面的更新规则来训练它，

←

−

（

，

）

（

）

其中z是表示数据的随机变量，R（）表示损失函数。

现在，考虑同一更新公式的稍微一般的形式，

←

− η

（

，

T z

）

（

二）

这里唯一的变化是引入了T，可以假设T是

某个

数据转

换矩阵。如果T=I，我们看到随机梯度下降（SGD）是

（2）的特殊情况，假设我们用有限的iid样本（或小批

量）近似（2）中的期望。让我们稍微打开数据转换符

号，看看它提供了什么如果选择一组变换T

由于Tz是预先确定的，并且在训练开始之前被应用于

数据样本，因此Tz简单地表示经由数据增强导出的数

据样本。另一方面，Tz可以不必如上所述被显式地实

例化。例如，球形CNN[16]表明，当点云类型的数据

嵌入到具有球形卷积算子的球体上时，可以学习与旋

转的群作用等变的数据表示，而无需显式数据增强过

程。特别地，这些方法

将

每个数据点配准在标准

模板

（如球体）上，在标准模板上可以基于微分几何构造

来定义从概念上讲，关于等方差的许多结果[16，48，

42]表明，通过在训练期间考虑每个样本（3D点云）的

整个

轨道，对于特殊类型的T，可以避免显式数据增

强。

我们可以从更广阔的角度来看待上述观点。在数

据点

上重复应用变换

产生离散序列

（

）

∞

其

中

（0）

，

（

）

−

。通常，由

（

）表示的

第

步处的变换矩阵甚至不需要从固定矩阵生成。实

际上，在实践中

，

（

）是从一组适当的变换（例

如旋转、模糊等）中选择的，具有某种排序，其甚

至可以是随机的。在高层次上，诸如

[16

，

12]

的方法

可以被视为（

）的特例。要使这一论证精确，需要

添加适当数量的辅助变量，并通过对所有可能的可

实现

进行平均

具体步骤并不是特别相关，因为除了帮助

建立我们刚刚描述的直觉之外，特定群体行为的等方差算法

并不直接告知我们的发展。为了方便起见，我们将主要

关注连续时间系统，因为在相同的初始条件下，两

个（连续和离散）系统的轨迹在所有整数

处重合。

z（t）实际上代表什么？z（t）有两种解释：（i）

它形式化为on-the-fly或instan-

11636

数据增强

在相同的初始条件下。我们的主要见解是，最近的结

果在SDE文献表明，（非-





 







当 时





支持集

查询

在某些技术条件下），动态z（t）可以完全由过程z

（t）的无穷小生成元（的函数）来表征，该生成元可

以使用有限数据来有效地估计。我们利用这一结果，

通过一个简单的修改估计过程-具体地，我们利用来自

[2]的结果，其中作者将生成器称为目标测量差异融合

图（TMDmap）。这导致我们的TMDlayer，可以方便

地下降到一个网络，并作为一个即插即用的模块，只

有几个额外的参数。当在标准深度学习管道中使用

层





TMDlayer

层



TMDlayer

EGNN

层 



TMDlayer

如果可用，我们的层允许结合更丰富的域信息，或者

作为正则化器或增强方案，或者作为现有层的替代。

我们发现这有利于模型的整体性能。

我们的贡献。神经ODE等模型

[10]和神经SDE[34]通常将动态系统参数化为独立模

型，并显示如何通过此模块有效地反向传播梯度。我

们采取不同的方法：我们提出了一种随机过程启发

层，其最基本的形式可以被认为是可以与深度神经网

络中的现有层一起工作的增强方案。但不同的是-

图1：

TMDlayer在少镜头识别、点云学习和分割中的使用概述。

“EGNN”是指边缘标记图神经网络[25];“FF”是指前馈层（10），

“CV”是指我们提出的深度Chan Vese模型（12）。流形（顶部）

描

述了L和

的含义

：L捕获了流形的结构。L

是从样本构造的L的近

似。

瞬时（平滑）数据增强，这通常用于通过利用R的景观

中的对称性来加速训练，以及（ii）数据相关T可以被

设计用于类似不变性的要求，这对于下游应用是有用

的事实上，学习数据相关的转换也已经被[14]探索

过。这项工作的出发点是利用提供给我们的数据样本

只是一个基本过程的

快照

，我们将很快讨论的观点尽

管如此，关键的假设是，将这个过程指定给我们的深

度神经网络模型将是有益的，并为文献中已经使用的

一些策略提供了新的视角。

主要思想。前面使用“过程”来描述数据样本暗示了

常微分方程（ODE）的潜在使用。虽然ODE类型的模

型

可以

用来描述简单的过程，但它不足以模拟更复杂

的过程，从而更好地反映实际考虑。直接实例化SDE

的“z（t）”概念的关键挑战这显然是不可行，因为

存在无限可能的变换，

从发生在输入图像空间中的显式数据增强（旋转，翻

转）开始，我们的层可以在特征空间中使用，并且完

全适应输入。但这不仅仅是

另一个

增强计划。我们的

层允许对数据/特征的时变/随机特性进行建模，并通过

具有高度参数效率的适当参数化来控制它们。我们表

明，这种随机性不仅在数学上是有趣的，但可以利用

的应用程序，包括点云变压器，对象分割和少拍识

别。

1.1.

相关工作。

视觉的早期工作已经广泛使用微分方程[7，36，

45，6]，特别是用于分割。在机器学习中，微分方程

对于流形学习[3]和半监督学习[4，38]等非常有用。最

近，许多策略将微分方程与深度神经网络（DNN）相

结合，用于解决视觉问题。例如，[9]在CNN编码器之

后利用条件随机场来细化语义分割结果，其更新规则

可以被视为微分方程，并且[37，22]使用CNN来提取

视觉特征，然后将其馈送到活动轮廓模型，该模型根

据微分方程迭代地细化轮廓。另外，文献包括使用

DNN求解微分方程的策略[24，39，32]。在过去的几

年里，一个

TMDlayer

的使用案例

瓶

11637

≡

∇ ∇

/≡

∈

D ∈

M R

包括神经ODE[10]、神经SDE的公式的ber

[34]和增强神经ODE[15]已经被提出，其动机是需要在

DNN内求解微分方程模块。请注意，[34]提出用随机

噪声稳定神经ODE网络，这会导致神经SDE，这与这

里研究的设置完全不同。最后，我们注意到，SDE作

为一种工具也被用于DNN的随机分析[8]。

预赛

背景

偏微分方程（

PDE

）是一种函数方程，其中

解满足

被解释为多变量函数的其各种偏导数

之间的给

定关系。考虑用于分割的常用

PDE

模型

运算符的表达式

，

在（

）中。在这种情况下，回

想一下，当

σ0

时，

Diffusion maps[13]

通过使用

（

）

来

构建作为线性算子近似

的

m m

矩阵

来

揭示几何结

构。

解释SDE。回想一下，当在

输入空间

上使用时，它

可以对输入图像的随机变换进行建模（旋转和裁剪是

特殊情况）。当在

特征空间

上使用时（例如，在DNN

的中间层中），然后它可以对特征的随机变换进行建

模，其中很难设计增强方法。此外，它使我们能够参

数化和学习

特征的潜在随机变化/SDE

路线图。在下一节中，我们将描述深度网络训练管

道中微分算子的估计。基于此估计，我们将TMDlayer

定义为

其中

依赖于

和

普

雷

特

. 以著名

对

（

）的近似：

（

，

）

在短时间内

使用泰勒定理的间隔

Δt

在第

节中，我们讨论了四个

Feynman-Kac公式，我们知道解u可以等价地写为关于

连续时间随机过程X

的条件期望。这意味着可以通过

对随机积分问题的序列求平均来获得解（分割）u对于

预测，我们需要一个代数概念，称为函数的

给定时不变随机过程

，函数

的（无穷小）生成

元

被定义为，

（

）

：

lim

[

（

）

]

−

（

）

（

三）

→

如果过程

是确定性的，则期望算子

变为恒等

式，因此

生成器

简单地测量

相对于

的瞬时变

化率

。

此外

，假设

也

可以表示为（

〇）

随机微

分方程（

SDE

），即，

满足：

（

）

（

）

dW t

（

）

其中

是具有协方差C的（多维）布朗运动，并且b

、

表示漂移和扩散函数。然后，结果证明可以以封闭形

式（没有限制）写成，

TMDlayer的不同应用，其中

在特征流（解释为向量

场）

（

，

）下的前推度量

（

，

Δ t

）可以是合

理的选择。

前馈网络中L的逼近

我们现在讨论一个最近提出的非参数过程来估计L

给定有限样本x时σ0。这是一个重要的因素，因为在我

们的设置中，我们没有一个有意义的小批量样本模

型，特别是在高维设置中（例如，图像）。

在DNN训练中构建L

。中的定义

（3）虽然直观，但对于计算目的不是立即有用的。在

一些技术条件下，如b

，

的

光滑性和C的秩，[2]

最近证明了对于满足（4）的过程，确实有可能构造的

有限样本估计量

。在[2]中，该方法被称为目标测量

扩散（TMD），因此我们将我们提出的层称为TMD

层。

为了构造微分算子，我们首先需要从数据中计算

核矩阵

K R

对于涉及图或一组点作为输入的问

题，我们可以简单地使用给定的数据点（

将是图

中节点的数量，或集合中点的数量），而对于具有

单个输入的问题（例如，标准图像

σCσ

，

（

）

分类），我们可能无法直接访问m

个

数据点在这种情

况下，我们可以通过以下方式构造核矩阵：

其中作为函数

上的

线性

算子，参见

[29]

。我们将很

快解释如何估计和使用。

Setup.

考虑这样的设置，其中

表示我们的输入

特征（例如，

RGB

通道的

阵列图像），

是具有

层

的网络。假设数据为点

（

）

的形式

：

xmN

，其中

N >0

，它们位于一个紧致的

维可微子流形

上

，假设

是未知的。我们假设

在我们的情况下是

使用样本

∈ M隐式定义的，因此不可能得到封闭

形式

从数据集中采样一批并一起处理它们，因为我们通常

可以假设整个数据集实际上是从某个底层分布中采样

的。

在获得数据样本集之后，我们首先使用可学习线性

层将数据投影到具有合适h的潜在空间R

中

，然后使用

适当的核函数对其进行评估，例如，

（

，

）

= exp

（

−

（

）

−

− y

）

。

（

不

剩余13页未读，继续阅读

身份认证购VIP最低享 7 折!

30元优惠券

cpongm

粉丝: 5

SDE生成器——基于SDE的瞬时流建模方法

Neural TMDlayer Modeling Instantaneous Flow of Features.pdf

Arcgis10.3创建SDE数据库、导入、导出手册

score_sde:通过随机微分方程式基于分数的生成建模的官方代码（ICLR 2021，口头）

score_sde_pytorch:通过随机微分方程（ICLR 2021，口服）的基于分数的生成建模的PyTorch实施

thanatos:一个用于从EVE SDE生成琐事问题的Python库

sde

vb连接sde数据库方法

sde-28s测涂仪操作流.pdf

SDE.rar_SDE_sde-gcc

SDE.rar_ArcEngine sde_SDE_arcengine _连接SDE

最新资源