TO-FLOW：高效连续正规化流时间优化方法

81 浏览量更新于2023-10-25 收藏 16.89MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

125700TO-FLOW：具有时间优化的高效连续正规化流，伴随移动速度0Shian Du 1 * , Yihong Luo 1 , 2 � , Wei Chen 1 � , Jian Xu 1 , Delu Zeng 1 †01 华南理工大学 2 香港科技大学0201930230264@mail.scut.edu.cn, yihongluo@ust.hk, {202120130414,202010106028}@mail.scut.edu.cn,0dlzeng@scut.edu.cn0摘要0连续正规化流（CNFs）使用神经常微分方程（神经ODEs）在任意复杂分布和各向同性高斯分布之间构建可逆映射。由于神经ODE训练的递增复杂性，它在大型数据集上是不可行的。最近的工作应用了最优传输理论来规范ODE的动力学，以加速训练。本文提出了一种通过优化神经ODE训练的前向传播的演化时间的时间优化方法。在这种方法中，我们通过坐标下降交替优化CNF的网络权重和演化时间。通过时间正则化，确保了演化的稳定性。这种方法可以与原始的正则化方法结合使用。我们通过实验证明，所提出的方法可以显著加速训练，而不会牺牲基准模型的性能。01. 引言0作为无监督学习的一个令人印象深刻的例子，深度生成模型在各种任务中展示了强大的建模性能，包括变分自动编码器（VAE）[1]，生成对抗网络（GAN）[2]，自回归模型[3]和基于流的模型[4,5]。基于正规化流的生成模型在概率建模和推断问题上最近取得了巨大成功。正规化流[6]通过一系列可微分和可逆的变换提供了一种对高度复杂和多模态分布进行建模的通用和可扩展的框架。由于这些变换是可逆的，所以0* 同等贡献。顺序由抛硬币决定。† 通讯作者：DeluZeng。0通过计算雅可比行列式，正规化流可以实现强大的精确密度估计[7]。就像流体通过一系列可逆映射的管道流动一样，初始密度通过重复应用变量变换规则，'流动'到这个序列的末尾，直到获得所需的概率。正规化流是机器学习研究中越来越活跃的领域。应用包括图像生成[5,8]，噪声建模[9]，视频生成[10]，音频生成[11-13]，图形生成[14]，强化学习[15-17]，计算机图形学[18]和物理学[19-23]。正规化流的一个关键优势是其作为生成模型的表达能力，由于其能够任意逼近后验分布，同时保持明确的参数形式。由于使用最大似然估计和近似方法（如VAE）的深度生成架构的最新进展，通过求解常微分方程（ODE）获得的连续正规化流（CNF）后来在神经ODE中得到了发展[24]。神经ODE通过使用连续时间ODE来近似ResNet架构。神经ODE的动力学几乎可以任意选择，同时确保可逆性。与离散时间动力学相比，连续时间动力学具有一些计算上的优势，即在密度的演化公式中，存在一个迹代替行列式，以及用于内存高效反向传播的伴随方法。由于其可逆性和参数效率等优点，神经ODE近年来引起了越来越多的关注。例如，Grathwohl等人[25]提出了一种基于神经ODE的生成模型——FFJORD，用于解决逆问题；Quaglino等人[26]在神经ODE中使用了更高阶的状态近似，并提出了SNet以加速计算。YAN等人[27]和Anumasa等人[28]对该框架进行了进一步的算法改进，探索了神经ODE的鲁棒性质。有效的神经ODE(2)(3)= −Epx,(4)125710网络结构仍然是持续研究的主题 -例如，参见[29-31]。训练神经ODE的过程是在网络权重上最小化损失函数，同时满足非线性ODE约束。在某种程度上，训练可以被看作是一个最优控制问题。应用最优控制理论来改进训练已成为一个有吸引力的研究领域，并且近年来受到了更多的关注。例如，Pontryagin的最大值原理已被用于高效训练具有离散权重的网络[32]，多网格方法已被提出用于在训练过程中并行化前向传播[33]，并且在连续和离散层面上分析收敛性已导致了新的架构[34]。本文的目标是通过优化ODE的积分区间，并从新的角度对使用神经ODE的连续归一化流进行类似的实验。总之，我们的贡献如下：0•首先，我们首次提出了一种基于时间优化的改进算法，简单而有效地显著提升了神经ODE的训练。我们发现，时间优化可以达到与原始模型相媲美的性能，但训练时间显著减少。0•其次，我们引入了时间正则化和剪切函数，有效稳定了训练过程，并不会导致模型性能下降。0• 此外，我们交替优化运动速度 f 的参数 θ 和停止时间T，最终得到更兼容的 T 和θ，以减少函数评估的次数（NFE），并获得逐渐减小的训练损失。02. 预备知识02.1. 背景0现实生活中遇到的数据分布通常很复杂，导致数据背后的本质难以探索。通常使用的一种方法是通过 z = g(x)引入变量变换公式，我们有：0log px(x) = log qz(z) + log |det �g(x)|，(1)0其中 g: R^D -> R^D 是双射函数，�g 是 g的雅可比矩阵，det(∙) 是其行列式，px(x) 和 qz(z) 分别是 x和 z 的分布。通过这种方式，我们可以将分布 px(x) 转换为qz(z)。在实践中，计算行列式的计算成本为O(D^3)，这是使用公式（1）的主要瓶颈。相反，Chen等人[24]使用连续归一化流（CNF）来描述递归连续变换，而不是直接描述 g。0（1），其计算成本为O(D^2)。对于这种方法，可以得到所谓的瞬时变量变换公式，如下0∫，∫z(t0)log p(z(t0)) - log px(x)0∂z = x00∫，0其中 t ∈ [t0, T] 和 θ 是 f 的参数，称为运动速度，是一个正在训练的神经网络，J(t, θ) =∂f(z(t), t; θ)0∂z(t) 是 f(z(t), t; θ) 相对于 z(t) 的偏导数。然后通过从 t0 到T 的时间积分，可以得到 z 的变化：0z(T) = z(t0) + ∫ T0t0 f(z(t), t; θ)dt0≈ z(t0) +0i=1 f(z(ti), ti; θ)∆ti，0其中 N表示函数评估的次数（NFEs）。如果从最大似然估计的角度训练动力学（2），我们可以将似然估计从 x 切换到z。如果 z是各向同性的高斯变量，那么可以通过时间积分轻松计算 x的似然：0min θ ∈ Θ L(θ) = -Ep x {logp(z(t0); θ)}0�0log p(z(T); θ) + � T0t0 Tr(J(t, θ)) dt0�0其中 x =z(t0)。此外，Grathwohl等人[25]使用Hutchinson的迹估计器[35]，Onken等人[36]设计了一种改进的网络结构来计算方程（2）中的迹，其中成本都减少到O(D)。尽管计算单个 f的对数行列式变得更快，但仍然存在一些障碍导致总演化时间不可接受，例如 f的复杂结构和随时间增加的不可取的大NFEs。为了加速CNF的训练过程，Finlay等人[37]和Onken等人[36]引入了几种基于最优输运（OT）理论的与 f相关的正则化。他们都将输运损失 OT(θ)添加到目标函数中，可以描述为：0OT(θ) = � T0R D ∥ f(z(t), t; θ) ∥2 p(z(t))dzdt. (5)0因此，目标函数变为：0min θ ∈ Θ {L(θ) + OT(θ)}. (6)∆ti,(8)125720此外，他们将 z的演化过程视为粒子的运动，并从不同角度限制粒子的速度f(z(t), t; θ) 在 t 上。然而，在上述方法中，停止时间 T被视为固定的超参数。给定T，他们一直试图找到依赖于网络权重 θ 的最优动力学。02.2. 相关工作0有限流动归一化流动[6,38-40]使用有限数量的变换来构建复杂未知分布和简单分布之间的可微双射。NICE [41]和REALNVP[4]首先使用耦合层构建变换，从而确保模型的可逆性。在REALNVP的基础上改进，GLOW[5]引入了1×1卷积来增加模型的灵活性。然后，在FLOW++[8]中开发了一种注意机制来获得更具表现力的架构。IAF[42]和MAF[43]提出了一种自回归结构来增强模型的表现力。受益于自回归流动的众多改进[44-47]，其表现能力在基于流动的模型中逐渐被认可。0无限小流动受到Resnet[48]的介绍的启发，许多最近的工作[24,49]使用常微分方程构建随机变量之间的可逆变换。FFJORD[25]通过无偏迹估计获得了更灵活的架构和更低的雅可比行列式计算复杂度。增强-NODE [29]和NANODE[50]通过增加维度来解除常微分方程轨迹不能相交的限制。大多数连续流动通过伴随方法反向传播和更新梯度，节省内存，同时反向传播不准确的状态值。一些模型引入了检查点机制，在前向传播过程中存储一些状态节点，以准确解决后向积分[30, 31,51]。这些无限深度的方法从新的角度理论上连接了深度学习和动力系统。此外，神经ODE在图像配准[52]、视频生成[53]、强化学习[54]和系统识别[26]等众多任务中显示出巨大的潜力。最近的工作还将神经ODE扩展到随机微分方程[55,56]、黎曼流形[57]、贝叶斯学习框架[58]和图结构数据[59]。0通过最优输运的流动为了强制直线轨迹并加速训练，RNODE [37]和OT-FLOW[36]通过在原始损失上添加L2范数形式的输运成本来规范化FFJORD模型。0函数。RNODE还引入了Frobenius范数来稳定训练。此外，Tay-NODE[60]推广了L2范数的形式，并获得了任意阶的正则化项，但由于额外的计算成本，训练速度比RN-ODE慢。另一方面，TNODE[61]提出了将轨迹正则化为多项式的新视角。STEER[62]与我们的方法类似，也通过随机采样结束时间来优化时间，而我们的方法通过坐标下降来优化，如第3.1节所述。0算法1 使用TO-FLOW进行对数密度估计0输入：动力学 f θ，起始时间 t 0，初始停止时间 T0，样本的小批量 x，迭代次数 n，网络优化器P，时间优化器 Q。初始化：z ( t 0 ) = x，T = T 0 for i =1 → n do0[ z ( T ) , − ˆ Tr ] ← odeint ( f θ , [ x , 0 ] , t 0 , T ) �解ODE0ˆ θ ← P ( � θ E p x {− log p ( z ( t 0 )) } , θ ) �更新网络权重0ˆ T ← Q ( ∂ T E p x {− log p ( z ( t 0 )) } , T ) �更新停止时间的结束点0输出：最终动力学 f ˆ θ，停止时间 ˆ T03. 方法0受到训练CNFs和解决OT问题之间的相似性的启发[63,64]，一些先前的工作将最小化问题(5)规范化为强制直线轨迹和显著加快训练的问题[37, 60,61]。从另一个角度来看，如果我们通过一阶欧拉方法明确地表示方程(2)：0z ( t i + ∆ t i ) = z ( t i ) + f ( z ( t i ) , t i ; θ )∆ t i (7)0T = t 0 +0n0其中 n 表示总时间步数。很明显，总进化时间 T − t0 与 f (z ( t ) , t ; θ ) 相互作用，以复杂的方式影响 z ( t )的演化。如果不对总进化时间 T − t0提出要求，将形成一个欠正则化的轨迹，并导致不必要的大训练时间[62]。如何设计总进化时间的正则化？连续正规化流的公式如(3)所示，其中 t0 和 T都是在训练之前固定的超参数。一种直观的方法是同时优化t0 和 T，以找到一个合适的积分。minT ∈R L(˜θ, T) = −Epx{log p(z(t0); ˜θ)}= −Epx�log p(z(T); ˜θ) +� Tt0Tr(J(t, ˜θ))dt�,(11)∂L(˜θ, T)∂T= −∂Epx{log p(z(T); ˜θ)}∂T− Epx{Tr(J(T, ˜θ))}(12)125730图1. FFJORD和TO-FLOW在2维分布上的比较。0图2. FFJORD和TO-FLOW在棋盘数据集上的比较。图像顶部的数字表示模型的迭代次数。0水平。为了简单起见，我们固定 t 0，只优化T（有关通用形式的推导，请参见附录A）。然后结合依赖于θ 的移动速度的优化，我们可以将优化问题4修正如下：0min θ ∈ Θ ,T ∈ R { L ( θ , T ) } . (9)03.1. 坐标下降0该问题分为两个较小的子问题：一个训练网络权重θ，另一个优化停止时间 T以形成适当的轨迹。下面将讨论每个子问题的详细内容。0步骤1：训练网络权重。初始网络权重随机选择，然后通过固定停止时间 ˜ T 并解决子问题来更新：0min θ ∈ Θ L ( θ , ˜ T ) = − E p x { log p ( z ( t0 ); θ ) } , (10)0一旦解决了目标函数，我们就计算梯度 � θ L ( θ , ˜ T )来更新网络权重 θ，使用一些通用的类似SGD的优化器P，如Adam [65]。0步骤2：在进化时间上进行坐标下降。一旦网络权重 θ被更新，我们固定更新后的网络权重 ˜ θ，并解决子问题：0停止时间T通过计算L(˜θ, T)对T的导数来更新：∂Epx{log p(z(T); ˜θ)}∂T= Epx�∂ log p(z(T); ˜θ)∂z(T)◦ ∂z(T)∂T�,ˆT = Q�∂L(˜θ, T)∂T, T�,(14)Clip (T) =(17)125740数据0TO-FLOW0图3. MNIST数据集的样本。0数据0TO-FLOW0图4. CIFAR-10数据集的样本。0数据0TO-FLOW0图5. FASHION-MNIST数据集的样本。0由于我们只将停止时间T编码到特征图的通道上而没有引入直接对应关系，因此无法直接推导出∂T。相反，我们引入链式法则来获得可行的计算：0(13)其中◦表示点积，∂z(T)0∂T = f ( z ( T ) , T ; ˜ θ )，这个计算相对较好。一旦计算出导数，我们还使用一些类似SGD的优化器Q来更新T，例如Adam[65]：0其中�T表示在一次迭代中更新的停止时间。我们的方法的伪代码如算法1所示。03.2. 时间正则化0在我们的实验中，我们发现T在训练开始时变化很快。Finlay等人[37]和Onken等人[36]从OT理论的角度约束粒子的运动速度f(z(t), t;θ)以减少传输损失。受到他们的工作的启发，我们添加了对总进化时间T -t0的约束以稳定训练。这个技巧被称为时间正则化（TR），可以描述为：0TR ( T ) = α ∙ | T | ，(15)0其中α表示TR对CNF训练过程的影响力。然后，总目标函数变为：0min θ ∈ Θ ,T ∈ R { L ( θ , T ) + TR ( T ) }，(16)0TR如何影响CNF的训练过程？从图6和图7的左侧可以看出，较小的α会导致训练过程的不稳定性。因此，超参数α可以衡量时间正则化的强度。我们还提出了一种将截止时间T应用于剪切函数的操作。在这种情况下，模型每次迭代获得的T在区间[t0 + ε，2T0 - t0 -ε]内，其中心值为T0。经验证明显的优点是，在每次迭代过程中，T不会发生剧烈变化。每次迭代的所谓剪切函数定义如下：0� 02 T 0 − t 0 − ε T ≥ 2 T 0 −t 0 − ε t 0 + ε T 否则0其中ε是剪切参数。t0和T0分别表示积分的下限和上限的初始值。04. 实验0我们在各种密度估计任务上展示了所提出方法的优势。我们将结果与我们方法的基线FFJORD[25]和另一个仅通过随机采样停止时间的模型STEER[62]进行比较。评估了两个指标，测试损失和训练时间。我们想要看到我们的模型是否在训练中比FFJORD和STEER导致更快的训练过程，同时保持可比较的训练质量。为了比较训练速度，我们计算总训练时间和每次训练迭代的平均时间。我们还计算每次训练迭代的平均NFE。NFE定义为求解ODE2时评估右侧函数的数量。NFE越低，训练速度越快。010000200000000500006000001020304050=0=0.1=0.2=0.3010000200000005000060000200250300350400450500550600=0=0.1=0.2=0.302550751251501752001.051.101.151.201.251.30=0=0.1=0.2=0.3BPD = −Epx125750数据集模型比特/维度参数时间（小时）迭代次数时间/迭代（秒） NFE0FFJORD 1.017 400K 79.641 60K 6.409 750.67 MNIST STEER 1.024 400K 138.212 60K 12.3681265.48 TO-FLOW（我们的方法）1.026 400K 46.363 60K 3.353 396.810FFJORD 2.806 400K 87.845 60K 7.010 811.40 Fashion-MNIST STEER 2.803 400K 147.197 60K12.405 1308.82 TO-FLOW（我们的方法）2.807 400K 63.482 60K 5.415 513.790FFJORD 3.414 670K 108.314 50K 10.299 1228.04 CIFAR-10 STEER 3.424 670K 168.649 50K15.502 1749.17 TO-FLOW（我们的方法）3.429 670K 82.607 50K 7.373 716.850表1.图像数据集上的密度估计。我们提供测试损失（比特/维度）、参数数量（Param）、总训练时间（Time）、总迭代次数（Iter）、每次迭代的平均时间（Time/Iter）和平均函数评估次数（NFE）。我们使用移动平均而不是求和平均[25]。0迭代次数0梯度范数0MNIST0迭代次数0平均NFE0MNIST0时代0比特/维度0MNIST0图6. MNIST数据集上不同时间正则化下的模型性能。0为了评估训练质量，我们计算比特/维度作为度量标准：0� log ˆ p(x) / d - log2560log20�，(18)0其中log ˆp(x)表示我们模型的估计对数似然，d表示数据的维度。这是一种衡量流模型转换的分布与各向同性高斯分布的逼近程度的经典指标。较低的BPD值意味着模型可以有效地将未知数据分布转换为简单的已知分布。在所有实验中，我们使用与FFJORD相同的神经网络架构。我们所做的是将我们的时间优化集成到训练过程中。时间优化的实验设置如下所述。对于时间优化器，我们选择Adam[65]作为优化器，并设置学习率lr =10-2。停止时间T0的初始值设置为与FFJORD相同的固定值，即玩具数据中的0.5和图像数据中的1。时间正则化的超参数为α = 0.1。剪切函数的超参数为0ϵ =0.1。上述超参数在所有实验中共享。此外，我们在第5节中讨论了不同超参数选择的影响。04.1. 对2D玩具数据进行密度估计0我们首先在八个简单的2D玩具数据上训练TO-FLOW，这些数据作为标准基准[25]。在图1中，我们展示了TO-FLOW相对于FFJORD的性能，通过对一个简单的各向同性高斯进行变形，可以拟合多模态和不连续分布。实验中使用的八个2D数据的分布如图1的第一行所示。使用FFJORD和我们的方法学习的分布分别显示在第二行和最后一行。为了公平比较，FFJORD和TO-FLOW都进行了10000次迭代训练。对于棋盘、环、2螺旋和圆形，我们的模型产生了具有更高降维度的图像，这也表明我们的方法可以更高效地学习多模态和不连续分布。我们在图2中比较了FFJORD和TO-FLOW在棋盘数据集上的不同阶段。有关训练过程中不同阶段的更详细比较，请参见附录B。010000200000000500006000005101520=0=0.1=0.2=0.3010000200000005000060000200250300350400450500550600=0=0.1=0.2=0.302550751251501752002.802.852.902.953.003.053.103.15=0=0.1=0.2=0.3010000200000000500006000001020304050=0=0.1=0.2=0.5010000200000005000060000200300400500600=0=0.1=0.2=0.502550751251501752001.001.051.101.151.201.251.30=0=0.1=0.2=0.5125760迭代次数0梯度范数0FASHION-MNIST0迭代次数0平均NFE0FASHION-MNIST0时代0比特/维度0FASHION-MNIST0图7. FASHION-MNIST数据集上不同时间正则化下的模型性能。0迭代次数0梯度范数0MNIST0迭代次数0平均NFE0MNIST0时期0比特/维度0MNIST0图8. 在MNIST数据集上通过不同的剪辑函数的模型性能。04.2. 图像数据的密度估计0我们在三个图像数据集上比较了我们模型的性能：MNIST[66]，CIFAR-10 [67]和FASHION-MNIST[68]。在三个数据集上，我们使用批量大小为200，在单个GPU上训练200个时期。在表1中对TO-FLOW与FFJORD和STEER2进行了比较。在训练速度方面，我们的模型明显优于FFJORD和STEER。在所有数据集上，我们的模型使用更少的NFE和更短的训练时间，这也导致模型更快地收敛。总体训练时间的减少范围从23.7%到41.7%不等。在一些大型数据集上，如CIFAR-10，我们的模型比基线模型快23.7%，这证明了我们的模型在扩展到更大数据集方面的巨大潜力。对于测试损失（18），我们的模型与FFJORD和STEER也具有可比性，这表明添加时间优化没有性能惩罚。我们还在图3、4和5中可视化了我们模型生成的图像。可以看到，引入时间优化仍然保持了图像生成的质量。更多使用不同设置生成的图像可以在中看到01我们在所有实验中使用了Tesla-V100。2我们得到的结果与原论文不同。由于作者没有发布他们的代码，我们将继续尝试其他策略来复现他们的结果。0附录C.总体而言，所提出的方法在测试损失上具有可比性的性能，但训练速度显著提高。它使我们能够使用更大的网络结构和批量大小，这也保留了进一步提高性能的可能性。05. 分析与讨论0我们进行了一系列的消融实验，以更深入地了解我们的模型。05.1. 通过时间正则化实现稳定训练0梯度范数表示网络参数梯度的剪辑部分，通常用于训练来表征训练过程的稳定性。我们比较了我们模型在MNIST和FASHION-MNIST上不同时间正则化系数下的性能。我们在图6和7的左侧绘制了梯度范数，在中间和右侧绘制了平均NFE和测试损失，以衡量时间正则化对训练速度和密度估计的影响。我们发现，引入时间正则化显著稳定了训练过程，同时保持了训练速度和密度估计的准确性。010000200000000500006000005101520=0=0.1=0.2=0.5010000200000005000060000200300400500600700=0=0.1=0.2=0.502550751251501752002.802.852.902.953.003.053.103.15=0=0.1=0.2=0.5125770迭代次数0梯度范数0FASHION-MNIST0迭代次数0平均NFE0FASHION-MNIST0时期0比特/维度0FASHION-MNIST0图9. 在FASHION-MNIST数据集上通过不同的剪辑函数的模型性能。05.2. 剪辑函数的选择0时间优化的性能与剪辑参数ϵ的选择密切相关，因为它代表了进化时间T-t0的边界。我们分别比较了不同大小的剪辑参数ϵ的模型性能，并在图8和9中绘制出来。我们可以得出结论，更紧凑的边界也会导致更稳定的训练，并且不会导致模型性能的降低。05.3. 未来的工作0Finlay等人[37]和Onken等人[36]致力于在空间上优化轨迹，从而将其约束为直线以提高训练速度。在本文中，我们从时间的角度优化轨迹，这也会显著加快训练速度。一个直观的想法是将上述空间优化模型与我们的方法简单地结合起来。如何更有效地结合时间和空间优化仍然是后续研究的重点。06. 结论0我们提出了TO-FLOW模型，该模型在不引入额外计算成本的情况下优化时间。过高的计算成本是将CNF扩展到大型应用的主要瓶颈。我们在训练过程中集成了一个额外的时间优化步骤，从另一个角度对轨迹进行正则化，显著提高了计算效率。此外，我们的方法与其他正则化方法兼容，并可以应用于其他更具表现力的架构，以进一步提高性能。致谢：本工作部分得到了中国国家自然科学基金（61571005）和中国广州市基础研究计划（2020B1515310023）的资助。125780参考文献0[1] Diederik P Kingma and Max Welling. Stochastic gradientvb and the variational auto-encoder. In Second InternationalConference on Learning Representations, ICLR, volume 19,page 121, 2014. 10[2] Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, BingXu, David Warde-Farley, Sherjil Ozair, Aaron Courville, andYoshua Bengio. Generative adversarial nets. Advances inneural information processing systems, 27, 2014. 10[3] Dzmitry Bahdanau, Dmitriy Serdyuk, Philemon Brakel,Nan Rosemary Ke, Jan Chorowski, Aaron Courville, andYoshua Bengio. Task loss estimation for sequenceprediction. arXiv preprint arXiv:1511.06456, 2015. 10[4] Laurent Dinh, Jascha Sohl-Dickstein, and Samy Bengio.Density estimation using real nvp. arXiv preprintarXiv:1605.08803, 2016. 1, 30[5] Diederik P Kingma and Prafulla Dhariwal. Glow:Generative flow with invertible 1x1 convolutions. arXivpreprint arXiv:1807.03039, 2018. 1, 30[6] Danilo Rezende and Shakir Mohamed. Variationalinference with normalizing flows. In International conferenceon machine learning, pages 1530–1538. PMLR, 2015. 1, 30[7] Erhan Cınlar and Robert J Vanderbei. Real and ConvexAnalysis. Springer Science & Business Media, 2013. 10[8] Jonathan Ho, Xi Chen, Aravind Srinivas, Yan Duan, andPieter Abbeel. Flow++: Improving flow-based generativemodels with variational dequantization and architecturedesign. In International Conference on Machine Learning,pages 2722–2730. PMLR, 2019. 1, 30[9] Abdelrahman Abdelhamed, Marcus A Brubaker, andMichael S Brown. Noise flow: Noise modeling withconditional normalizing flows. In Proceedings of theIEEE/CVF International Conference on Computer Vision,pages 3165–3173, 2019. 10[10] Manoj Kumar, Mohammad Babaeizadeh, Dumitru Erhan,Chelsea Finn, Sergey Levine, Laurent Dinh, and Durk Kingma.Videoflow: A flow-based generative model for video. arXivpreprint arXiv:1903.01434, 2(5), 2019. 10[11] Philippe Esling, Naotake Masuda, Adrien Bardet, RomeoDespres, et al. Universal audio synthesizer control withnormalizing flows. arXiv preprint arXiv:1907.00971, 2019. 10[12] Sungwon Kim, Sang-gil Lee, Jongyoon Song, JaehyeonKim, and Sungroh Yoon. Flowavenet: A generative flow forraw audio. arXiv preprint arXiv:1811.02155, 2018. 10[13] Ryan Prenger, Rafael Valle, and Bryan Catanzaro.Wave-glow: A flow-based generative network for speechsynthesis. In ICASSP 2019-2019 IEEE International Conferenceon Acoustics, Speech and Signal Processing (ICASSP), pages3617–3621. IEEE, 2019. 10[14] Kaushalya Madhawa，Katushiko Ishiguro，Kosuke Nak-ago和Motoki Abe.Graphnvp：用于生成分子图的可逆流模型。arXiv预印本arXiv:1905.11600，2019年。10[15] Bogdan Mazoure，Thang Doan，Audrey Durand，JoellePineau和R Devon Hjelm.通过正则化流在离策略算法中利用探索。在机器人学习会议上，页码430-444。PMLR，2020年。10[16] Patrick Nadeem Ward，Ariella Smofsky和Avishek JoeyBose.通过正则化流策略改进软演员-评论员中的探索。arXiv预印本arXiv:1906.02771，2019年。10[17] Ahmed Touati，Harsh Satija，Joshua Romoff，JoellePineau和Pascal Vincent.通过乘法正则化流的随机值函数。在人工智能不确定性中，页码422-432。PMLR，2020年。10[18] Thomas M¨uller，Brian McWilliams，FabriceRousselle，Markus Gross和Jan Nov´ak. 神经重要性采样。ACMTransactions on Graphics（TOG），38（5）：1-19，2019年。10[19] Danilo Jimenez Rezende，GeorgePapamakarios，S´ebastien Racani`ere，MichaelAlbergo，Gurtej Kanwar，Phiala Shana- han和Kyle Cranmer.在环面和球面上的正则流。在机器学习国际会议上，页码8083-8092。PMLR，2020年。10[20] Jonas K¨ohler，Leon Klein和Frank No´e.等变流：用于对称密度的精确似然生成学习。在机器学习国际会议上，页码5361-5370。PMLR，2020年。10[21] Victor Garcia Satorras，Emiel Hoogeboom，Fabian BFuchs，Ingmar Posner和Max Welling.E（n）等变正则流用于3D分子生成。arXiv预印本arXiv:2105.09016，2021年。10[22] Peter Wirnsberger，Andrew J Ballard，GeorgePapamakarios，Stuart Abercrombie，S´ebastienRacani`ere，Alexander Pritzel，Danilo Jimenez Rezende和CharlesBlundell.通过学习映射进行目标自由能估计。化学物理学杂志，153（14）：144112，2020年。10[23] Kaze WK Wong，Gabriella Contardo和Shirley Ho.基于深度流的引力波种群推断。物理评论D，101（12）：123005，2020年。10[24] Ricky TQ Chen，Yulia Rubanova，Jesse Bettencourt和DavidDuvenaud.神经常微分方程。arXiv预印本arXiv:1806.07366，2018年。1, 2, 30[25] Will Grathwohl，Ricky TQ Chen，Jesse Bettencourt，IlyaSutskever和David Duvenaud.Ffjord：用于可扩展可逆生成模型的自由形式连续动力学。arXiv预印本arXiv:1810.01367，2018年。1, 2, 3, 5, 60[26] Alessio Quaglino，Marco Gallieri，Jonathan Masci和JanKoutn´ık.Snode：用于系统识别的神经ODE的谱离散化。arXiv预印本arXiv:1906.07038，2019年。1, 30[27] Hanshu Yan，Jiawei Du，Vincent YF Tan和Jiashi Feng.神经常微分方程的鲁棒性。arXiv预印本arXiv:1910.05513，2019年。10[28] Srinivas Anumasa和PK Srijith.在神经常微分方程中改善鲁棒性和不确定性建模。在IEEE/CVF冬季计算机视觉应用会议上的论文集中，页码4053-4061，2021年。1125790[29] Emilien Dupont，Arnaud Doucet和Yee Whye Teh.增强型神经ODE。arXiv预印本arXiv:1904.01681，2019年。2, 30[30] Amir Gholami，Kurt Keutzer和George Biros.Anode：用于神经ODE的无条件准确且内存高效的

下载后可阅读完整内容，剩余1页未读，立即下载