目视解投影：恢复塌陷尺寸的可能性

144 浏览量更新于2023-10-12 收藏 1020KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1目视解投影：塌陷尺寸的可能恢复GuhaBalakrishnan MITbalakg@mit.edu阿德里安五世Dalca MIT和MGHadalca@mit.eduFre'doDurandMITfredo@mit.edu赵美xamyzhao@mit.eduWilliam T. 弗里曼麻省理工学院freeman@mit.edu约翰五世Guttag MITguttag@mit.edu摘要我们介绍了视觉解投影：恢复已沿维塌陷的图像或视频的任务投影出现在各种环境中，诸如长曝光摄影，其中动态场景在时间上被折叠以产生运动模糊的图像，以及角相机，其中来自场景的反射光由于边缘遮挡物而沿着空间维度被折叠以产生1D视频。反投影是不适定的-对于给定的输入，通常有许多看似合理的解决方案。我们首先提出了一个概率模型捕捉任务的模糊性然后，我们提出了一个变分推理策略，使用卷积神经网络作为函数逼近器。在测试时从推理网络中采样，从与给定输入投影一致的原始信号的分布中产生plausi- ble候选。我们评估的方法在几个数据集的空间和时间- poral去投影任务。我们首先证明了该方法可以从空间投影中恢复出人体步态视频和人脸图像，然后证明了它可以从通过时间投影获得的运动模糊图像中恢复出运动手指的视频。1. 介绍捕获的视觉数据通常是沿着某个维度“折叠”的高维信号的投影。例如，长曝光，运动模糊的照片是通过沿时间维度投影运动轨迹产生的[11，25]。最近的医用X射线机使用空间投影射线照相术，其中X射线由发生器分布，并且成像的解剖结构影响探测器捕获的信号[26]。根据预测数据，是否有可能综合原始数据-a. 图像的空间反投影水平投影预测样本1预测样本2b. 视频的空间解投影c. 视频的时间反投影时间投影预测样本1预测样本2图1：我们的方法采用图像或视频的空间投影（a，b）或视频的时间投影（c），并输出可能的原始信号的分布。这里的投影是沿着原始信号的维度的像素值的平均值原始信号仅是可能已经合理地生成该特定投影的多个可能信号中的一个最终信号？在这项工作中，我们提出了一个算法，使-ables这种合成。我们专注于从空间投影中恢复图像和视频，以及从通过时间投影获得的长曝光图像中恢复视频反转投影的高维信号的任务是不适定的，使得任务在没有真实信号的一些先验或约束的情况下是这种模糊性包括171垂直投影预测样本时间172空间投影中的物体方向和姿态，以及时间投影中的“时间箭头”[ 43 ]（图10）。①的人。我们利用的事实是，大多数自然图像的有效尺寸往往比像素表示低得多，因为在一个给定的我们通过制定一个概率模型来处理这种模糊性，该模型用于生成给定投影的信号该模型由我们用卷积神经网络（CNN）实现的参数函数组成利用变分推理，我们得到一个直观的目标函数。在测试时从该解投影网络采样产生与输入投影一致的信号的合理示例。关于从部分观测值中恢复高维数据，有丰富的计算机视觉文献。单图像超分辨率[15]、图像去马赛克[46]和运动模糊去除[14]都是特殊情况。在这里，我们专注于空间或时间维度被完全删除的投影，导致信息的严重丢失。据我们所知，我们的方法是第一个在坍缩维度存在下的通用我们建立在相关问题的见解，以开发第一个解决方案，用于将外观和运动线索（在视频的情况下）外推到看不见的维度。特别是，我们利用基于神经网络的合成和随机预测任务的最新进展[2，17，44]。我们从数量和质量两个方面来评估我们的工作。我们证明，我们的方法可以恢复的分布的步态视频从二维时空图像，和人脸图像从他们的一维空间投影。我们还表明，我们的方法可以使用Moving MNIST数据集[37]对以运动模糊图像为条件的视频分布进行建模2. 相关工作投影在计算机视觉中起着核心作用，从图像形成的初始阶段开始，其中来自3D世界的光被投影到2D平面上。我们专注于一类特殊的投影，其中，感兴趣的高维信号沿一维折叠以产生观测数据。2.1. 角落相机角落相机利用反射光从一个隐藏的场景遮挡的障碍物与边缘来自场景的反射光线从相同的角位置相对于角落垂直集成，以产生一个1D视频（一个空间维度+时间）。该研究使用1D视频的时间梯度来粗略地指示人相对于角的角位置，但没有重建隐藏场景。作为对这一困难的重建任务的第一步，我们表明，视频和图像可以崩溃一个空间后恢复。2.2. 压缩感知压缩感知技术通过找到不确定线性系统的解，有效地从有限的观测值中重建信号[8，12]。这可能是由于在适当的基础上自然信号的冗余几种方法表明，即使随机选择碱基，也可以通过凸优化从少量（1000s）碱基中准确重建信号[6，7，16]。我们解决了一个极端的变体，其中信号的一个维度完全丢失。我们还采取了一种基于学习的方法来解决这个问题，该方法产生了潜在信号的分布，而不是一个估计。2.3. 条件图像/视频合成和未来帧预测基于神经网络的图像和视频合成已经受到了极大的关注。在有条件的图像合成中，图像是根据一些其他信息合成的，例如类别标签或相同维度的另一个图像（图像到图像的转换）[5，17，29，38，42，47]。与我们的工作相反，这些研究中的大多数都以与输出相同维度的数据为条件。视频合成算法主要关注无条件生成[33，39，40]或视频到视频转换[9，34，41]。在未来的视频帧预测中，以一个或多个过去的图像为条件来合成帧这些算法中的一些使用变分自动编码器（VAE）风格框架[23]将视频生成视为随机问题[2，24，44在这些问题中的输入和输出采取类似的形式，我们的，但在输入的信息是不同的。我们从这些研究中的随机制定我们的任务的见解。2.4. 将运动模糊图像转换为视频我们探索的一个应用是从运动模糊的图像中形成视频，这些图像是通过在很长一段时间内从场景中暂时聚集光子而创建的。最近的两项研究提出了从单个运动模糊图像中确定性地恢复视频序列[18，30]。我们提出了一个一般的反投影框架，包括但不限于时间的维度。此外，我们的框架是概率性的，捕获信号变异性的分布，而不是单个确定性输出（见图1）。①的人。3. 方法我们假设一个原始数据对{x，y}的数据集，信号y∈Rd1×···×dD和投影x∈Rd1×···dp−1×dp+1···×dD，其中D是y的维数，p是投影维数。173θ θy可能性，并使用随机梯度下降来优化它[20，23]。我们引入了一个近似的后验分布q∈（z|y）= N（z;μπ ι（y），σπ ι（y））：logP（y |x）=log EΣΣpφ（z|x）p（y|x，z）.（三）φ，θzqqψ（z|y）θ图2：测试时概率模型的示意图。阴影变量x是观察到的输入投影，y是高维信号，z是多项式潜在变量，φ和θ是全局网络参数，N是数据集中测试示例的数量。我们假设一个投影函数fω：RD→RD−1，参数为ω。在我们的实验中，我们经常关注一个案例，在实践中观察到，其中fω是ω中的线性运算利用Jensen不等式，我们得到了log p φ，θ（y）的下列证据下界（ELBO|x）：Σ Σlogpφ，θ（y|x）≥Ez <$q<$ logpθ（y|x，z）（4）− DKL[q<$（z|y）||pφ（z|X）]，其中DKL[·||·]是使变分分布逼近条件先验的Kullback-Leibler方差，从而得到正则化嵌入。我们从q∈（z）中估计出期望项dr a wing one z∈|y）在网络中使用重新参数化技巧[23]并评估表达式：2沿着p，例如平均：x=f（y）=dpωyp=k，logp（y|x，z= ||gθ（x，z<$）−y||2+常数（五）P=kωk=1K日θ2σ2其中y为ky沿着维度p的切片。y例如，灰度视频y∈RH×W×T可以通过在时间上对像素进行平均来投影到图像x∈RH×W去投射是一个高度欠约束的问题. 即使ω的值是已知的，也有dp为这导致训练损失函数被最小化：L φ，θ，θ（x，y，zθ）=βDKL[qθ（z|y）||pφ（z|x）]+的||g（x，z）−y||2（六）许多变量（y的大小）作为约束（x的大小）。θ2我们的目标是捕获分布p（y|X）对于特定的场景与数据我们首先提出了一个概率模型，建立在条件VAE（CVAE）上的去投射任务[36]（图2）。我们令z<$pφ（z|x）是多变量正态潜在变量，其捕获了不能单独从x解释的y的可变性。直观地说，z编码与未投影维度正交的信息。例如它可以捕捉到可能导致长曝光图像的各种场景的时间变化。我们定义pθ（y|x，z）作为高斯分布：p（y|其中σ2是每像素噪声方差，并且g（x，z）是去噪声方差。其中β是捕获正则化项的相对重要性的折衷参数。Eq.中的每像素重构项（6）可能导致模糊的输出。对于具有细微细节的数据集（如人脸图像），我们还添加了一个感知误差，该误差是在学习的特征上计算的空间[13，19，45]。我们使用距离函数Dγ （ ·， ·）[45]，该距离函数是在由带有参数 γ 的 VGG16 网络 [35] ，经过训练可以在ImageNet上进行分类。3.2. 网络架构我们实现了gθ（·，·）和q（·|·）和pφ（·|·）与神经网络工作。图3描绘了他用于2D到3D时间解投影任务的yθ架构投影函数，由θ参数化，负责产生给定x和z的y的无噪声估计。3.1. 变分推理与损失函数我们的目标是估计pφ，θ（y|x）：∫pφ，θ（y|x）=pθ（y|x，z）pφ（z|x）dz（2）z直接计算这个积分是困难的，因为它依赖于潜在的复杂参数函数，并且难以估计后验p（z|y）。我们代替使用变分推理来获得$%z投影！信号N174我们的2D到3D空间解投影架构几乎是相同的，不同之处仅在于x的维度和重新成形算子的维度排序。我们通过使用卷积和整形算子的低维版本来处理1D到2D的解投影。卷积层的数量和参数的数量因数据集的复杂性而异。3.2.1后级和前级编码器后验q_（？）分布参数的编码器|·）使用一系列跨步3D卷积运算符和Leaky ReLU激活来实现，直到体积175z高x宽x厚x 3>aƒ ƒ样本（列车时564，z8：Depr oject ionNetw ork跳过连接高x宽x高x信号（美高x宽x 3高x宽x英23z 4）：先验网络z8高x宽x 34重塑重塑$F>3a3样品（试验时投影（4）卷积（跨步）卷积+上采样卷积全连接q$）：Post eriorNetw or k图3：我们的网络架构概述，这里绘制了2D到3D时间解投影任务。该网络由三个参数化函数组成：|·）捕获变量后验分布，pφ（·|·）捕获先验分布，gθ（·，·）执行解投影。 z在训练期间从qφ（·）采样，在测试期间从pφ（·）采样。分辨率小于8×8×3。我们将这个体积变平，并使用两个完全连接的层来获得分布参数µm和σm编码器的条件-函数先验pφ（·|·）以类似的方式实现，具有2D跨越式解决方案。一个z是从q中导出的一个wn（·|·）并被馈送到解投影函数。在测试时，z从pφ（·|·）可视化结果。3.2.2反投影函数函数gθ（x，z<$）将x反投影为估计y<$。我们首先使用UNet风格的架构[32]来计算x的每像素特征。UNet由两个阶段组成。在第一阶段，我们应用一系列的步幅2D卷积运算符来提取多尺度特征。我们将一个完全连接的层应用到z上，将这些行为重新塑造成一个图像，并将此图像连接到粗特征。第二阶段应用一系列2D卷积和上采样操作来合成与x和更多数据通道相同尺寸的图像来自第一阶段的激活通过跳过连接连接到第二阶段激活以传播学习的特征。我们沿着折叠的维度扩展所得到的图像以产生3D体积。为此，我们应用2D卷积来产生TF数据通道，其中T是折叠维度的大小（在这种情况下是时间），F是一些特征。最后，我们将该图像重塑为3D体积，并应用一些3D卷积来细化并产生信号估计y。4. 实验和结果我们首先使用FacePlace [31]对人脸的1D到2D空间去投影评估我们的方法。然后我们显示了使用作者收集的人类步态视频的内部数据集进行2D到3D空间解投影的结果最后，我们使用移动MNIST [37]数据集演示了2D到3D的时间解投影。我们专注于投影，其中像素平均沿所有实验的维度。对于所有实验，我们将数据分为训练/测试/验证非重叠组。4.1. 执行我们在Keras [10]中使用Tensor-flow [1]后端实现我们的模型。我们使用ADAM优化器[22]，学习率为1e-4。我们为每个实验训练了单独的模型我们为每个数据集分别选择正则化超参数β，使得KL项在我们的验证数据上在[5，15]之间，以获得足够的数据重建，同时避免模式崩溃。对于所有实验，我们将z4.2. 使用FacePlace进行空间解投影FacePlace包含236个不同人物的5,000多张图像变异性的来源有很多，包括不同的种族、多种观点、面部表情，道具我们随机拿出30个人的所有图像，形成一个测试集。我们将图像缩放到128×128像素，并通过平移、缩放和饱和度变化进行数据增强。我们将我们的方法与以下基线进行比较：1. 最近邻选择器（k-NN）：使用均方误差距离将来自具有最接近测试投影的投影的训练数据集的k2. 一个确定性模型（DET）与我们的方法的下降网络gθ（x，z）相同，没有176Y XX输入项目地面1-NN LMMSE DET真相Ours Ours样本1样品2样品3我们我们(a) 水平投影结果。(b) 垂直投影结果。图4：FacePlace上的示例图像重建。左侧显示了输入投影和地面实况图像我们方法的样本是随机选择的。我们的方法是能够合成各种外观与投影密切匹配的输入。潜在变量z的引入。3. 一种线性最小均方误差（LMMSE）估计器，它假定x 和 y 是从分布 X ， Y 中提取的，使得y<$=EY[y]在x中是线性的：对于某些参数A和b，y<$=Ax+b。尽量减少y的期望MSE产生p（y）的封闭形式表达式|x）：p（y|x）=N（y;x −1（x−x<$$>）+y<$$>，图5：所有方法的FacePlace PSNR（顶部为垂直投影，底部为水平投影，左侧为最大信号PSNR（解投影估计），右侧为平均投影PSNR），100个测试投影的样本量不同我们的方法产生更高的最大信号峰值信噪比比所有的基线。DET对于一个样本具有较高的预期信号PSNR，LMMSE具有无限投影PSNR，因为它通过构造来捕获精确的线性信号投影关系。性能取决于测试示例，并且有时会产生错误的人的面孔。LMMSE产生非常模糊的输出，表明该任务的高度非线性性质。DET产生较少的模糊输出，但仍然经常将不同的可信面孔合并在一起。我们的方法捕捉头部方向的不确定性以及外观变化，如头发颜色和面部结构。头部方向的模糊性在水平投影中更明显，因为姿势变化对该维度的影响最大。我们的方法的输出也比LMMSE和DET更清晰，并且比1-NN更符合地面实况。我们还对模型进行了定量评估。我们使用PSNR（峰值信噪比，越高越好）来衡量，Σ −Σ−1），（7）确保图像之间的重建质量对于每个测试Y Y XXY X其中，X和Y是X的协方差矩阵Y和XY是它们的互协方差矩阵。对于我们的方法和DET，我们使用感知损失度量。图4显示了视觉结果，其中有一些随机选择的样本来自我们的方法。1-NN在在投影中，我们从每个模型中采样k个解投影估计值（DET总是返回相同的估计值），并记录任何估计值与地面真实图像之间的最高PSNR。对于每个解投影估计，我们重新投影并记录输出投影相对于测试（初始）投影的平均PSNR图图5示出了具有变化的样本k的结果，我们我们输入项目地面1-NN LMMSE DET真相Ours Ours样本1样品2样品3177时间房我们房我们房我们房我们图6：来自内部步行数据集的四个示例的示例输出。左列显示输入垂直投影。对于每个示例，顶行显示地面真值序列，底行显示我们的方法100个测试投影。随着样本数k的增加，我们的方法的信号（解投影）PSNR提高，突出了我们的概率方法的优势。随着k的增加，k-NN的最佳估计接近我们的方法在信号重建中的最佳估计，但许多差的估计也被k-NN 恢复，如其下降的投影 PSNR 曲线所证明的。LMMSE具有完美的投影PSNR，因为它通过构造捕获信号和投影之间的精确线性关系。当绘制一个样本时，DET具有更高的信号PSNR，因为它平均了合理的图像，而我们的方法没有。我们提出的方法超过DET后，1个样本。输入投影输入投影输入投影输入投影时间时间时间时间1784.3. 带行走视频的我们定性评估我们的方法重建人体步态视频从垂直空间投影。这种情况是实际相关的角落摄像机，描述在第二节。2.1.我们收集了30个受试者在指定区域行走的35个视频，每个视频一分钟。受试者的着装、身高（5 '2”-6' 5”）、年龄（18-60岁）和性别（18 m/12 f）各不相同。受试者没有被指示以任何特定的方式行走，许多人以奇怪的方式行走。的20191817161514131211100.00.51.01.52.02.5 3.0样本数量（log10标度）5045403530252015100.00.51.01.52.02.53.0样本数量（log10标度）背景对于所有视频都是相同的我们将视频下采样为每秒5帧，每帧为256 ×224像素，并对每个视频应用水平平移的数据增强。我们让6个受试者进行测试集我们预测24帧的序列（实时约5秒）。图图6 给出了几个重建的例子，通过设置 z=μφ（x），先验分布的平均值来获得。我们的方法恢复了许多细节，从垂直投影单独。背景很容易合成，因为它在数据集中的所有视频中是一致的。值得注意的是，许多外观和姿态的细节，也恢复的主题。像素强度的细微波动和投影前景轨迹的形状包含关于沿着塌陷维度的前景信号的线索。例如，该方法似乎了解到，随着时间的推移变得更暗和更宽的轨迹可能对应于一个人走得更靠近相机。第三个主题是一个说明性的结果，我们的方法将白衬衫和黑裤子分开，尽管它们的方面在投影中并不明显。预测的细节，以及一个学习模式，衬衫往往比裤子颜色浅，可能使这种恢复。最后，该方法可能会与训练数据中很少见到的模式作斗争，例如第五帧中第四个受试者的大步除了这些实验之外，我们还在DGAIT数据集[3]上训练了一个单独的模型，该数据集由更多的受试者（53）组成我们获得了类似质量的结果，如图所示。7 .第一次会议。图8：100投影的移动MNIST PSNR图测试实例，类似于图。五、4.4. 移动MNIST移动MNIST数据集由10，000个两个移动手写数字的视频序列组成手指可能会相互遮挡，并从帧的边缘反弹给定一个由64×64×10大小的视频子剪辑组成的数据集，我们通过对帧进行时间平均来生成每个投影x，这与其他生成运动模糊图像的研究在大规模[18，21，27，28]。尽管该数据集的外观和动力学简单，但合成数字外观并捕获每个轨迹的合理方向是具有挑战性的。我们的方法的三个测试示例的样本输出在图中可视化。9.第九条。为了说明通过我们的方法学习的时间方面，我们从我们的方法中为每个投影采样10个序列，并呈现相对于地面实况剪辑向前和向后运行具有最低均方误差的序列。我们的方法是能够推断出的字符的形状从一个显着的运动模糊的输入图像，难以解释，即使是人类的标准。此外，我们的方法捕获了数据集的多模态动态，我们通过呈现两个运动序列来说明：第一个序列与地面实况的时间方向相匹配，第二个序列与反向时间进程相匹配。我们使用PSNR曲线量化我们的准确性，类似于第一个实验，如图所示8. 由于生成完全联合共同体的计算成本过高，房我们垂直t投影方差矩阵，我们不评估LMMSE在这个实验中。DET通过合并不同的合理时间顺序产生模糊序列。与第一个实验类似，这导致DET输出具有最佳预期信号（解投影）PSNR仅针对k=1。对于k>1，我们的方法在信号PSNR方面明显优于DET。DET在投影PSNR方面表现更好，因为在本实验中，对所有合理序列的平均值进行估计产生非常准确的投影。与FacePlace实验相比，k-NN在该实验中的表现相对较差，这是由于在较高的频率下难以找到最近的邻居。图7：DGAIT步行数据集的示例输出。尺寸.XNNDETVDP最大信号PSNRNNDETVDP平均投影峰值信噪比179时间（投影变量）输入投影房我们我们输入投影房我们我们输入投影房我们我们图9：移动MNIST数据集的示例输出。左列显示输入投影。对于每个示例，顶行显示地面实况序列。我们显示了两个样本序列，我们的方法产生的每个输入投影：第一个匹配的地面真理的时间方向，第二个合成的逆时间进程。5. 结论在这项工作中，我们引入了视觉解投影的新问题：将沿着维度折叠的图像或视频合成为低维对象。我们提出了第一种通用方法，该方法处理图像和视频，以及沿着这些数据的任何维度的投影。我们解决了任务的不确定性，首先引入了一个概率模型，捕获的分布的原始信号的投影条件。我们使用CNN实现了该模型的参数化函数，以学习每个域中的共享图像结构，并实现准确的信号合成。虽然从一个坍塌的维度来的信息，从一个投影到裸者身上，我们的研究结果表明，许多我们证明了这一点，通过重建图像中面部的细微细节和视频中的精确运动，仅从空间投影。最后，我们说明了视频可以重建从显着的运动模糊的图像，即使与多模态轨迹，使用移动MNIST数据集。这项工作说明了一个新的，雄心勃勃的成像任务的有希望的结果，并打开了令人兴奋的可能性，在未来的应用，揭示了无形的。致谢这项工作由DARPA REVEAL计划资助，合同号为。HR0011-16-C-0030，NIH 1R21AG050122Wistron Corp.180引用[1] Mart´ın Abadi， Paul Barham ， Jianmin Chen ， ZhifengChen ， Andy Davis ， Jeffrey Dean ， Matthieu Devin ，Sanjay Ghe-mawat，Geoffrey Irving，Michael Isard，etal. Tensorflow：A大规模机器学习系统。在第12届{USENIX}操作系统设计和实现研讨会（{OSDI}16）中，第265-283页，2016年。4[2] MohammadBabaeizadeh ， ChelseaFinn ， DumitruErhan，Roy H Campbell和Sergey Levine。随机变分视频预测。arXiv预印本arXiv：1710.11252，2017。2[3] RicardBorr a`s，A`gataLapedriza，andLauraIgual. 人体步态分析中的深度信息：性别认知的实验研究。在国际会议图像分析和识别，第98-105页Springer，2012. 7[4] KatherineLBouman ， VickieYe ， AdamBYedidia ， Fre'doDurand ， Gregory W Wornell ， Antonio Torralba 和William T Freeman。将拐角转换为摄像机：原则和方法。在计算机视觉国际会议上，第1卷，第8页，2017年。一、二[5] Konstantinos Bousmalis 、 Nathan Silberman 、 DavidDohan、Dumitru Erhan和Dilip Krishnan。无监督像素级域自适应生成对抗网络。在IEEE计算机视觉和模式识别会议（CVPR），第1卷，第7页，2017年。2[6] Emmanuel J Candes和Justin K Romberg从随机投影中恢复信号。在计算成像III，第5674卷，第76-87页中。国际光学与光子学学会，2005年。2[7] Emmanuel J Candes和Terence Tao。从随机投影的近最佳信号恢复：通用编码策略？ IEEE transactions oninformation theory，52（12）：5406-5425，2006. 2[8] EmmanuelJCan d`s和MichaelBWakin。压缩采样简介IEEE信号处理杂志，25（2）：21-30，2008年。2[9] 陈东东，廖静，卢远，余能海，华刚。连贯的在线视频风格转移。在proc 国际机场Conf.计算机视觉（ICCV），2017年。2[10] Francois Chollet et al.K 时代 https://keras.io ，2015年。4[11] 戴胜阳和吴英。侠影的动作。2008. 1[12] 大卫 ·L· 多诺霍压缩感知。 IEEE Transactions onInformation Theory，52（4）：1289-1306，2006. 2[13] Alexey Dosovitskiy和Thomas Brox基于深度网络生成具有感知相似性度量的图像。神经信息处理系统进展，第658-666页，2016年。3[14] Rob Fergus 、Barun Singh 、Aaron Hertzmann 、 Sam TRoweis和William T Freeman。从单张照片中消除相机抖动。在ACM图形交易（TOG），第25卷，第787-794页中ACM，2006年。2[15] William T Freeman，Ellis R Jones和Egon C Pasztor。基于示例的超分辨率。 IEEE Computer Graphics andApplications，22（2）：56-65，2002. 2[16] 贾维斯·豪普特和罗伯特·诺瓦克。从噪声随机投影重建信号 IEEE Transactions on Information Theory ， 52（9）：4036-4048，2006. 2[17] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei AEfros.使用条件对抗网络的图像到图像翻译。arXiv预印本，2017年。2[18] Meiguang Jin，Givi Meishvili，and Paolo Favaro.学习从单个运动模糊图像中提取视频序列arXiv预印本arXiv：1804.04065，2018。二、七[19] 贾斯汀·约翰逊，亚历山大·阿拉希，李飞飞。实时风格转换和超分辨率的感知损失。欧洲计算机视觉会议，第694施普林格，2016年。3[20] Michael I Jordan ， Zoubin Ghahramani ， Tommi SJaakkola，and Lawrence K Saul.图解模型的变分方法导论Machine learning，37（2）：1833[21] TaeHyunKim ，KyoungMuLee ，BernhardSch oülk opf，andMichael Hirsch.基于动态时间混合网络的在线视频去模糊。计算机视觉（ICCV），2017年IEEE国际会议，第4058IEEE，2017年。7[22] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。4[23] Diederik P Kingma和Max Welling。自动编码变分贝叶斯。arXiv预印本arXiv：1312.6114，2013。二、三[24] Alex X Lee 、 Richard Zhang 、 Frederik Ebert 、 PieterAbbeel、Chelsea Finn和Sergey Levine。随机对抗视频预测。arXiv预印本arXiv：1804.01523，2018。2[25] Anat Levin ， Peter Sand ， Taeg Sang Cho ， FredoDurand，and William T.弗里曼。运动不变摄影。ACMTransactions on Graphics（SIGGRAPH 2008）. 1[26] Clint M Logan ， Daniel J Schneberk ， Peter J Shull 和Harry E Martz。X射线成像：基础知识、工业技术和应用。CRC Press，2016. 1[27] Seungjun Nah，Tae Hyun Kim，and Kyoung Mu Lee.深度多尺度卷积神经网络动态场景去模糊。CVPR，第1卷，第3页，2017。7[28] Mehdi Noroozi，Paramanand Chandramouli，and PaoloFavaro.运动去模糊在野外。在德国模式识别会议上，第65-77页。Springer，2017. 7[29] Augustus Odena，Christopher Olah，and Jonathon Shlens.辅助分类器gans的条件图像合成。arXiv预印本arXiv：1610.09585，2016年。2[30] Kuldeep Purohit，Anshul Shah和AN Rajagopalan。使模糊的瞬间鲜活起来。在IEEE计算机视觉和模式识别会议论文集，第6830-6839页2[31] Giulia Righi，Jessie J Peissig和Michael J Tarr。伪装的脸。Visual Cognition，20（2）：1434[32] Olaf Ronneberger，Philipp Fischer，and Thomas Brox. U-net：用于生物医学图像分割的卷积网络。医学图像计算和计算机辅助干预国际会议，第234-241页。施普林格，2015年。4181[33] Masaki Saito、Eiichi Matsumoto和Shunta Saito。具有奇异值裁剪的临时生成对抗网. 在IEEE国际计算机视觉会议，第2卷，第5页，2017年。2[34] Eli Shechtman，Yaron Caspi，and Michal Irani.时空超分辨率IEEE Transactions on Pattern Analysis and MachineIntelligence，27（4）：531-545，2005。2[35] Karen Simonyan和Andrew Zisserman用于大规模图像识别的非常深的卷积网络。 arXiv 预印本 arXiv ：1409.1556，2014。3[36] Kihyuk Sohn，Honglak Lee，and Xinchen Yan.使用深度条件生成模型学习结构化输出表示。神经信息处理系统，第3483-3491页，2015年。3[37] NitishSrivastava，ElmanMansimov，andRuslanSalakhudi-nov.使用lstms的视频表示的无监督学习。国际机器学习会议，第843-852页，2015年。二、四[38] Yaniv Taigman Adam Polyak和Lior Wolf非监督跨域图像生成。arXiv预印本arXiv：1611.02200，2016。2[39] Sergey Tulyakov，Ming-Yu Liu，Xiaodong Yang，andJan Kautz. Mocogan：分解运动和内容以生成视频。arXiv预印本arXiv：1707.04993，2017。2[40] Carl Vondrick Hamed Pirsiavash和Antonio Torralba生成具有场景动态的视频。神经信息处理系统的进展，第613-621页，2016年。2[41] Ting-Chun Wang，Ming-Yu Liu，Jun-Yan Zhu，GuilinLiu，Andrew Tao，Jan Kautz，and Bryan Catanzaro.视频到视频合成。在神经信息处理系统（NIPS）的进展，2018年。2[42] Ting-Chun Wang，Ming-Yu Liu，Jun-Yan Zhu，AndrewTao，Jan Kautz，and Bryan Catanzaro.基于条件gans的高分辨率图像合成与语义处理。arXiv预印本arXiv：1711.11585，2017。2[43] Wei Donglai ，Joseph J Lim ，Andrew Zisserman ， andWilliam T Freeman.学习和使用时间之箭。在IEEE计算机视觉和模式识别会议论文集，第8052-8060页2[44] Tianfan Xue ， Jiajun Wu ， Katherine Bouman ， andWilliam Freeman.视觉动态：通过分层交叉卷积网络的随机未来生成。IEEE关于模式分析和机器智能的交易，2018。2[45] Richard Zhang 、 Phillip Isola 、 Alexei A Efros 、 EliShechtman和Oliver Wang。深度特征作为感知度量的不合理有效性。arXiv预印本，2018年。3[46] Ruiwen Zhen和Robert L Stevenson.图像演示。彩色图像和视频增强，第13-54页施普林格，2015年。2[47] Jun-Yan Zhu ， Taesung Park ， Phillip Isola ， Alexei AEfros.使用循环一致对抗网络的不成对图像到图像翻译。arXiv预印本，2017年。2

下载后可阅读完整内容，剩余1页未读，立即下载