基于胶囊的半监督视频对象分割方法

44 浏览量更新于2023-10-12 收藏 1.55MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1CapsuleVOS：使用胶囊路由的半监督视频对象分割凯文·杜阿尔特duarte@knights.ucf.eduYogesh S Rawatyogesh@crcv.ucf.edu穆巴拉克沙阿shah@crcv.ucf.edu中央佛罗里达大学计算机视觉研究中心Orlando，FL摘要在这项工作中，我们提出了一种基于胶囊的半监督视频对象分割方法。当前的视频对象分割方法是基于帧的，并且通常需要光流来捕获跨帧的时间一致性，这可能难以计算。为此目的，我们提出了一个基于视频的胶囊网络，CapsuleVOS，它可以分割几个帧在一次条件下的参考帧和分割掩码。这种条件是通过一种新的路由算法进行注意力为基础的有效胶囊选择。我们解决了视频对象分割中的两个挑战性问题：1）小对象的分割和2）对象随时间的遮挡。分割小对象的问题通过缩放模块来解决，该模块允许网络处理视频的小空间区域。除此之外，该框架还利用了一种基于递归网络的新型记忆模块，当对象移出帧或被遮挡时，它可以帮助跟踪对象。该网络是端到端训练的，我们在两个基准视频对象分割数据集上证明了其有效性;它在Youtube-VOS数据集上执行当前的离线方法，同时运行时间几乎是竞争方法的两倍。代码可在https://github.com/KevinDuarte/CapsuleVOS公开获得。1. 介绍半监督视频对象分割的目的是分割视频中的对象，给定第一帧的分割掩码这是一个具有挑战性的问题，因为非对称遮挡、对象外观随时间的变化深度学习方法已经取得了令人印象深刻的结果，最近发布的Youtube-VOS数据集[37]已经允许训练和评估新的方法在更广泛的视频和对象。目前的大多数方法可以分为两类。第一种是基于检测的方法[2，4，14]，其学习在第一帧中分割的对象的表示，并尝试在未来帧中执行该对象的像素检测;第二种是基于传播的方法[7，12，28，33，36]，将任务表述为跟踪问题，并尝试随着时间的推移传播掩模以适应对象。第一组方法倾向于独立地分割单个帧，很少使用时间信息，而后一组方法顺序地分割单个帧，并利用时间信息，通常以光流或RNN的形式已经有一些关于混合方法的工作，试图统一这两种方法[32，19，38]。我们提出了一种混合的方法，利用视频胶囊网络分割的视频条件上的分割对象在第一帧。胶囊是一组神经元，代表一个物体或物体的一部分。胶囊网络中的层经历协议路由算法，该算法发现这些胶囊之间的相似性，并允许对部分到整体的关系进行建模。帽状网络在图像分类中表现良好[26，11]，并且在各种分割任务中表现出出色的结果[18，8]。在本文中，我们利用胶囊网络的分割能力和路由算法的能力，找到胶囊之间的相似性的任务，半监督视频对象分割。我们的视频胶囊网络CapsuleVOS包含两个分支：视频分支和帧分支。视频分支一次处理多个帧并产生一组视频胶囊。这允许网络在不依赖光流的情况下学习节奏/运动信息。帧分支处理第一帧和对象分割，并生成一组帧胶囊，其对感兴趣的对象进行建模。帧分支使用循环存储器模块，允许网络84808481克服诸如遮挡或物体退出场景之类的问题然后，两组胶囊都通过我们新颖的注意力路由程序，该程序允许帧帽调节视频胶囊。通过这种路由算法，我们的网络可以了解感兴趣的对象在视频片段中的位置，从而允许网络进行分段多帧同时进行。此外，我们的方法利用了一个参数化的缩放模块，它允许网络专注于与感兴趣的对象相关的帧的区域。该模块允许分割较小的对象，当将帧转换为较低的空间维度时，这些对象很容易丢失。我们在这项工作中做出了以下贡献• 我们提出了一种用于视频对象分割任务的新型胶囊网络，该网络在最大的视频分割数据集上实现了最先进的结果。• 我们提出了一种新的基于注意力的EM路由算法，条件胶囊的基础上输入分割。• 该网络包含集成的缩放模块和记忆模块，我们通过实验结果表明，这是有效的分割视频中的小物体和遮挡物体2. 相关工作半监督视频对象分割：视频对象分割的早期工作使用基于外观，边界和光流的手工制作的特征[1，9，15，27，23]。大规模视频对象分割数据集的可用性[25，37]使我们能够探索解决这个问题的深度学习方法。大多数早期的作品主要是由图像分割方法[3，35，20]。这些作品[2，6，16，24，38]缺乏从视频角度来看很重要的顺序建模的集成。在这些工作中的一些中，通过从先前帧的预测掩码中获得指导来实现时间一致性[13，24，38]。大多数最近的作品还利用在线学习[2]，其中分割网络在每个测试视频的第一帧上进行微调-这大大提高了分割结果，但牺牲了推理速度。最近的几项工作利用了循环单元来学习对象随时间的演化作者在[28]中使用ConvGRU将预训练的应用程序和运动网络的输出结合起来，并生成最终分割。类似地，[36]中的作者提出了一个Con-vLSTM序列到序列模型，该模型学习从帧序列生成分割Ventura等人[31]还使用ConvLSTM在时域（帧之间）和空域（帧之间）中每个帧内的对象实例）。我们使用的递归记忆单元与这些方法不同，因为我们不直接从ConvLSTM生成的特征生成分割，而是基于这些特征调节分割小物体的分割是具有挑战性的，并且已经探索了在帧的区域上放大以克服这个问题。作者在[7]中证明了仅处理前景对象周围的紧密区域的有效性。虽然这允许改进的分割，但它假设对象在视频内平滑移动-在大运动的情况下，这可能会失败。我们的方法可以处理这个问题，因为我们的网络学习了它必须放大感兴趣对象的程度，允许网络学习这些发生大运动的情况[5]中的工作通过跟踪部分来执行分割-他们的网络放大并单独处理对象的每个部分这需要多次通过其分割模型，而不是对整个对象进行单个分割。胶囊网络：胶囊的概念在[10]中首次引入，并在[26]中得到推广，其中提出了胶囊的动态路由。这在[11]中进一步扩展，其中引入了更有效的EM路由算法。最近，胶囊网络已经在视频中的人类动作定位[8]，医学图像中的对象分割[18]和文本分类[39]方面展示了最先进的结果。在这项工作中，我们提出了一个基于胶囊的网络视频对象分割，我们引入了一种新的注意力为基础的EM路由，可用作胶囊的调节机制。3. 我们的方法我们提出了一个端到端的训练网络，当给定对象的第一帧分割掩码时，该网络在整个视频剪辑中分割对象该网络包含两个模块，如图1和图2所示：一个帧调节视频胶囊网络CapsuleVOS，它根据第一帧中的对象分割来分割短视频剪辑（8帧），以及一个缩放模块，它细化胶囊网络处理的空间区域。第3.1节解释了我们如何利用胶囊的视频对象分割的任务，与我们的注意力为基础的路由算法。然后我们分别在3.2和3.3节中描述CapsuleVOS架构和缩放模块接下来是3.4节中用于训练该网络的目标函数。3.1. 胶囊调节胶囊是代表不同实体或对象的神经元组。在这项工作中，我们采用的版本8482IJIJV=M Wv国际新闻报伊季报图1.CapsuleVOS架构。该网络被给予低分辨率视频剪辑和第一帧中的分割对象，并为剪辑的所有帧生成前景分割内存模块由ConvLSTM组成，允许网络克服遮挡和对象离开帧等问题前一个和新的内存状态分别是时间步t和t-1的ConvLSTM的隐藏状态和单元状态新的存储器状态被传递到存储器模块，用于以下视频剪辑。在[11]中描述的胶囊，其具有后勤单元（ac.由i索引的视频胶囊MV，aV的集合;来自参考-我我由a）表示的活化表示活化的存在，tity和4×4姿态矩阵（由M表示），其中包含参考帧和分割掩码，我们提取一组帧胶囊MF，aF，索引为k。的键值对K K实体的属性。一层胶囊投票支持下一层中许多胶囊的姿态矩阵，迭代EM路由算法找到投票之间的一致性，以创建下一层中的胶囊集合。为了更全面地了解胶囊，是来自以下几层capsules，而查询是来自框架capsules的投票集合。这些票数计算如下：kVk国际新闻而在他们背后的直觉，我们建议阅读[26，11]。Vv=MVWv（一）国际新闻我们认为胶囊网络Vq=MFWqkjkkj找到实体之间的协议，作为一种理想的机制，完成半监督视频对象分割任务。给定视频可以包含若干对象，并且参考分段掩码指定必须被分段的对象。如果我们用分割掩码从视频和参考帧其中，Wk、Wv和Wq是学习的权重矩阵。上标k、v和q分别对应于键、值和查询一旦获得这些投票，EM路由操作将针对帧封装（查询）投票执行。这导致一组更高级别的胶囊Mq，aq，其表示则前一组（视频胶囊）对所有对象j j而后一组（帧胶囊）表示感兴趣的对象。然后，为了在整个视频中获得感兴趣的对象，只需要过滤掉与帧胶囊不相似的所有视频胶囊;换句话说，协议或相似性，在引用中重新显示对象或对象的一部分分段掩码为了找到视频胶囊和帧胶囊之间的相似性或一致性，我们测量关键投票（Vk）与其对应的更高级别查询胶囊之间的欧几里得距离视频胶囊和帧胶囊将导致集合ΣΣQ2小时K表示必须被分割的对象的视频胶囊虽然原始EM路由算法工作Dij=HMj−Vij、（二）对于在一组胶囊内发现一致性，它不能明确地发现两组胶囊之间的一致性。为此，我们提出了一种基于注意力的路由算法，它可以找到两组帽之间的协议。在这里，我们使用[30]中的查询，键，值术语，因为我们的条件算法从这种注意力机制中获得灵感。从一个视频片段中，我们提取了一个其中h表示投票和姿态矩阵的维数该距离用于计算分配系数。ciente−Dijij=100-D。（三）J分配系数Rv决定了第i个视频胶囊发送给第j个更高的视频胶囊的信息量。ΣR8483IJ图2.缩放模块。给定高分辨率第一帧和分割掩模，缩放模块输出围绕感兴趣对象的边界框。此边界框用于放大视频剪辑中的对象以及第一帧和分割遮罩，这些对象将调整大小并传递到CapsuleVOS网络中。水平舱如果距离Dij大，则第i个视频压缩包不包含关于由第j个更高级别的压缩包表示的对象的信息，因此其相应的分配系数接近于0，并且其向该更高级别的压缩包发送较少的信息;相反，小的距离导致大的分配系数，从而导致发送更多的信息。我们通过使用值投票（Vv）和视频胶囊的分配系数执行EM路由算法的M步来结果是一组更高级别的视频胶囊，从较低级别的视频分支-视频分支和帧分支-并且每个分支创建胶囊集视频胶囊在帧胶囊上进行然后是卷积胶囊层和一系列转置卷积，以生成所有8帧的分割图。视频分支通过8个RGB帧的大小128×224通过6（2+1）D卷积[29]获得尺寸为8×32×56×512的特征图。视频胶囊由12种胶囊类型组成，这些胶囊类型是通过将特征图传递到跨3×3×3卷积运算而获得的。帧分支连接第一帧和分割掩码（每个大小为128×224），并将它们通过4个2D卷积。接下来是内存模块，它由ConvLSTM [34]层组成这允许帧分支保持在遮挡或对象离开帧的情况下可能丢失的信息ConvLSTM生成一组形状32×56×128通过跨3×3卷积运算转换为框架然后，由8种胶囊类型组成的框架胶囊被平铺8次以匹配视频胶囊的时间维度。一旦视频和帧胶囊已经形成，我们j j 按照第3.1节所述进行胶囊调节，与框架胶囊一致的胶囊这个亲-用胶囊调节的方法描述于算法1中。算法1该路由算法在给定层L（视频胶囊和帧胶囊）的激活和姿态时返回层L+1中的胶囊的激活和姿态矩阵索引i和j分别指的是层L和L+1中的帽盖类型索引h是指投票或姿态矩阵的维度引用的EM ROUTING和M-STEP函数是在[11]中定义的。1：程序ATTR OUTING（MV，aV，MF，aF）2：Vv←MVWv3：Vk←MVWk4：Vq←MFWq5：aq，Mq←EM ROUTING（aF，Vq）这导致一组16种胶囊类型。接下来是一个卷积胶囊层，它有16种胶囊类型。所有的路由操作都使用胶囊池[8]来减少网络为了从这种胶囊表示中获得前景分割掩模，我们使胶囊的姿态矩阵变从视频胶囊和条件胶囊的跳跃连接该解码器的结果是对应于感兴趣对象的8帧二进制分割。3.3.缩放模块缩放模块被给予高分辨率第一帧和感兴趣对象分割掩模，并且ΣΣ Q2002年K它输出包含空间区域的边界框6：第一节←hMi−Vij对于每个i和j我们的细分网络将处理这些数据。由于我们ve−Dij7：Rij←J−DForeachi伊季报分割网络一次处理8帧，口述的边界框必须足够大，以包含8：av，Mv←M-STEP（aV，Rv，Vv，j）<$对于每个jj jv v 所有8帧中的感兴趣对象，但不能太大，9：返回a，M3.2. CapsuleVOS架构CapsuleVOS网络根据第一帧的分段掩码它包含两保留分割不需要的无关信息缩放模块的输入是高分辨率帧（512×896）和高分辨率二进制对象分段掩码这些都是通过一系列的跨越的2D卷积层，LSTM层和输出两个值的全连接层，Repbh和Repbw，Rep。8484表示以感兴趣对象为中心的边界框的高度和宽度LSTM层允许网络从多个时间步长的运动信息中学习，从而为具有更多运动的对象提供更大的边界框，并为具有相对较少运动的对象提供更紧密的边界框。一旦获得了边界框，网络就从高分辨率分割掩码中提取该区域，并将该区域高分辨率视频;然后将其大小调整为128 ×224并传递给CapsuleVOS。3.4.目标函数对于视频中的每个像素i，我们具有地面实况分割yi∈{0，1}，并且我们的网络预测yi∈[0，1]。我们使用二进制交叉熵1ΣN每5帧（6 fps）的注释。DAVIS-2017数据集总共包含150个视频- 60个用于训练，30个用于验证，60个用于测试。这些测试视频分为测试开发和测试挑战集，每个集有30个视频;我们在测试开发集上评估我们的方法。DAVIS-2017中的视频对所有帧都有注释这两个数据集都包含各种各样的对象，并且都包含具有多个对象实例的视频。训练网络使用3.4中描述的目标函数进行训练。由于我们的分割丢失需要对网络中的所有8帧进行分割，并且Youtube-VOS训练集每隔5帧包含分割，因此我们使用[22]中的方法来插入不可用的分割帧。训练是使用亚当优化器完成的[17]，从学习开始，Ls=− Ni=1yilog（yi）+（1−yi）log（1−yi），（4）率为0。0001 在Youtube-VOS上进行培训时，方法在大约400个epoch内收敛对于我们的实验在DAVIS-2017上，我们对网络进行了微调，[21]第21话失落DAVIS-2017培训视频中的新纪元ΣNyy+ΣN（1−y）（1−y）+L =1−1i=1-i=1ii，DNi=1 yi+yi+ΣNi=1 2−yi−yi+（五）推理在推理过程中，一次处理一个剪辑（8帧）的较长视频;生成的分割来训练网络进行分割。为了确保损耗的稳定性，阻尼项是一个很小的值我们使用第二个分割损失，因为视频对象分割方法是使用区域相似性或交集（IoU）进行评估的，并且骰子损失直接最大化了该度量。我们通过计算地面实况边界框高度和宽度（bh和bw）以及预测的高度和宽度（bbh和bbw）。从一个剪辑被用作子的输入分割，回形针。我们发现，这些剪辑之间的帧重叠的结果，在测试时改善分割，只有轻微的推理速度下降。所有报告的结果（精度和速度）都使用3帧重叠对于这两个数据集，我们使用区域相似性J和Lr=.Σ2bh− bh.Σ2+bw−bw.（六）轮廓精度F，如[24]中所述对于Youtube-VOS，结果在“看到的“类别上平均在培训视频中发现的错误-以及在训练过程中，我们定义地面实况高度，宽度作为以第一帧中的对象为中心的边界框，该边界框包含随后7帧中的对象（剪辑中要处理的其他帧）。这确保了感兴趣的对象将存在于正在处理的所有帧中，即使存在大量的运动。以端到端的方式，我们用一个目标函数来训练我们的网络，这个目标函数是这三个损失的总和：L=Ls+LD+ Lr。（七）4. 实验我们在两个视频对象分割数据集上评估我们的方法：Youtube-VOS [37]和DAVIS- 2017 [25]。Youtube-VOS包含4，453个视频，其中3，471个用于培训，474个用于验证，508个用于测试。训练和验证视频具有像素级的地面实况8485对象存在于验证和测试集中，但不存在于训练集中。4.1. 与最新技术由于我们的方法不使用在线学习，我们只与离线方法兼容。OSVOS [2]是一个例外，它是一种标准的基准视频对象分割方法。Youtube-VOS我们的网络在Youtube-VOS上的性能如表1所示。总的来说，我们的模型执行-形式至少4%优于所有离线方法和3。比OSVOS好5%OSVOS在未看到的类别上略优于我们，但我们的网络在两个“看到”指标上都有8%的Youtube-VOS视频的一些定性结果如图3所示。8486图3.定性结果显示来自Youtube-VOS验证集的视频上的对象分割。前三行包含视频中存在多个对象实例的示例;后两行显示了我们的网络如何能够精细地分割较大的对象。图4.有和没有内存模块的网络之间的定性比较。图1，3：带内存模块。2.4：不带内存模块。第一个例子包含一只熊，它被完全遮挡了超过40帧，但是当它重新出现时，内存模块允许网络对熊进行分段。第二个视频显示，内存模块可以处理对象离开和重新进入场景的情况。方法OLJ见J看不见F见F看不见整体速度（帧/秒）OSVOS [2]✓59.854.260.560.758.80.10OSMN [38]✗60.040.660.144.051.27.14[36]第36话最后一句✗66.748.265.550.357.66.25我们的方法✗67.353.768.159.962.313.5表1.我们在Youtube-VOS验证集上的结果我们与OSVOS [2]和不进行在线学习的方法进行了比较DAVIS-2017我们在DAVIS-2017测试开发集上的性能如表2所示。我们发现，我们的离线网络无法实现比许多当代方法更好的结果，因为在DAVIS-2017 不会出现在 Youtube-VOS 训练集中。DyeNet [19]能够大幅超越我们的网络;我们将其归因于该方法是基于图像的，这使得他们的区域建议网络8487图5.有和没有缩放模块的网络之间的定性比较。图1、3、5：带缩放模块。2，4，6：无缩放模块。第一个例子展示了当使用缩放模块时，网络在小对象上生成细粒度分割的能力。当缩放模块不存在时，非常小的快速移动的对象（如示例2和3中的对象）会很快丢失。OSVOS [2]DyeNet [19]我们在线学习✓✗✗J平均值↑J回忆↑47.250.860.2-47.454.1F平均值↑F回忆↑53.757.864.8-55.264.6全球平均50.562.551.3表2.我们在DAVIS-2017测试开发集上的结果我们与OSVOS[2]和离线版本的DyeNet [19]进行和特征提取网络在更大的图像数据集上进行预训练。运行在Titan X Pascal GPU上，我们的网络平均划分为13个部分。每秒5帧。我们将我们的网络的推理速度与图6中的其他方法进行了比较我们的网络能够以比以前的方法快得多的速度分割帧，因为我们一次分割8帧，而不是一次分割一帧。图6.在Youtube-VOS数据集上比较以前的视频对象分割方法我们绘制了整体性能百分比与每秒帧数的关系图。x轴（fps）为对数标度。4.2. 消融研究所有消融实验均在Youtube- VOS数据集上进行。消融的定量结果如表3所示。8488消融J见J看不见F见F看不见整体无缩放HC缩放62.165.845.851.761.366.548.157.554.360.4Concat路由完全转换65.264.551.051.565.664.856.957.059.759.4没有记忆64.949.665.353.958.4完整方法67.353.768.159.962.3表3.我们在Youtube-VOS验证集上的消融实验结果。每行对应于不同的消融。最后一行包含我们方法的结果，没有任何更改。缩放模块为了测试我们的缩放模块的有效性，我们首先评估我们的方法没有任何缩放。在这个实验中，我们将所有帧的大小调整为 128×224 ，并使用CapsuleVOS对其进行分割如果没有变焦-模块，网络缩放模块以两种方式改进分割：（1）网络能够跟踪较小的对象，以及（2）网络可以为中等大小的对象生成更精细的分割掩码。图5显示了使用和不使用缩放模块的方法的示例;对于没有缩放模块的较小对象，分割精度明显降低我们还测试如果一个简单的，手工制作的缩放方法将执行，以及我们的缩放模块。在这个实验中，我们在前景对象周围使用了一个手工制作的边界框我们发现，手工制作的边界框的结果在改进的分割相比，没有缩放，但缩放模块注意路由我们运行两次消融来测试我们提出的胶囊路由算法的有效性。第一种是通过简单地连接视频和帧封装来执行常规EM路由;第二种是完全移动胶囊，并具有类似数量的参数的完全卷积网络。我们发现，我们提出的路由算法，改善segmenta-相比，简单的胶囊拼接;这是因为所提出的路由算法基于视频封装与帧封装的一致性来调节视频封装，而级联并不区分帧和视频封装，而是试图找到所有封装之间的一致性。我们还发现，无胶囊网络的性能类似于胶囊连接网络;这表明标准EM路由算法不能有效地执行该任务所需的调节操作，并且我们提出的路由过程成功地基于帧封装体调节视频封装体。内存模块在最后的消融中，我们测试了内存模块在框架网络中我们发现这个ConvLSTM将结果提高了4%，因为它允许网络处理诸如遮挡或感兴趣对象何时离开帧等问题图4包含一些定性结果，描述了模型模块解决的两个问题：遮挡和对象离开帧。一旦遮挡结束或对象重新进入帧，ConvLSTM允许网络记住它必须分割的对象。5. 结论我们提出了一个视频胶囊网络，Cap-suleVOS，用于半监督视频对象分割。胶囊的使用提供了对视频中存在的实体的有效建模，并且基于注意力的路由有助于对象的跟踪和分割。该网络包含两个额外的新颖组件：缩放模块和存储器模块。缩放模块确保捕获视频中存在的小对象，并且存储器模块在对象被遮挡或移出场景时跟踪对象。实验结果表明，我们提出的网络在视频对象分割和分割小的和被遮挡的对象的能力的有效性。此外，我们的烧蚀表明，我们提出的路由程序的有效性相比，现有的EM路由al-出租。该网络一次分割多个帧，与现有方法相比，它可以更快的速度执行分割。5.1. 确认这项研究是基于由国家情报总监办公室（ODNI），情报高级研究项目活动（IARPA），通过IARPA研发合同号支持的工作&。D17PC00345。本文中包含的观点和结论是作者的观点和结论，不应被解释为必然代表ODNI，IARPA或美国的官方政策或认可，无论是明示还是暗示。政府的美国政府被授权为政府目的复制和分发重印本，尽管上面有任何版权注释。8489引用[1] 托马斯·布洛克斯和吉坦德拉·马利克通过点轨迹的长期分析的对象分割。在欧洲计算机视觉会议上，第282-295页。施普林格，2010年。2[2] Sergi Caelles ， Kevis-Kokitsi Maninis ， Jordi Pont-Tuset，LauraLeal-Taixe'，DanielCremers和LucVanGool。单镜头视频对象分割。在IEEE计算机视觉和模式识别会议论文集，第221-230页，2017年。一、二、五、六、七[3] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE Transactions on Pattern Analysis and MachineIntelligence，40（4）：834-848，2018。2[4] Yuhua Chen ， Jordi Pont-Tuset ， Alberto Montes ， andLuc Van Gool.快速视频对象分割与像素级度量学习。在IEEE计算机视觉和模式识别会议论文集，第1189-1198页1[5] Jingchun Cheng ， Yi-Hsuan Tsai ， Wei-Chih Hung ，Shengjin Wang，Ming-Hsuan Yang.通过跟踪部件快速准确的在线视频对象分割在IEEE计算机视觉和模式识别会议论文集，第7415-7424页2[6] 程景春，蔡义轩，王胜金，杨明轩。Segflow：视频对象分割和光流的联合学习。在IEEE国际计算机视觉会议论文集，第686-695页，2017年。2[7] 海慈、淳于王、益州王。通过学习位置敏感嵌入的视频对象分割。在欧洲计算机视觉会议（ECCV）的会议记录中，第501-516页，2018年。一、二[8] 凯文·杜阿尔特，约格什·拉瓦特和穆巴拉克·沙阿。视频- capsulenet：用于动作检测的简化网络。神经信息处理系统的进展，第7621-7630页，2018年。一、二、四[9] Alon Faktor和Michal Irani。基于非局部一致性投票的视频分割。在BMVC，第2卷，第8页，2014中。2[10] Geoffrey E Hinton，Alex Krizhevsky，and Sida D Wang.转换自动编码器。国际人工神经网络会议，第44-51页Springer，2011. 2[11] Geoffrey E Hinton，Sara Sabour，and Nicholas Frosst.带有电磁路由的矩阵胶囊。2018. 一、二、三、四[12] 胡平，王刚，孔翔飞，权健，谭亚鹏.用于视频对象分割的运动引导级联细化网络。在IEEE计算机视觉和模式识别会议论文集，第1400-1409页1[13] 胡元婷，黄家斌，亚历山大·施温。Maskrnn：实例级视频对象分割。神经信息处理系统的进展，第325-334页，2017年。2[14] Yuan-Ting Hu ， Jia-Bin Huang ， and Alexander GSchwing. Videomatch：基于匹配的视频对象分割。在欧洲计算机视觉会议论文集（ECCV），第54-70页，2018年。1[15] Suyog Dutt Jain和Kristen Grauman。Supervoxel-视频中一致的前景传播。欧洲计算机视觉会议，第656-671页。Springer，2014. 2[16] Suyog Dutt Jain，Bo Xiong，and Kristen Grauman.融合-分段：学习结合运动和外观，实现视频中通用对象的全自动分割。在2017年IEEE计算机视觉和模式识别会议上，第2117-2126页IEEE，2017年。2[17] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。5[18] Rodney LaLonde和Ulas Bagci。用于对象分割的胶囊。arXiv预印本arXiv：1804.04241，2018。一、二[19] 李晓晓和陈昌来。视频对象分割与联合重新识别和注意力感知掩模传播。在欧洲计算机视觉会议（ECCV）的会议记录中，第90-105页一、六、七[20] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。在IEEE计算机视觉和模式识别会议的论文集，第3431-3440页，2015年。2[21] Fausto Milletari Nassir Navab和Seyed-Ahmad Ahmadi。V-net：用于体积医学图像分割的全卷积神经网络。2016年第四届3D视觉国际会议（3DV），第565IEEE，2016. 5[22] 西蒙·尼克劳斯、龙迈、风流。基于自适应可分离卷积的视频帧在IEEE计算机视觉国际会议论文集，第261-270页，2017年。5[23] Anestis Papazoglou和Vittorio Ferrari。无约束视频中的快速对象在IEEE计算机视觉国际会议论文集，第1777-1784页，2013年。2[24] Federico Perazzi、Jordi Pont-Tuset、Brian McWilliams、Luc Van Gool 、 Markus Gross 和 Alexander Sorkine-Hornung。视频对象分割的基准数据集和评估方法。在IEEE计算机视觉和模式识别会议论文集，第724- 732页二、五[25] Jordi Pont-Tuset ， Federico Perazzi ， Sergi Caelles ，PabloAr-bela'ez，AlexSorkine-Hornung，andLucVanGool. 2017年戴维斯视频对象分割挑战赛arXiv预印本arXiv：1704.00675，2017。二、五[26] Sara Sabour，Nicholas Frosst，and Geoffrey E Hinton.胶囊之间的动态路由。神经信息处理系统的进展，第3856-3866页，2017年。一、二、三[27] 作者：Frank R.施密特和托马斯·布罗克斯。视频分割只需几笔。在IEEE国际计算机视觉会议（ICCV）上，2015年12月。2[28] 帕维尔·托克马科夫、卡提克·阿拉哈里和科迪莉亚·施密德。利用视觉记忆学习视频对象分割。在8490IEEE计算机视觉国际会议论文集，第4481-4490页，2017年。一、二[29] Du Tran，Heng Wang，Lorenzo Torresani，Jamie Ray，Yann LeCun，and Manohar Paluri.动作识别的时空卷积的详细研究在IEEE计算机视觉和模式识别会议论文集，第6450-6459页，2018年。4[30] Ashish Vaswani， Noam Shazeer ， Niki Parmar ， JakobUszko-reit ， Llion Jones ， Aidan N Gomez ， ukaszKaiser，and Illia Polosukhin.注意力是你所需要的神经信息处理系统进展，第5998-6008页，2017年3[31] Carles Ventura、Miriam Bellver、Andreu Girbau、AmaiaSal vador 、 Ferran Marques 和 Xavier Giro-i Nieto 。Rvos：用于视频对象分割的端到端循环网络。在IEEE计算机视觉和模式识别会议论文集，第5277-5286页，2019年。2[32] Seoung Wug Oh、Joon-Young Lee、Kalyan Sunkavalli和Seon Joo Kim。参考引导掩模传播的快速视频对象分割。在IEEE计算机视觉和模式识别会议论文集，第7376-7385页1[33] 肖华新，冯佳诗，林国胜，刘宇，张茂军.莫奈：视频对象分割的深度运动开发。在IEEE计算机视觉和模式识别会议论文集，第1140- 1148页，2018年。1[34] SHI Xianjian ， Zhourong Chen ， Hao Wang ， Dit-YanYeung，Wai-Kin Wong，and Wang-chun Woo.卷积lstm网络：降水临近预报的机器学习方法。神经信息处理系统的进展，第802-810页，2015年。4[35] Ning Xu，Brian Price，Scott Cohen，Jimei Yang，andThomas S Huang.深度交互式对象选择。在IEEE计算机视觉和模式识别会议的论文集，第373-381页，2016年。2[36] Ning Xu、Linjie Yang、Yan Yan Yan、Jianchao Yang、Dingcheng Yue、Yen Liang、Brian Price、Scott Cohen和Thomas Huang。Youtube-vos：序列到序列视频对象分割。在欧洲计算机视觉会议（ECCV）的会议记录中，第585-601页，2018年。一、二、六[37] Ning Xu，Linjie Yang，Yuchen Fan，Dingcheng Yue，Yuchen Liang ， Jianchao Yang ， and Thomas Huang.Youtube-vos：大规模视频对象分割基准测试。arXiv预印本arXiv：1809.03327，2018。一、二、五[38] Linjie Yang，Yandan Wang，Xuehan Xiong，JianchaoYang，and Aggelos K Katsaggelos.经由网络调制的高效视频对象分割。在IEEE计算机视觉和模式识别会议论文集，第6499-6507页，2018年。一、二、六[39] Wei Zhao，Jianbo Ye，Min Yang，Zeyang Lei，SuofeiZhang，and Zhou Zhao.研究具有动态路由的胶囊网络用于文本分类。arXiv预印本arXiv：1804.00538，2018。2

下载后可阅读完整内容，剩余1页未读，立即下载