奇一输出网络：自监督CNN预训练技术

133 浏览量更新于2023-10-16 收藏 761KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1基于奇一输出网络的Basura FernandoHakan Bilen<$ Efstratios GavvesStephenGould澳大利亚国立大学（Australian National Universityof Oxford）阿姆斯特丹大学（University ofAmsterdam） QUVA实验室摘要我们提出了一种新的自监督CNN预训练技术，该技术基于一种名为Odd-One- Out学习的新型辅助任务。在这个任务中，机器被要求从一组相关的元素中识别出不相关的或奇怪的元素。我们将这种技术应用于自监督视频表示学习，我们从视频中采样序列，并要求网络学习预测奇数视频子序列。对奇数视频子序列进行采样，使得其具有错误的帧时间顺序，而偶数帧具有正确的时间顺序。因此，要生成一个单出问题，不需要手动注释。我们的学习机实现为多流卷积神经网络，它是端到端学习的我们使用奇一出局网络，学习视频的时间表示，并将其推广到其他相关任务，如动作识别。在动作分类上，我们的方法仅使用UCF101数据进行训练，在UCF101数据集上获得了60.3%，比当前最先进的自监督学习方法好约10%。同样，在HMDB51数据集上，我们在动作分类任务上的表现比自我监督的最先进方法高出12.7%。1. 介绍卷积神经网络（CNN）[27]已经成为许多机器学习问题的新的最先进的学习框架。CNN的成功在很大程度上是通过对ImageNet [34]和Sports等大型数据集的手动注释来维持的。1M [23]。由于手动注释成本高且耗时，监督学习变得不那么吸引人，特别是在考虑涉及更复杂数据的任务时（例如，视频）和概念（例如，用于人类行为分析）。在这项工作中，我们专注于从未标记的数据中学习视频不使用视频中的动作类别标签的良好视频特征学习对于动作识别至关重要，原因有二。首先，与静态图像不同，视频通常是开放式媒体，并且不能先验地包含图1：提出的奇一网络，它将多个视频序列作为共享权重的多分支网络的输入。目标是识别奇数视频序列，在这种情况下它是第二个视频。为了找到奇怪的视频片段，学习机必须比较所有的视频片段，识别其中的不规则，并挑选出不规则的视频片段。这种类型的任务被称为类比推理任务。特定帧范围内的特定动作。因此，对于监督学习，需要逐帧手动注释视频或将其裁剪为一系列帧以确保一致性，这显然是不切实际的期望。其次，现有的大型视频数据集，例如、Sports-1 M [23]和最近的YouTube-8 M [1]，都依赖于嘈杂、不可靠的YouTube标签。因此，人们无法真正确定是架构还是噪声标签对观察到的网络行为做出了贡献。此外，未标记的视频是丰富的并且关于时空结构的信息丰富[5，33，3，32，45]。虽然传统的无监督特征学习（例如[6，20]）意味着没有监督信号，最近的研究人员引入了自我监督学习范式[2，8，10，12，44]。在这里，数据的结构被用作监督信号，因此该方法在不需要人类注释的意义上是无监督的，但是仍然可以使用监督机器学习技术。例如，可以使用图像中补丁的相对位置[10]或视频帧的顺序[44]作为监督信号。与上述工作不同的是，我们在奇一问题的背景下表达了超视。更36363637具体地，每个训练示例包括由N+1个元素（例如N+1个视频剪辑或图像）组成的问题。在这些N+1个元素中，N是相似的或相关的（例如，来自视频的帧的正确排序的集合），并且一个是不同的或奇数的（例如，来自视频的帧的错误排序的集合）。奇数元素和N个相干元素都被呈现给学习机。然后训练学习机来预测奇数元素。为了避免一个平凡的解决方案，在每一个奇一出的问题中，奇数元素被随机地呈现给学习机。特别是，我们使用CNN作为学习机，这是一个多分支神经网络，如图1所示。在训练过程中，我们的方法学习解决奇一出问题的特征。当网络执行关于元素的有效性的推理任务时（例如，视频序列），所学习的特征对于许多其他相关但不同的任务是有用的。特别是，在本文中，我们展示了奇一网络的优势，学习功能，在一个自我监督的方式，对视频数据。利用视频中的时空相干性之前已经被研究用于无监督学习[3，32，45]。然而，除了少数作品[7，36]之外，重点一直放在外观表示上，将视频视为帧的集合。还存在无监督的时间特征编码方法来捕获用于动作分类的视频的结构[13，14，15，29，36]。相比之下，我们专注于学习视频中的运动模式。受最近提出的运动表示[5，37，43]家族的启发，该运动表示将任意长度的视频序列压缩成固定维的十元，同时保持其时空结构，我们提出了一种新的视频分段级表示学习策略，用于以自监督方式进行视频学习。在这项工作中，我们提出了一种替代的方法来学习视频段表示的自我监督的方式。我们的贡献有三个方面：首先，我们提出了一种新的学习任务，奇数一出学习，优化模型参数，而不依赖于任何手动收集的注释。其次，我们提出了一个神经网络的工作架构，适合奇一出学习。第三，我们的实验结果表明，经过训练的网络学习准确的表示，远远优于其他最近提出的视频数据自监督学习范式。2. 相关工作无监督特征学习在文献中得到了很好的研究研究的最常见技术包括自动编码器[6，20]，限制玻尔兹曼机[19]，卷积深度信念网络[28]，LSTM和递归神经网络[36]。最近出现的一种学习研究方法代表了-没有手动注释的站点是自我监督学习[8，10，26，44]。自监督方法不需要手动注释，而是利用数据的结构来推断监督信号，然后可以与鲁棒且值得信赖的监督式学习策略一起使用。在Doersch et al.[10]利用图像的空间一致性视频数据也用于学习图像表示。例如，Wang等人[44]使用跟踪从视频中生成补丁对，并使用Siamese三元组网络来学习图像表示，使得两个匹配补丁之间的相似性应该大于两个随机补丁之间的相似性。由于光照、遮挡、视点、姿态和杂波的变化，匹配的补丁将具有类内可变性。然而，跟踪并不总是可靠的.如Kumar等人所示。[26]，这种三元组网络的训练并不简单，需要估计基于三元组的损失的稳定梯度。Agrawal等[2]利用自我运动作为标记过程来学习表示，其中它们表明自我运动是学习特征时有用的监督信号。类似于Wang et al.[44]他们也训练Siamese网络从两个图像帧估计自运动，并将其与里程计传感器测量的自运动进行比较。由此产生的学习功能是一些-什么相似。无监督特征学习的另一种变体依赖于示例CNN[12]。在这里，每个图像都使用大量的变换进行变换，并且CNN被训练来识别变换图像的实例这种方法的缺点是每个图像变成一个类，因此对于一百万个图像，训练一百万个类CNN。此外，学习的不变性取决于变换的类型然而，该方法生成了一致的标签，这对于基于CNN的自监督学习很重要。Pickup等人在一项鼓舞人心的工作中研究了视频中时间流的方向（向前或向后）。[33 ]第33段。作者研究了各种运动表示，学习时间箭头。Sri- vastava等人提出了用于视频数据的序列编码的无监督学习。[36]，其中LSTM编码器用于学习无监督视频编码。LSTM被训练成使得前向视频的编码类似于反向视频的LSTM编码然而，这种方法需要一个预先训练的网络（有监督）来提取帧级特征，因此它不是一种无监督的特征学习方法。最近，Misra等人提出了一种基于CNN的无监督表示学习方法。[31 ]第30段。在这项工作中，学习任务是验证来自视频的帧序列是否以正确的顺序呈现。这种方法有两个缺点：i）二进制学习-3638图2：视频表征学习的奇一网络。网络呈现一个错误的序列（无序）和两个正确的序列从同一个视频。时间编码器对子序列的时间结构进行编码。奇一输出网络学习发现无序序列的特征在左图中，我们看到FC 6激活的串联，在右图中我们看到差异网络架构的总和。在一个相对容易的学习问题，案例视频）。我们以无监督的方式构建问题。例如，在用于视频分类的特征学习的上下文中，I1，. . . .是从视频采样的子序列的集合。其中，N个子视频具有包括偶数集合的帧的正确时间顺序奇数视频子序列由从同一视频的无效顺序采样的帧组成（见图1）。在这两种情况下，我们知道（N+1）个元素中有一个是奇数对象。为了防止平凡的解决方案，我们随机化通过置换σ确定奇元素的位置，并得到一个问题qσ，其相应的答案为aσ=σ（N+1）∈{1，2，. . .，N+1}。因此，奇一预测任务简化为（N+1）路分类问题。注意给定一组未标记的视频，我们可以自动构造一个自监督问答训练集D={（qσj，aσj）}，其中置换σj是任意的.J J2.尽管必须确定正确的时间或-对于帧的编码，该方法不学习对时间信息进行编码，而只学习对空间信息进行编码。相比之下，我们的方法利用了序列和姿势随机回答每个问题。鉴于这种自我监督数据集，学习问题可以通过标准的最大似然估计来解决，即，θ=arg maxL（f;D）（1）特征学习问题是N+1路多类θθ分类问题，这是比二进制更难验证问题（见图1）①的人。我们的方法还能够利用最近的发展[5，37，43]来学习时间信息，这导致了动作识别任务的优越性能。动作识别中的大多数先前工作都致力于手工制作的特征[18]，例如密集轨迹特征[15，21，41，42]。最近，监督卷积特征使用非常大的视频集合或使用3D卷积[39]或通过微调ImageNet预训练模型[5，16，30，43，46]获得最先进的性能。我们的工作与这些不同，因为我们从自我监督中学习视频表示，而不使用外部信息，如光流数据或ImageNet预训练模型的传递过滤器权重，或使用有效的交叉模态预训练[43]。3. 奇一出局学习任务奇一出局学习的目标是从一组其他相关元素中预测奇数元素。对于视频或图像数据，有不同的方法来生成这样的奇一出问题。例如，在视频表示学习的情况下，偶数对象可以是特定视频的正确排序的视频剪辑，而奇数对象可以是通过错误地排列同一视频的帧而获得的视频剪辑。这只是一个例子，我们的框架是相当通用的，可以应用于其他数据类型，如RGB图像补丁，视频实例，或通用特征描述符。多个相关元素的集合和奇数元素包括问题q={I1，. . .，IN+1}，其中Ii是元素（在我们的哪里 L 是的可能性功能和 fθ 是我们参数化模型模型我们将预测模型fθ实现为多分支卷积神经网络，我们称之为奇一网络（O3N）。如图1所示，O3N由N+1个输入分支组成，每个分支包含五个卷积层，权重在输入层之间共享每个输入分支的配置都与AlexNet架构相同[24]，直到第一个完全连接的层。由于奇一出任务需要对给定问题的（N+1）个元素进行比较，并且不能仅通过查看单个元素来解决，因此我们引入了一个融合层，该融合层在第一个全连接层之后合并来自（N+1）个分支的信息。这些融合层帮助网络对问题中的元素进行推理，以找到奇数。理想情况下，融合层应该支持网络比较元素，找到不规则元素并挑选不规则元素我们用两种融合模型进行实验，级联模型和差异和模型导致两种不同的网络架构，如图所示。二、串联模型：来自每个分支的第一全连接层被连接以给出（N+1）× d维向量，其中d是该向量的维数。第一个完全连接层。差异总和模型：来自每个分支的第一全连接层在取成对激活差之后被求和，得到d维向量，其中d是第一全连接层的维度。其优点是，这种策略仍然编码的结构3639图3：研究了三种不同类型的抽样策略用于奇一出局学习。红色框显示来自每种采样类型的奇数视频子序列受约束的连续采样样本来自原始视频的受约束部分，由绿色框表示。受约束的采样窗口为1。5×W，其中W是采样子序列的长度（必须以彩色查看）。奇一特征激活仍然可以用较低维激活向量来表示。数学上，设vi为网络第i个给出了差分层和的输出因此，良好的视频表示应该能够捕获帧序列内的该时间结构我们建议采用奇一出局自监督学习，以利用视频序列内的结构。因此，我们通过利用视频的结构来生成奇一出问题。具体地说，让我们假设我们被给定一个视频序列X=X1，X2，· ··Xn，它由n个RGB帧组成。第t个RGB帧由Xt表示.因为视频是序列，所以帧上存在顺序约束，使得X1<$X2<$· ·<$Xn。生成奇一出问题的一般思想是从X中子采样W帧，其中W n。然后，我们通过不同的抽样策略生成奇一出问题的元素。这些采样策略中的每一个都对所学习的特征有影响。接下来，我们讨论三种抽样策略，连续抽样，随机抽样和约束连续抽样。连续采样：我们从视频X中对W个连续帧进行N次采样，以生成N个偶数（相关）元素。奇一出问题的每个采样的偶数元素是由来自原始视频的W个然而，长度为W的奇数视频序列是通过帧的随机排序来构造的，因此不满足通过o=j>i vj− vi.（二）顺序约束这些随机帧可能来自原始视频的任何位置（见图3右）。奇一出视频网络的目标是学习从其他N个视频序列中识别出奇（错误的视频序列）我们将这个融合的激活向量通过两个完全连接层，然后是具有N+1个输出的softmax分类器。给定一个新的训练问题qσ，每个输入分支接收N+1个元素中的一个，网络必须学习预测正确答案aσ的位置。我们在图1中说明了我们提出的O3N以及一个示例问题。4. 使用O3N学习视频表示在本节中，我们提出了一种使用奇一法学习以自监督方式学习视频表示的方法。在奇一淘汰学习中，我们必须决定如何产生问题。主要地，我们的目标不仅是解决奇数出的问题，而且要学习好的特征。如果奇一出局任务是可推广的，并且生成的问题与解决其他相关任务有关，则可以期望获得输入视频数据的良好表示。我们的目标是学习视频分类有用的功能具体来说，我们感兴趣的是从视频数据的动作识别。学习好的时间表示对于解决动作识别问题是很重要的。由于视频基本上由帧序列组成，因此大多数视频本质上具有很强的时间结构。正确的序列。随机抽样：我们从视频X中随机采样W帧N次，以生成N个偶数（相关）元素。这N个元素中的每一个都是具有正确的时间顺序并满足X的原始顺序约束的序列。然而，帧不像在连续采样的情况下那样连续长度为W的奇数视频序列也是通过随机采样帧来构造的图3中间显示了一个说明。与连续采样策略类似，奇序列不满足顺序约束。具体地说，我们随机打乱了奇数元素（序列）的帧。约束连续抽样：在约束连续采样策略中，首先我们子选择大小为1的视频剪辑。5× W从原来的视频，我们de-注意到X. 我们从X个连续帧中随机采样W个连续帧N次，以生成N个偶数（相关）元素。这N个元素中的每一个都是具有正确的时间顺序并满足X的原始顺序约束的连续性。同时，大小为W的每个采样偶数视频剪辑彼此重叠超过50%长度为W的奇数视频序列也是通过从X个帧中随机采样帧来构造的。与其他采样策略类似，奇数序列不满足-3640i=1t而不是向量。有趣的是，注意到该等式归结为帧的加权平均，使得(a)（b）第（1）款Xd=通过其中给定索引t处的帧的权重wt=W+1 − 2t。（三）(c)（d）（e）（f）（g）图4：几个视频剪辑编码器输出的行动鼓。(a)动态图像（b）帧差之和（c-g）帧差之栈。所有方法都使用6帧的序列大小。如果输入序列的空间分辨率为h×w，时间范围W，则输出图像具有相同的空间分辨率，但时间信息被汇总为R、G、B通道的大小为h×w×3的单个图像（见图10）。第四条（b）款）。动态图像[5，4]编码器：该方法类似于帧差和方法，然而唯一的区别是现在输入序列被预处理以获得平滑序列M=M1，M2，· · ·MW。使用索引t处的平均值获得平滑。由Mt表示的索引t处的平滑帧由下式给出：1Σtisfy顺序约束。具体来说，我们随机地对奇数元素（序列）的帧进行洗牌。Mt=tj=1（4）5. 视频帧编码在本节中，我们将描述我们的奇一出网络架构的视频剪辑编码步骤。如图1，在奇一出问题中的每个元素（视频剪辑或子序列）被编码以在呈现给网络的第一卷积滤波器之前提取时间如第4节所述，奇一网络是用视频的子序列来呈现的。这些子视频可以是有效的或无效的（错误的）视频剪辑。我们希望使用奇一网络来学习视频表示，通过开发序列的结构。有几种方法可以捕获视频序列的时间结构。例如，可以使用3D卷积[22]，递归编码器[38]，秩池编码器[15]或简单地连接帧。Odd-one-out网络可以使用任何上述方法[22，38，15]来使用视频数据以自我监督的方式学习视频表示单个RGB图像通常仅包含特定时间点的静态相比之下，两个连续帧之间的RGB差异描述了外观变化，其可以对应于运动显著区域。该信息还与RGB数据的速度有关。接下来，我们讨论在我们的实验中使用的三种技术，以使用RGB帧的差异将视频帧剪辑编码为单个张量Xd。帧视频剪辑编码器的差异之和：在这方法，我们采取帧的差异，然后求和，差，以获得单个图像Xd。这张图片捕捉到了序列的结构。确切地说，这与等式2完全相同，但现在应用于帧其中Xj是子视频的索引j处的帧。那个...可以非常有效地计算动态图像实际上，动态图像可以作为原始帧的加权线性组合来计算，其中索引t处的权重通过公式 wt=2 （ W−t+1 ） − （ W+1 ）（HT−Ht−1）计算。这里Ht=不1是第t次谐波数，H0=0.对于动态图像的完整推导，我们参考读者[5，4]。一个动态图像的例子显示在（见图）。（见第4（a）段）。帧视频剪辑编码器的差异堆栈：受[37，43]的启发，我们还将帧的差叠加，而不是将它们相加。同样，目标是捕捉短视频剪辑的运动和动态然而，在这方面，现在所得到的图像不再是具有三个通道的标准RGB图像相反，我们获得（N-1）×3通道图像（见图1中的堆栈）4（c-g））。6. 实验在这一节中，我们解释了实验设置和实验结果，验证了我们的奇数（O3N）学习的有效性。我们评估了我们的奇一出学习功能的动作分类任务的有用性。具体来说，我们使用UCF101和HMDB51数据集从视频数据中进行自监督特征学习，然后使用这些特征进行动作分类。UCF 101数据集[35]是一个从YouTube收集的真实动作视频的动作识别数据集，由101个动作类别组成。它有来自101个不同动作类别的13，320个视频该数据集的视频具有挑战性，其中包含相机运动、对象外观和姿态、对象比例、视点、杂乱背景和照明条件的大变化。它包括3641的三个分裂，在其中，我们报告的分类性能超过所有三个分裂在文献中完成。HMDB51数据集[25]是一个通用动作分类数据集，由6，766个视频片段组成，分为51个动作类。由于各种摄像机运动、视点、视频质量和遮挡，该数据集的视频和动作具有挑战性根据文献，我们使用一个对所有多类分类策略，并报告了Kuehne等人提供的三个标准分割的平均分类准确度。[25 ]第20段。在其余部分中，我们执行了几个实验，以演示O3N网络使用时，奇数输出学习，网络设计选择以及不同视频剪辑编码器的性能的不同方面。6.1. 默认奇数出训练视频。在本节中，我们将解释默认的奇一出局学习过程。默认情况下，我们使用由六个视频序列组成的问题，其中五个序列的帧顺序正确，一个序列的帧顺序错误每个方法监督acc.（%）self.sup. acc.（%）随机初始化47.0n/aO3N-consec。样品50.627.4O3N-const. consec. 样品52.429.0O3N-随机抽样53.229.6表1：比较几种奇一抽样策略与UCF 101数据集上视频动作分类的随机初始化。精确度，我们对所有非重叠子序列（由六帧组成）进行采样，并计算每个序列的最大条件概率估计。在数学上，让我们假设给定长视频X，我们具有子样本m子-大小为W的序列，用{X<$i}表示，其中i=1···m。因此，CNN返回子序列X的动作类别y的条件概率，其由p（y）表示|X.i）。在最后的推理过程中，使用i.i.d. 假设，视频中的类Y的条件最小概率采样视频子序列由六个采样X由下式获得：Mi=1 log（p（y|（Xi））。我们用猫血根据第4节中描述的采样过程。Un-除非另有说明，否则我们使用随机采样作为默认采样过程。我们依赖于AlexNet架构，但是，除非另有说明，否则第一个完全连接层中的激活数量差异模型架构的总和（见第3节）是我们默认的激活融合方法。默认情况下，我们使用动态图像[5]作为时间视频剪辑编码器。实验运行200个时期，没有批量归一化，学习率从0.01到0.0001以对数方式变化这些批次由64个问题组成。每个问题由六个子视频组成，每个子视频有六帧。使用Mat-ConvNet [40]使用随机梯度下降训练自监督我们使用UCF101数据集的第一次分裂来训练奇一网络，并进行验证。时间抖动用于避免过度拟合。6.2. 动作识别的微调一旦我们训练了奇数输出网络，使用默认设置，我们使用它来初始化监督训练。我们使用从奇一输出网络获得的卷积滤波器权重初始化微调网络（AlexNet架构[11]，在全连接层具有标准4096激活）完全连接的层被微调其学习速率比用于卷积层的学习速率大10倍（10- 2到10- 4），并且批次由128个样本组成。通常，网络将长度为六（六帧）的子序列作为输入（与奇一网络中使用的大小我们使用时间抖动和下降出率为0.8。在最后的推理过程中，为了计算分类ac-它返回最大对数条件概率作为视频的预测类6.3. 评估O3N学习的采样类型第一个实验的目的是评估用于奇一网络的抽样类型的影响。在这个实验中，我们使用默认设置进行视频的O3NOdd-one-out训练仅在UCF 101数据集第一次分裂的训练集上执行。学习功能用于微调所有三个分裂的UCF 101分别评估的行动分类准确性。我们比较了第4节中解释的三种抽样类型，即a）连续抽样，b）随机抽样和c）约束连续抽样。我们还比较了我们的O3N初始化与随机初始化微调网络的结果。结果报告于表1中。从表1中获得的结果可以看出，使用奇一出局学习的所有三种初始化方法在监督动作分类任务上的表现都优于随机初始化。随机初始化获得只有47.0%以上的三个分裂，其中作为O3Nconsec-有效抽样获得50.6%，优于3.6%，随机初始化有趣的是，与连续抽样相比，约束连续抽样过程获得更好的结果（52.4%）。随机抽样过程对于监督和自监督任务都获得了最佳结果。连续采样是一项更复杂的任务，因此是网络最难解决的问题视频通常有慢动作，在这种情况下，它可能是dif-3642方法自助餐acc.split-1分裂2分流3是说O3N-4096-SOD25.751.751.450.951.3O3N-128-SOD29.654.151.953.653.2O3N-128-CON33.649.750.350.450.1Nq.self.sup.acc.分流1分裂2分流3是说273.049.349.349.449.3443.652.151.551.351.6629.654.151.953.653.2821.354.552.552.353.11016.652.652.753.252.8表2：比较O3N网络全连接层的容量对特征学习和动作分类的影响。用对比抽样法区分正确和不正确的排序是不可能的。面对这样一个令人困惑的任务，网络可能学不到什么。此外，从小运动中学习意味着关注小的细微之处，这可能无法很好地推广到大的一般运动理解。这可能是约束连续抽样与随机抽样相比性能较差的原因在分析这些结果之后，我们得出结论，奇一出局学习获得了更好的特征，这些特征可能适用于其他任务和应用，如视频动作分类。其次，基于随机问题生成过程（如随机抽样）的更一般的O3N任务似乎会生成更具有普遍性的特征。因此，奇一出局学习不需要精心设计的采样过程来学习与[31]等方法相反的良好视频特征6.4. 完全连接层的容量。我们假设，类比推理任务，如O3N学习产生有用的功能。然而，如果想要在卷积滤波器中捕获这样的信息，也许最好限制完全连接的层的容量为了达到这个目的，我们引入了两种设计选择。首先，我们将全连接层的激活数量减少到只有128个，而不是4096个。其次，我们使用差分和（SOD）作为融合方法，而不是简单地连接（CON）我们的多分支网络架构中的激活。在这个实验中，我们评估了这两种设计选择的影响。我们使用默认的实验协议，但现在使用随机抽样的O3N首先，我们评估了使用128维激活与使用差异和模型作为融合方法的4096维结果报告于表2中。有趣的是，对于监督学习和自监督学习，128次激活的减少容量比4096维激活获得更好的结果。当激活次数减少到128次时，自监督性能从25.7%提高到29.6%，这也反映在监督任务中，其中监督动作分类性能从51.3%提高到53.2%。这也可能部分是由于缺乏过度拟合。其次，我们比较了使用特征级联（CON）的多分支融合与表3：问题数量的影响（Nq.）在UCF101数据集上进行O3N差异（SOD）融合。结果也报告在表2中。我们将O3N-128-SOD和O3N- 128-CON进行了比较，有趣的是，在自监督任务中，特征连接模型比差和模型获得了更好的结果。然而，CON的监督动作分类结果不如总和SOD（difference）方法。即使差和方法（128-SOD）在自监督任务上具有相对较差的性能（29.6与33.6相比），直观地，它具有将关于模拟推理的抽象下推到卷积滤波器的能力。因此，差异和模型学习更好的特征表示，但在使用奇一法学习时，它解决的任务的6.5. O3N问题应该有多大在这个实验中，我们使用不同数量的元素在每个O3N问题的O3N学习的影响进行我们使用随机抽样的默认实验协议，并在每个问题中训练具有2，4，6，8和10个元素（重复性）的网络，并报告验证集上的监督和无监督性能。请注意，自监督任务仅在UCF 101数据集的分割1上进行训练在UCF 101分割1的验证集上评估的自监督任务。结果见表3。注意，具有两个元素的O3N方法简化为类似于序列验证方法[31]。从表3中的结果可以看出，随着我们增加O3N问题中的元素数量结果，无监督分类精度降低。然而，有趣的是，具有两个元素的O3N任务在监督分类任务上仅获得49.3%的准确率。然而，随着每个问题中元素的增加，它往往会获得更好的监督分类任务的结果。对于一个由6个元素（即5个相关的正确子序列和1个奇错子序列）组成的O3N结果表明，随着任务变得非常困难（8和10个元素），监督结果饱和并开始下降。这是因为当处理一个非常模糊和困难的任务时，网络可能学习得很少，因为它无法解决它，这也反映在性能差当3643方法UCF101HMDB51随机初始化。- 差异和43.421.8O3N- 差异之和54.325.9随机初始化。- 动态图像。47.022.3O3N-动态图像53.226.0随机初始化。- Stck.of-diff.50.228.5O3N- Stck.-of-diff.60.032.4方法UCF101-split1HMDB51-split1DrLim [17]45.716.3[32]第三十二话45.415.9[44]第四十四话40.715.6Seq. Ver. [三十一]50.919.8我们的-差异堆。60.332.5随机权重-差异堆叠。51.328.3ImageNet权重-Stack-of-Diff。70.140.8表4：几种视频剪辑编码器方法对使用UCF 101数据集和HMDB 51进行三次分割的奇一法学习的影响。任务太容易解决，网络也可能学不到太多（问题大小为2）。在表3中，我们可以看到这种效果。6.6. 视频剪辑编码方法。在本节中，我们使用第5节中讨论的三种视频剪辑编码方法来比较O3N学习的影响。我们评估帧的差的和（Sum-of-diff.）视频剪辑编码，具有动态图像[5]编码，以及帧差和的堆叠（Stck. of-diff.）视频剪辑编码器。我们在表4中比较了使用UCF 101和HMDB 51数据集的动作识别结果。对于UCF 101（表4），使用（差异和）视频剪辑编码方法（在第5节中）仅获得43.4%，而对于相同的视频剪辑编码器，O3N初始化获得54.3%，这是10.9%的显著改进。动态图像的随机初始化比差和随机初始化效果更好然而，使用O3N学习，对动态图像获得的结果比差和方法差1.1%。最有趣的是，帧差的堆叠对于随机初始化和O3N初始化都获得了最好的结果。使用O3N学习，我们改善了所有三个视频剪辑编码器方法的随机初始化结果，分别提高了 10.9% ， 6.2% 和9.8%，表明O3N学习在视频表示学习方面的优势。HMDB 51数据集也可观察到类似趋势（见表4）。当使用ImageNet预训练模型初始化网络时，我们在UCF101上分别获得了64.9%，67.2%，70.1%的差分和视频剪辑编码，动态图像和差分方法堆栈。6.7. 与现有技术相比。在本节中，我们将我们基于O3N的具体而言，我们与 DrLim [17] 、 Tem- pCoh [32] 、 Obj. Patch [44] 和Seq.Ver [31]进行了比较。结果报告于表5中。请注意，我们只使用UCF 101和HMDB 51的拆分1，以便与其他已发表的结果进行比较[31]。从结果可以看出表5：使用UCF 101和HMDB 51数据集与其他最先进的自监督学习方法进行动作分类的比较。我们的基于O3N学习的特征在UCF101中获得的分数比文献[31]中报道的依赖于顺序验证的第二好方法高出近10%。同样，我们获得了HMDB 51数据集比[31]大幅度提高12.7%。应该注意的是，当依赖于在监督数据集上预训练的深度架构时，如Imagenet [9]，使用光流，改进的轨迹特征和UCF 101上的RGB数据，现有技术达到约94.2%（[43]）。这些来自最先进的动作识别方法的准确性总是通过包含其他几种模态（如光流）以及ImageNet[9]等大规模监督数据集来获得的。通过所获得的结果，我们展示了视频数据自监督学习的一些有前途的方向，这些方向有助于自监督深度网络，这些网络在未来可能会成为完全监督或半监督网络的替代品。7. 结论我们提出了奇一网络（O3N），这是一种在不使用类别级注释的情况下学习视频视觉特征在特征学习过程中，我们的O3N学习对输入数据进行类比推理，从而获得更好的可概括特征。学习的特征被微调用于动作分类，并在UCF 101数据集上获得60%的分类准确率，而无需求助于外部信息或模型，如预训练的网络或光流特征。同样，我们在HMDB51数据集上的动作分类的自监督学习方面的表现优于先前的最先进结果超过12%。我们的O3N可以应用于不同类型的时间编码器。我们使用三个视频剪辑编码器进行了实验，所有这些编码器都显示出一致的改进。在未来，我们的目标是使用我们的奇一网络以自我监督的方式联合学习图像和视频的特征。鸣谢：这项研究得到了澳大利亚研究委员会（ARC）通过机器人视觉卓越中心（CE140100016）的支持，并在NCI位于澳大利亚堪培拉的国家设施。Hakan Bilen得到了ERC启动资金的支持，该资金用于集成和详细图像理解（EP/L024683/1）。3644引用[1] S. Abu-El-Haija，N. Kothari，J. Lee，P.纳采夫湾托代里奇，B. Varadarajan和S. Vijayanarasimhan。YouTube-8 M：大规模视频分类基准。 arXiv 预印本 arXiv ：1609.08675，2016。1[2] P. Agrawal，J. Carreira和J.马利克学习通过移动来观察。在ICCV，2015年。一、二[3] Y. Bengio和J.S. 伯格斯特拉用于预训练复杂细胞状网络的缓慢、去相关特征NIPS，2009年。一、二[4] H.比伦湾Fernando，E. Gavves和A.维达尔迪基于动态图像网络的动作识别。CoRR，abs/1612.00738，2016。5[5] H. 比伦湾Fernando，E.Gavves，A.Vedaldi和S.古尔德。用于动作识别的动态图像网络。在CVPR，2016年。一二三五六八[6] H. Bourlard和Y.坎普多层感知器与奇异值分解的自动关联。Biological cybernetics，59（4-5）：291-294，1988.一、二[7] C. Cadieu和B. A.奥尔斯豪森从自然电影中学习变换不变量。NIPS，2008年。2[8] R. S.克鲁兹湾费尔南多，A. Cherian和S.古尔德。视觉排列学习。在CVPR，2017年。一、二[9] J. Deng，W.东河，巴西-地索赫尔湖J. Li，K. Li和L.飞飞。 Imagenet ：一个大规模的分层图像数据库。CVPR，2009。8[10] C.多尔施A. Gupta和A. A.埃夫罗斯通过上下文预测的无监督视觉表示学习。在ICCV，2015年。一、二[11] J. Donahue，Y. Jia，O. Vinyals，J. Hoffman，N. 张先生，E. tzeng和T.达雷尔。Decaf：用于通用视觉识别的深度卷积激活功能。CoRR，abs/1310.1531，2013年。6[12] A. 多索维茨基T. Springenberg，M. Riedmiller和T.布洛克斯使用卷积神经网络的判别式无监督特征学习。在NIPS，2014。一、二[13] B. 费尔南多角安德森，M。Hutter和S.古尔德。用于活动识别的区分性分层等级池。在CVPR，2016年。2[14] B. 费尔南多 E. 加夫斯， J. Oramas， A. Ghodrati，以及T. Tuytelaars为动作识别建立视频演化模型。CVPR，2015。2[15] B. 费尔南多 E. 加夫斯， J. Oramas， A. Ghodrati，以及T. Tuytelaars 用于动作识别的排名池。TPAMI，PP（99）：1-1，2016. 二三五[16] B. Fernando和S.古尔德。学习端到端视频分类与排名池。InICML，2016. 3[17] R. Hadsell，S. Chopra和Y.乐存。通过学习不变映射进行降维。CVPR，2006。8[18] S. Herath，M. Harandi和F.波里克利深入到行动识别：一个调查。Image and Vision Computing，60：4-21，2017。3[19] G. E. Hinton和T.J. Sejnowski 玻尔兹曼机中的学习与模拟并行分布处理：认知微观结构的探索，1：28223645[20] G. E. Hinton和R. S.泽梅尔自动编码器，最小描述长度和亥姆霍兹自由能。NIPS，1994年。一、二[21] M. Jain，J. C. vanGemert，H. J e'gou，P. Bouthemy，以及C. G. M.斯诺克由运动产生的小块的动作定位。CVPR，2014。3[22] S.吉，W. Xu，M. Yang和K. Yu.用于人类动作识别的 3D 卷积神经网络。 PAMI ， 35（1）：221 5[23] A. Karpathy ， G.Toderici 、 S.Shetty ， T. 良河，巴西-地Sukthankar和L.飞飞用卷积神经网络进行大规模视频分类。CVPR，2014。1[24] A.克里热夫斯基岛Sutskever和G. E.辛顿基于深度卷积神经网络的ImageNet分类。NIPS，2012年。3[25] H. Kuehne，H. Jhuang、E. Garrote，T. Poggio和T. Serre. Hmdb：用于人体运动识别的大型视频数据库见ICCV，2011年。6[26] B. G. V.Kumar，G. Carneiro和我D.里德通过最小化全局损失函数，使用深度连体和三重卷积网络学习局部图像描述符CoRR，2015年。2[27] Y.勒昆湖Bottou，Y. Bengio和P.哈夫纳基于梯度的学习应用于文档识别。Proceedings ofthe IEEE，86（11）：2278-2324，1998. 1[28] H. Lee，P. Pham，Y. Largman和A. Y. Ng.使用卷积深度信念网络进行音频分类的无监督特征学习。NIPS，2009年。2[29] Y. Li，W.

下载后可阅读完整内容，剩余1页未读，立即下载