大规模动态纹理数据集及其在ConvNet中的应用

182 浏览量更新于2023-10-13 收藏 1.75MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

一种新的大规模动态纹理数据集及其在ConvNet理解作者声明：Richard P. 威尔德斯加拿大安大略省多伦多约克大学{hadjisma，wildes}@ cse.yorku.ca抽象。我们介绍了一个新的大规模动态纹理数据集。拥有超过10，000个视频，我们的动态纹理数据库（DTDB）比任何以前可用的动态纹理数据集大两个数量级 DTDB有两个互补的组织，一个基于独立于空间外观的动态，另一个基于独立于动态的空间外观。互补的组织允许独特的洞察力的实验，关于时空ConvNet架构的主要类别的能力，利用外观与。动态信息我们还提出了一个新的双流ConvNet，它提供了一种替代标准的基于光流的运动流，以扩大可以包含的动态模式的范围。由此产生的运动流被证明优于传统的光流流相当大的利润率。最后，DTDB作为预训练基板的效用通过在不同的动态纹理数据集上的迁移学习以及动态场景识别的伴随任务来证明，从而产生新的最先进的技术。1介绍视觉纹理无论是静态的还是动态的，都是一种重要的场景特征，它为相干区域的分割和材质属性的识别提供了重要的信息此外，它可以支持后续的操作，涉及背景建模，变化检测和索引。相应地，许多研究已经解决了单个图像的静态纹理分析（例如[21，6，5，36，35]）。相比之下，与来自时间图像流（例如，时间图像流）的动态纹理分析有关的研究被称为“纹理分析”。视频）已经被限制（例如，[15、26、38、27]）。动态与静态纹理研究是不令人满意的，因为前者在现实世界中和后者一样普遍，并且它提供了类似的描述能力。许多常见的模式更好地描述了全球动态的信号，而不是个别的组成元素。例如，将树上树叶的整体运动描述为被风吹动的树叶，而不是单个树叶的运动，这更清楚。此外，考虑到通过在线和其它源可获得的视频的冲击动态纹理分析的应用可以使静态纹理的应用黯然失色。动态纹理的研究受到许多因素的阻碍。一个主要问题是缺乏关于什么构成动态纹理的清晰度通常，动态纹理被定义为表现出某些时间统计的时间序列，或者2I. Hadji和R. P. Wildes时间的属性[30]。然而，在实践中，术语动态纹理通常用于描述图像序列表现出随机动态的情况（例如湍流水和风吹植被）。这一观察结果由UCLA [30]和DynTex [24]数据集中此类纹理的优势所一个更引人注目的定义将动态纹理描述为可以通过跨其支持区域的相同聚合动态属性来表征的任何节奏序列因此，UCLA和DynTex中占主导地位的动态纹理是表现出随机运动的纹理的子类。另一个问题是，在现存的数据集中应用的定义是，类通常是由外观，这违背了研究这些纹理的动态的目的在这方面唯一突出的数据集是YUVL [8]，其中类是根据模式动态明确定义的。动态纹理研究中的其他主要限制因素是现有数据集的大小和多样性不足。表1记录了动态纹理识别中使用的基准。显然，与静态纹理可用的数据集相比，这些数据集很小（例如，[5、7、23]）。此外，有限的多样性是明显的，例如，在序列的数量大于视频的数量的情况下，多个序列被生成为来自单个视频的剪辑多样性也受到不同类别的限制，这些类别有时来自对同一物理现象的略有不同的观点此外，多样性在具有少量类的变型中是有限的。最后，值得注意的是，所有当前的动态纹理数据集都是性能饱和的[15]。表1.新DTDB数据集与其他动态纹理数据集的比较数据集DynTex [24]UCLA [30个字符]Y UVL [第八节]DTDB （我们的）数据集变化阿尔法[11]测试版[11]伽马[11]三十五[四十]++[14] 五十[三十][14][28]七[九]SIR [9]1 [8]2 [8]3 [15]外观动力学#视频60162264353455050505050610509610>9K>10K#序列60162264350360020020092400400610509610>9K>10K帧数>140K>397K>553K>8K>17K15K15K>6K 15K15K>65K >55K >65K>310万 >340万#类31010353650987505684518在过去的几年里，越来越大的数据集（例如[29，41，18]）推动了计算机视觉的进步，特别是因为它们支持强大的ConvNets（例如[29，41，18]）的训练。[19，32，16]）。对于基于视频的识别，动作识别是研究最多的任务，并且大规模数据集（例如，UCF-101 [33]和最近的动力学[3]）在取得的进展中发挥了重要作用。因此，大规模的动态纹理数据集是特别感兴趣的，以支持在这个领域中使用的ConvNets。针对上述情况，我们做出以下贡献。1)我们提出了一个新的大规模动态纹理数据集两个数量级以上的任何可用。在超过10，000个视频中，它的大小与UCF-101相当，UCF-101在动作识别的进步中发挥了重要作用。2）我们提供了数据集的两个互补组织第一组视频的基础上，他们的动态，而不管他们的静态（单帧）的外观。第二种是完全根据视频的视觉外观对视频进行分组。例如，除了将序列描述为包含汽车交通之外，我们还用动态信息来补充描述，该动态信息允许区分平滑和混乱的汽车交通。图1示出了来自存在于数据集中的大范围视频的帧，并且图2示出了来自存在于数据集中的大范围视频的帧。用于ConvNet理解的3说明了如何根据分组标准将视频分配到不同的类别（即，动态与外观）。3)我们使用新的数据集来探索不同时空ConvNet架构的代表性特别地，我们检查了直接将3D滤波应用于输入视频[34，15]的架构与明确分离外观和运动信息的双流架构[31，12]。同一数据集的两个互补组织允许独特的有见地的实验，涉及算法利用外观与外观的能力。动态信息4）我们提出了一种新的双流体系结构，在动态纹理识别任务上产生5)我们证明了我们的新数据集足够丰富，可以支持迁移学习到不同的动态纹理数据集YUVL [8]和不同的任务动态场景识别[13]，在那里我们建立了一个新的最先进的技术。我们的新颖的动态纹理数据库（DTDB）可在http://vision.eecs.yorku.ca/research/dtdb/。图1.一、（左）来自建议的动态纹理数据库（DTDB）的样本帧及其在基于动态和外观的组织中分配的类别。（右）新DTDB数据集中基于不同外观的动态纹理的缩略图示例。参见视频的补充材料。2动态纹理数据库新的数据集，动态纹理数据库（DTDB），构成了最大的动态纹理数据集，拥有超过10，000个视频和≈350万帧。如上所述，数据集以两种不同的方式组织，具有18个基于动态的类别和45个基于外观的类别。表1比较我们的数据集与以前的动态纹理基准显示的显着改善相比，替代品。这些视频是从各种来源收集的，包括网络和我们使用的各种手持摄像机，这有助于确保多样性和大的类内变化。图1提供了整个数据集的缩略图示例补充材料中提供了相应的视频动态类别规范。创建数据集的主要目标是构建真正的动态纹理数据集，其中将表现出相似动态行为的序列以前的工作提供了一个原则性的方法来定义五个粗糙的动态纹理类别的基础上的时空方向的数量基于外观的组织汽车交通拥挤交通鱼群混乱的汽车交通混乱的人群混乱的动物群混乱的鱼群畅通的汽车交通平稳人群平滑的动物群平滑的鱼群DTDB双组织基于动力学的组织主导运动混沌运动4I. Hadji和R. P. Wildes主要运动单个刚体多个对象光滑非刚性湍流非刚性羽流非刚性在序列[8]中，如在表2的左列中给出的。我们使用该枚举作为出发点，但细分原始类别以产生更大的18个类别的集合，如表2的中间列所示。注意，原始类别以考虑关于原始类别中的规定取向分布的增加的变化的方式被细分。例如，落在主导取向（即，方向）下的图案可以是非对称的。由单一时空方向主导的序列）被分成五个子类别：（1）单个刚性对象，（2）多个刚性对象，（3）平滑非刚性对象，（4）湍流非刚性对象和（5）羽状非刚性对象，所有这些对象都表现出沿着主导方向的运动，尽管具有增加的方差（参见图1）。[20]见图2。在极端情况下，原始类别各向同性不允许基于关于其定义取向的增加的方差进行进一步细分，因为尽管其可能具有显著的时空对比度，但其缺乏可辨别的取向，即其表现出各向同性图案结构。请参阅补充材料，了解所有类别的视频示例，以及附带的讨论。表2. DTDB数据集中基于动态的类别。通过在[8]中最初提出的动态纹理谱中进行更精细的区分，总共定义原始类别的细分根据指定用于定义原始类别的方向的增加的方差（由箭头方向指示）发生;有关详细信息，请参见文本补充提供视频。原始YUVL类别DTDB类别名称/描述名称/描述示例源欠约束时空定向↓孔径问题传送带，理发杆闪烁闪烁的灯光闪电闪烁火，闪烁的蒸汽支配时空定向↓单个刚体火车，飞机多个刚体对象畅通的交通，顺畅的人群平滑非刚性对象水龙头水、淋浴水湍流非刚性物体间歇泉羽状非刚性物体雪崩、山崩多主导时空取向↓旋转顶视图风扇，顶部旋转侧视图龙卷风，侧面透明度半透明表面、链环围栏与背景羽流烟、云爆炸烟火，炸弹混沌成群的昆虫，混乱的交通非均匀时空定向↓波波浪起伏的水面，飘扬的旗帜湍流沸腾的液体、气泡随机被风吹动的叶子、花向同性↓闪烁电视噪音，闪烁的水图二.（左）我们在动态纹理中所做的更精细区分的示例属于广泛的主导运动类别。请注意，从左到右，动态（右）关键词wordle。单词的字体大小越大，表明该关键词在数据集中产生视频的频率越高关键字和外观类别。对于每一个类别，我们都头脑风暴了一个场景，物体和自然现象的列表，它们可能包含或用于ConvNet理解的5展现出所需的动态行为，并将其名称用作后续web搜索的关键字为了获得大规模的数据集，生成了大量的英语关键词列表，并通过将其翻译成各种语言（俄语、法语、德语和普通话）来增强。所生成的关键字及其在所有类别中出现的频率的可视化表示为图2中的文字[2]。2.为了指定外观类别，我们选择了45个关键字，它们共同涵盖了所有动态类别。这种方法是可能的，因为视频的在线标签主要基于外观。所得到的外观类别在图中作为子标题给出。1.一、视频收藏。生成的关键字用于抓取YouTube [39]，Pond5 [25]和VideoHive [37]的视频。在这样做时，专门抓取播放列表很有用由于播放列表由人类用户创建或由机器学习算法生成，因此它们的视频共享相似的标签和主题;因此，从播放列表抓取的视频通常是高度相关的，并且具有包含感兴趣的动态纹理的高概率。最后，使用关键字收集的链接（URL）被清理以删除重复项。注释。注释用于通过人工检查来验证每个抓取的视频链接中存在的类别。这个任务是收集过程的主要瓶颈，需要多个注释器才能获得好的结果。由于注释需要根据动态标记视频，而忽略外观，反之亦然，因此它需要专业背景，并且不适合Mechanical Turk等工具[1]。因此，聘请了两名具有计算机视觉背景的注释员并对其进行了培训。注释采用定制的基于网络的工具，允许用户根据其网络链接查看每个视频并为其分配以下属性：基于动态的标签（根据表2中定义的18个类别）、基于外观的标签（根据图2中定义的45个类别）、基于视频的标签（根据图3中定义的45个类别）、基于视频的标签（根据图4中定义的45个类别）、基于视频的标签（根据图5中定义的45个类别）。1）和视频中图案的开始/结束时间。每个视频由两名注释者单独审查。当两个主要的注释者不同意时，第三个注释者（也有计算机视觉背景）试图以协商一致的方式解决问题，如果不可能，链接就会被删除。在注释之后，下载所有视频的指定部分及其标签。数据集清理。对于一个干净的动态纹理数据集，我们选择的目标纹理应该占据至少90%的空间支持的视频和所有的时间支持。由于这些要求很难满足在野外获得并发布在网络上的视频，注释者被指示接受视频，即使他们没有严格满足这一要求。在随后的步骤中，再次对下载的视频进行视觉检查并进行空间裁剪，使得所得到的序列至少有90%的空间支持被目标动态纹理占据。为了确保裁剪不会严重影响纹理样本的整体大小，任何裁剪空间尺寸小于224×224的视频都将从数据集中删除。做最初注释的人也做了清理工作。该最终清洁过程产生略多于9000个清洁序列。为了获得更大的数据集，它以两种方式进行了扩展第一，rele-6I. Hadji和R. P. Wildes选择早期DynTex [24]和UCLA [30]数据集的vant视频（但没有来自YUVL [8]），同时避免重复;其次，几名志愿者贡献了他们录制的视频（例如，使用手持相机）。这些添加导致最终数据集包含10，020个具有各种空间支持和持续时间（5-10秒）的序列。基于动态和外观的组织。所有10，020个序列都用于基于动态的组织中，每个类别的平均视频数量为556±153。然而，由于数据收集期间的主要焦点是动态，因此注意到并非所有基于外观的视频标签都生成足够的基于外观的序列。因此，为了在外观组织中保持数据集平衡，在基于外观的组织中忽略包含少于100个序列该过程产生了基于外观的数据集，该数据集包含被划分为45个不同类别的总共9206个视频，每个类别的平均视频数量为205±95。3时空对流网络实现时空ConvNets主要有两种互补的方法。第一种直接与输入时间图像流（即视频）一起工作，例如[17，18，34]。第二种采用双流方法，其中图像信息在并行路径中处理，一个用于外观（RGB图像），一个用于运动（光流），例如[31，22，12]。为了我们的比较，我们考虑一个简单的例子，每个类，previ- ously已表现出强大的性能，时空图像的理解。特别是，我们使用C3 D [34]作为直接使用输入视频的示例我们还考虑两个额外的网络：一种新颖的双流体系结构，旨在克服光流在捕获动态纹理方面的限制，以及一种直接在视频输入上工作的免学习体系结构，最近已经显示出对先前可用数据集的动态纹理识别的最新性能[15]。重要的是，在选择这组四个ConvNet架构进行比较时，我们并不寻求比较所考虑的两个广泛类别的各种实例化的细节，而是更根本地理解单流和双流方法的相对能力在本节的剩余部分中，我们简要概述了比较的每个算法;其他细节在补充材料中。C3D C3D [34]使用RGB图像的时间流。它通过学习的3D（x，y，t）卷积滤波器的多层应用对这些图像进行因此，它提供了一个相当简单的推广标准的2D ConvNet处理图像时空。这种推广需要大量增加要学习的参数的数量，这通过在所有层（3×3×3卷积）使用非常有限的时空支持这种类型的ConvNet的考虑允许集成的时空滤波捕获外观和动态信息的能力的评估双流标准的双流架构[31]在两个并行路径中运行，一个用于处理外观，另一个用于处理运动。输入用于ConvNet理解的7到外观路径的是RGB图像;运动路径的输入是光流场的堆叠。本质上，每个流都是用相当标准的2D ConvNet架构单独处理的通过每个途径进行单独的分类考虑这种类型的ConvNet允许对两个流进行评估，以分离外观和动态信息，从而理解时空内容。MSOE-双流。已知光流是一种很差的表示对于许多动态纹理，特别是那些表现出明显的非光滑和/或随机特性[10，8]。这样的纹理是很难捕捉的光流，因为它们违反了假设的亮度恒定性和局部平滑度是固有的，在大多数流量估计。示例包括由风吹动的树叶、湍流和复杂的照明效果（例如：水的倒影）。因此，已经使用各种替代方法来代替光流[4]进行动态纹理分析。在本上下文中，光流的一个特别有趣的替代方案是外观边缘化时空定向能量（MSOE）滤波[8]。该方法将3D（x，y，t）定向滤波器应用于视频流，从而自然地适合卷积架构。此外，其外观边缘化从纯粹的空间外观抽象到其输出中的动态信息，从而为基于运动的路径提供自然输入。相应地，作为一种新颖的双流架构，我们用MSOE滤波结果的堆栈替换运动流中的否则，双流架构是相同的，包括使用RGB帧来捕获外观。我们的假设是，由此产生的架构，MSOE-两个流，将能够捕捉到更广泛的动态相比，什么可以被捕获的光流，同时保持捕捉外观的能力。SOE-Net. SOE-Net [15]是一个免学习的时空ConvNet，通过直接对输入时间图像序列应用面向3D的滤波进行操作。它依赖于一个词汇表的理论动机，分析定义的过滤操作，通过一个经常性的连接，跨网络层级联，以产生一个层次表示的输入数据。在此之前，该网络已成功应用于动态纹理识别该网络允许考虑一个互补的方法，C3D在研究如何直接3D时空滤波可以共同捕捉外观和动态。此外，它用于判断新的DTDB数据集在面对一个已知的强大的方法来动态纹理的挑战的水平。4实证评价在其两个组织中提出的数据集的目标是双重的。首先，它可以用于帮助更好地理解基于学习的时空ConvNets的优点和缺点，从而根据手头的任务指导架构选择的决策其次，它可以作为一个训练基板，以推进研究动态纹理识别，特别是，和其他相关任务的初始化，一般。相应地，从算法的角度来看，我们的实证评估旨在回答以下问题-8I. Hadji和R. P. Wildes提问：1）时空ConvNets是否能够解开外观和动态信息？2）在这样做时，流行架构的相对优势和劣势是什么3)输入数据的什么表示最适合学习图像动态的强表示？在复杂的情况下，我们将从数据的特定方面来处理问题。1）新的数据集是否为推动时空图像分析的未来发展提供了足够的挑战？2)数据集是否有利于将学习转移到相关任务？如果是这样的话：3）什么样的数据集组织更适合迁移学习？4)即使使用标准的时空ConvNet架构，对我们的数据集进行微调也能提高相关任务的最新水平吗？4.1什么是时空ConvNets更好地学习？外观与动力学实验方案。出于训练目的，数据集的每个组织被随机分为训练集和测试集，每个类别中70%的视频用于训练，其余的用于测试。C3D [34]和标准双流[31]架构是按照其原始论文中给出的协议进行训练的。考虑到运动流输入的变化（即MSOE而不是光流），类似于标准双流来训练新的MSOE双流为了公平比较时空ConvNets在利用运动和外观方面的相对能力，所有网络都是在DTDB上从头开始训练的，以避免任何混淆变量（例如，使用不同数据集上预训练的C3D和双流的可用模型会产生混淆变量）。培训细节可以在柔软的材料中找到。没有与SOE-Net相关的训练，因为其所有参数都是由设计指定的。在测试时，使用举行的测试集，并从每个网络的softmax得分获得报告的结果。请注意，我们分别比较了每个组织的识别性能;在目前情况下，对一个组织进行培训，对另一个组织进行测试是没有意义的，因为类别不同。（然而，我们确实报告了Secs的相关4.2和4.3。SEC的实验。4.3还考虑C3D和双流架构的预训练版本。表3.使用新的动态纹理数据库的两个组织的所有评估网络的识别精度DTDB动态DTDB-外观C3D [34]74.975.5RGB流[31]76.476.1流动流[31]72.664.8MSOE流80.172.2MSOE双流84.080.0SOE-Net [15]86.879.0结果表3提供了所有评价网络的详细比较。首先，我们考虑的相对性能的各种架构的动态为基础的组织。在基于学习的方法中（即除了SOE-Net之外的所有方法），引人注目的是RGB流优于Flow流，因为用于ConvNet理解的9以及C3D，尽管后两者旨在利用运动信息。仔细检查混淆矩阵（图1）。（3）说明了这种情况。可以看出，当相似的外观存在于不同的动力学类别中时，网络特别受到阻碍，如两个最混乱的类别（即混沌运动和主导多刚体）所证明的。这两个类别是专门构造的，以具有应用程序的抽象源--基于模糊推理，从而提高算法从外观抽象到模型动态的能力;参见图1，并在补充材料中包含视频。同样值得注意的是在类别上的性能，这些类别在其动态方面被最强烈地定义，并且在单个帧中几乎没有显示出独特的结构（例如闪烁和运动平移）。C3D和Flow流所经历的混乱表明，这些方法在学习适当的抽象方面能力很差事实上，Flow流的性能被认为是所有流中最弱的。较差的Flow流性能的可能原因是其输入光流不能捕获视频中的底层动态，因为它们违反了亮度恒定性和局部平滑性的标准光流假设C3 D RGB流流MSOE流SOE-Net图3.第三章。所有比较的ConvNet架构在动力学上的混淆矩阵新DTDB的基于C3 D RGB流流MSOE流SOE-Net图4.第一章外观上所有比较的ConvNet架构的混淆矩阵新DTDB的基于通过注意到MSOE流与其他单个流相比具有最佳性能来强调这些点，其中增加的性能裕度范围为≈4- 8%。基于该结果，为了判断双流效益，我们将外观（RGB）流与MSOE流融合，以产生MSOE双流作为基于学习的方法中的整体最佳表现者。重要的是，回想MSOE输入表示被定义为克服光流作为用于学习动态的通用输入表示的限制这些结果决定性地支持MSOE过滤作为基于动态学习的强大输入：对于坚持光流假设的类别，它导致与光流一样好的性能，但是10I. Hadji和R. P. Wildes将性能扩展到光流失效的情况最后，有趣的是，注意到以前的顶级动态纹理识别算法，手工制作的SOE-Net，是动态组织的最佳整体表现，表明仍然有歧视性信息要从这个数据集中学习将注意力转向基于外观的结果，揭示了所提出的动态和基于外观的组织之间的互补性。在这种情况下，由于数据集由外观主导，因此性能最好的是被设计为学习外观信息的RGB流。有趣的是，与RGB序列相似的C3D的性能是两个方面的，尽管C3D在外观组织方面表现稍好。这表明，C3D的重新定义在两个组织中的表现形式都很相似，而且在捕捉动态方面显得相对较弱。该限制可归因于C3D的核的极小支持（即，e. 3×3×3）。此外，如所期望的，流和MSOE流的性能在基于外观的组织上降级，因为它们被设计为捕获基于动态的特征。然而，即使在基于外观的组织中，MSOE流也比其Flow对应物表现出相当大的优势。这里检查混淆矩阵（图1）。4），揭示了C3D和RGB流倾向于产生类似的混淆，这证实了C3D利用外观的趋势。此外，可以看出，流和MSOE流倾向于混淆表现出相同动态的类别（例如，具有随机运动的类，诸如花、叶和裸树），这解释了这两个流的性能下降。值得注意的是，MSOE流引起较少的混淆，这证明了MSOE过滤器能够更好地捕获细粒度差异。此外，MSOE-两个流再次是基于学习的方法中表现最好的，在这种情况下，它比SOE-Net更好。结论.总体而言，数据集的两个组织的结果导致两个主要结论。首先，不同架构的比较表明，双流网络能够更好地从基于学习的架构的外观信息中分离出运动这一事实从RGB和MSOE流之间的性能的反转（取决于网络是否被训练成识别动态或外观）以及当被要求基于它们的外观识别序列时Flow和MSOE流两者的降级性能其次，混淆矩阵的更仔细的检查表明，光流在大多数类别上失败，其中序列打破了亮度恒定性和局部平滑性的基本光流假设（例如湍流运动、透明度和闪烁）。相比之下，MSOE流在这些类别以及对于Flow流相对容易的其他类别上表现良好。MSOE的整体优势反映在其更高的性能，相比流，在数据集的这些结果挑战了使用流作为运动流训练的输入数据的默认表示的常见做法，并且应该在未来的时空ConvNets的设计中考虑到。此外，值得注意的是，不依赖于学习的ConvNet，即SOE-Net，在动态组织中具有最佳性能用于ConvNet理解的11并且在外观组织上大致并列最佳这些结果表明DTDB的持续价值，因为未来有更多基于学习的方法可以从其数据中收集。4.2哪种DTDB组织适合迁移学习？实验方案。迁移学习被认为是相对于一个不同的动态纹理数据集和一个不同的任务，动态场景识别。YUVL数据集[8]用于动态纹理实验。在新的DTDB之前，YUVL是最大的动态纹理数据集，共有610个序列，并且它被选择作为具有主要由其序列的动态支配的类别的数据集的代表。它提供了3种不同的基于动力学的组织，YUVL-1，YUVL-2和YUVL-3，分别有5，6和8个类。做出各种基于动力学的区分;见[8，15]。对于动态场景实验，我们使用YUP++数据集[13]。YUP++是最大的动态场景数据集，总共有1200个序列，分为20个类别;然而，在这种情况下，类别主要由外观差异主导值得注意的是，YUP++提供了具有和不具有摄像机运动的序列的平衡分布，这允许根据它们从摄像机运动中抽象场景动态的能力来评估各种训练的网络。再次，为了公平比较，在这个实验中使用了在DTDB上从头开始训练的各种架构，因为目标不是在YUVL或YUP++上建立新的最先进的架构。相反，目标是显示数据集的两种组织的价值，并强调使训练数据适应应用程序的重要性。接下来，在4.3节中，将使用该实验的结论作为使用适当版本的DTDB对所考虑的体系结构进行微调的基础对于动态纹理和动态场景的情况下，我们考虑训练的外观与相对的好处。DTDB的动态组织。我们还比较了使用UCF-101作为类似规模数据集的代表的训练，但该数据集是为相当不同的动作识别任务而设计的。由于评估数据集（即YUVL和YUP++）太小而不支持微调，因此我们改为从最后一个图层中提取特征并使用这些特征进行识别（如先前在小目标数据集的类似约束下所做例如[34]）。比较从所使用的各种网络的最后一个池化层fc6和fc7提取的特征的初步评估显示，在两个数据集上从fc6到fc7的性能总是下降，并且在48个比较点中，从最后一个池化层提取的特征的性能在75%的时间内更好因此，下面报告的结果依赖于从所有使用的网络的最后一个池层提取的特征。对于识别，提取的特征与线性SVM分类器一起使用，该分类器使用通常与这些数据集一起使用的标准留一法协议[8，27，15]。结果我们首先考虑应用于YUVL数据集的迁移学习的结果，总结在表4（左）中。这里，重要的是要强调YUVL类别是根据纹理动态而不是外观来定义的相应地，我们发现，对于每一个架构的最佳性能-12I. Hadji和R. P. WildesYUVL-1YUVL-2YUVL-3UCF-101基训练C3d61.465.455.7RGB流63.672.860.0流动流84.887.381.7MSOE流80.080.274.4MSOE双流80.884.578.8基于动力学C3d83.386.483.4RGB流68.175.465.0流动流87.786.983.1MSOE流89.289.384.8MSOE双流90.791.487.6基于外观C3d82.285.480.9RGB流67.672.864.3流动流86.785.781.3MSOE流87.787.383.6MSOE双流89.890.286.7YUP++（S）YUP++（男）YUP++UCF-101基训练C3d62.555.858.3RGB流64.954.463.5流动流83.651.968.9MSOE流74.352.762.0MSOE双流80.166.674.6基于动力学C3d84.371.876.5RGB流81.873.778.3流动流89.364.776.8MSOE流90.067.578.4MSOE双流93.381.587.7基于外观C3d85.073.778.1RGB流82.076.279.9流动流90.665.877.0MSOE流91.069.579.1MSOE双流94.783.289.6通过对基于DTDB动态的组织进行预训练，而不是基于外观的组织或UCF-101预训练，可以获得性能。这些结果清楚地支持了基于动态数据的基于动态的任务的训练的重要性。值得注意的是，具有动态训练的MSOE流及其互补的MSOE双流方法在该任务上显示出最强的性能，这进一步支持MSOE过滤作为双流架构的运动流的输入的基础。表4.时空ConvNets的性能，使用DTDB的两个组织进行训练，（左）在YUVL数据集的各种细分上[8]和（右）在YUP++和整个YUP ++的静态和移动相机部分[13]现在对与之密切相关的动态场景识别任务进行比较如前所述，尽管YUP++是一个动态场景数据集，但其各种类别在很大程度上仍然由外观差异所主导这种外观优势很好地反映在表4（右）所示的结果与在前一任务中所做的观察相反，这里的网络在不同程度上更多地受益于基于外观的训练，其中相对于UCF-101预训练的优势特别显著。与YUVL数据集和第4.1节中的发现一致相比之下，MSOE流在数据集的静态相机部分上表现得令人惊讶地好，其中它甚至优于RGB流。该结果表明，MSOE流能够在没有分散注意力的相机运动的情况下利用动态和外观信息。作为补充，在外观上训练的MSOE双流提供了整体最佳性能，甚至超过了YUP++[13]上以前的最先进技术。值得注意的是，所有网络在存在相机运动的情况下都会引起不可忽略的性能下降，其中RGB在存在相机运动的情况下最强显然，由摄像机运动产生的图像动态特性主导了场景固有特性，在这种情况下，最好将表示集中在外观上。结论.本节中的评估证明了拟议数据集的预期效益，而不是依赖于其他不一定与最终应用相关的可用大规模数据集（例如，使用动作识别数据集，即UCF-101 [33]用于预训练，当目标任务是动态场景识别时，如[13]中所做）。更重要的是，拟议的两个组织的好处和回顾一下本节开始时提出的问题，这里显示的结果用于ConvNet理解的13YUVL-1YUVL-2YUVL-3状态-先进SOE-Net [15]95.691.791.0基于动力学C3d89.190.089.5MSOE双流91.192.790.0基于外观C3d88.887.485.4MSOE双流90.291.287.8YUP++（S）YUP++（男）YUP++状态-先进T-ResNet [13]92.481.589.0基于动力学C3d89.480.885.5MSOE双流95.984.590.4基于外观C3d90.082.786.3MSOE双流97.087.091.8这表明，在考虑迁移学习方面，没有一个组织比另一个组织更好相反，它们是互补的，可以根据最终应用程序的具体情况明智地使用。4.3对DTDB进行微调以建立新的技术水平实验方案。在这个实验中，我们评估的能力，在这项研究中考虑的架构，以竞争与国家的最先进的YUVL动态纹理和YUP++动态场景时，微调DTDB。我们的目标是进一步强调DTDB在用于改进预训练模型时的好处。特别是，我们使用之前分别在Sports-1 M [18]和ImageNet [29]上预训练的C3 D和双流模型，然后使用两个版本的DTDB对这些模型进行补充材料中提供了微调细节。结果我们首先考虑YUVL数据集上的结果，如表5（左）所示。在这里，可以看出，与表4（左）中的结果相比，使用DTDB的动态或外观组织来微调预训练模型改善了C3D和MSOE双流的结果值得注意的是，性能的提升对于C3D尤为重要。这在很大程度上可以归因于C3 D是在大型视频数据集（即Sports-1 M）上进行预训练的，而在原始的双流架构中，只有RGB流在ImageNet上进行预训练，运动流是从头开始训练的。值得注意的是，在DTDB动态上微调的MSOE双流仍然优于C3D，并且超过或与使用SOE网络的YUVL上的先前结果相当。将注意力转向在YUP++上获得的结果，总结在表5（右）中，进一步强调了对适当数据进行微调的好处。类似于对YUVL的观察，性能的提升再次在C3D上特别显著重要的是，在DTDB外观上对MSOE-两个流进行微调可以产生总体最佳结果，并且性能大大优于以前的最先进的，它依赖于更复杂的架构[13]。表5.时空ConvNets的性能，使用DTDB的两个组织进行微调，（左）对YUVL数据集的各种细分[8]和（右）对YUP++和整个YUP ++的静态和移动相机部分[13]有趣的是，使用任一版本的DTDB进行微调的结果在YUVL和YUP++上也优于使用C3D或双流架构的先前报告的结果，具有相当大的余量[15，13]。补充材料中提供了额外的一对一比较。结论.本节中的实验以两种方式进一步强调了所提出的DTDB双重组织首先，在YUVL上，14I. Hadji和R. P. Wildes对标准架构的微调导致了性能的显著提升，与之前依赖于SOE-Net的最先进技术竞争或超越，SOE-Net是专门为动态纹理识别而手工制作的因此，一个有趣的前进方向是在DTDB上微调SOE-Net，以进一步使该网络从大规模动态纹理数据集的可用性中受益。其次，在YUP++上，研究表明，标准时空架构，在正确的数据上训练，可以产生新的最先进的结果，即使与更复杂的架构（例如， T-ResNet [13]）。再一次，像DTDB这样的数据集的可用性可以允许使用更复杂的体系结构进行更大的改进，这些体系结构提供了适应目标应用程序的数据5总结和讨论新的DTDB数据集允许系统地比较各种时空ConvNets的学习能力。特别是，它允许探索这种网络的能力，以代表动态与。外观信息这种系统和直接的比较与以前的数据集是不可能的，因为它们缺乏必要的补充组织。结果特别显示了双流网络的能力，该网络在其输入处分离外观和运动以进行相应的识别。此外，一个新的MSOE为基础的运动流的引入被证明，以提高性能比传统的光流流。鉴于双流体系结构的成功和普及，这一结果此外，它开辟了新的探索途径，例如使用MSOE滤波来设计性能更好的运动流（以及一般的时空ConvNet），用于额外的视频分析任务，例如动作识别尽管如此，一个学习自由的ConvNet，SOE-Net，在DTDB上产生了最好的整体性能，这进一步强调了进一步开发基于学习的方法的空间。一个有趣的方法是在DTDB上训练分析定义的SOE-Net，并评估它可以从合适的训练数据中获得的潜在好处。从数据集的角度来看，DTDB不仅支持将外观与动态，而且还显示出足够的大小和多样性来支持向相关任务的迁移学习，从而即使在使用标准时空ConvNets时也达到或超过最先进的水平。展望未来，DTDB可以成为进一步研究时空图像分析的宝贵工具例如，使用DTDB训练额外的最先进的时空ConvNet可以用于进一步提高动态纹理和场景识别两者的性能。此外，这两个组织之间的互补性，可以进一步利用基于属性的动态场景和纹理描述。例如，这里提出的各种类别可以用作属性，以提供超出传统分类标签（例如，动态纹理）的更完整的动态纹理和场景描述。羽状与沸腾的火山或湍流与波浪状水流）。最后，DTDB可用于探索其他相关领域，包括动态纹理合成，动态场景分割以及ConvNets之外的基于视频的识别算法的开发用于ConvNet理解的15引用1. Amazon Mechanical Turk：www.mturk.com2. 美丽的词云：www.wordle.net3. 卡雷拉，J.，齐瑟曼，A.：你好，动作识别？新模型和动力学数据集。在：CVPR（2017）4. Chetverikov，D.，Peteri，R.：动态纹理描述与识别研究综述。03 The Dog（2005）5. Cimpoi，M.，Maji，S.，科基诺斯岛Mohamed，S.，，Vedaldi，A.：描述野外的纹理。在：CVPR（2014）6. Cimpoi，M.，Maji，S.，Vedaldi，A.：用于纹理识别和分割的深度滤波器组。参见：CVPR（2015）7. Dai，D.，Riemenschneider，H.，古尔湖：纹理示例的可合成性。在：CVPR（2014）8. Derpanis，K.，Wildes，R.P.：基于空间像素的时空纹理表示与识别。PAMI34，11939. Derpanis，K.G.，Wildes，R.P.：基于时空结构分布的动态纹理识别。In：Computer Vision and Pattern Recognition（CVPR），2010IEEEConferenceon.pp. 19110. 说吧G A.， Wu，Y.，所以，S。：Dynamictextures. IJCV51，9111. Dubois，S.，Peteri，R.，Michel，M.：基于2D+T曲线的动态特征的表征与识别 Sig. 我... &Vid. Pr oc. 9，81912. Feichtenhofer，C.，Pinz，A.，王尔德R.P.：用于视频动作识别的时空残差网络。在：NI

下载后可阅读完整内容，剩余1页未读，立即下载