基于有序回归的单图像未来运动估计算法及其性能评估

54 浏览量更新于2023-10-12 收藏 2.14MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1基于有序回归Kyung-Rae Kim1 Whan Choi1 Yeong Jun Koh2 Seong-Gyun Jeong3 Chang-Su Kim11高丽大学2忠南国立大学3CODE42.ai摘要本文提出了一种新的算法，估计实例级的未来运动在一个单一的图像。我们首先用方向、速度和动作类来表示一个实例的未来运动然后，我们开发了一个深度神经网络，利用不同层次的语义信息来执行未来的运动估计。对于有效的未来运动分类，我们采用有序回归。特别是，我们开发了循环有序回归计划使用二进制分类器。实验表明，该算法具有可靠的性能，可有效地应用于单目标和多目标跟踪等视觉应用。此外，我们发布的未来运动（FM）数据集，从不同的来源收集和手动注释，作为单图像未来运动估计的基准。1. 介绍运动理解在各种视觉任务中至关重要，例如光流[23，38，46]，动作识别[55]，未来帧预测[36]和视频压缩[50]。大多数现有技术通过分析连续帧之间相比之下，人类通常能够甚至从单个静止图像精确地预测运动，如图1所示。这种与生俱来的感知能力使我们能够采取所需的行动，避免危险的情况。如果计算机视觉达到类似的运动理解水平，我们将能够建立更安全的人工智能系统，例如。机器人和自动驾驶汽车。我们提出了一个开创性的算法来估计实例级FM在一个单一的图像。该算法试图挑战人类在单图像运动的理解。尽管有一些方法[16，26，37，40，52]用于预测FM，但它们需要额外的信息或仅在有限的环境中有效。如图2所示，Yagi等人。[52]需要来自过去帧的实例的累积轨迹，而所提出的算法仅使用当前帧。[26，37]第26，37章：我的世界图1.上述注释是由所提出的算法自动生成的一个场景中的投影给定场景中的起点和终点，他们估计连接这些点的轨迹Mottaghi等人[40]通过将图像中的对象分类为如图2中的预定义场景之一来估计运动场景。他们专注于场景理解任务，而不是对象FM，如运动方向和幅度。Gao等人，的算法[16]与我们的算法最相似，但它估计像素级光流，并且仅适用于与训练数据中的动作场景高度相似的动作场景。即使不知道确切的物理原理，人类也可以根据他们的经验预测实例的下一个动作。基于这一观察，我们使用深度神经网络[22]以实现关于FM的这种感知能力。深度神经网络可以执行高层次的图像理解，如果提供足够可靠的例子[17，20，24，29因此，这项工作的另一个目标首先，我们专注于行人的实例，这是在许多应用程序中最感兴趣的对象。我们通过收集包含行人的图像来构建FM数据集。在检测到行人的边界框后，我们手动分配FM的三个属性（即，方向、速度和动作）。稍后，我们扩展FM数据集以包括汽车和动物实例。当我们看到一个移动的物体时，我们同时感知到物体及其周围环境的视觉同样，为了利用场景上下文进行FM估计，我们提出了多上下文池（MCP）层，273274Yagi等人[52] Kitaniet al. [26] Maet al. [37] Mottaghiet al. [40] Gaoet al. [16]建议图2.以前的FM估计方法[16，26，37，40，52]和所提出的算法的比较：所提出的算法在更多样化的场景和环境中更可靠地估计单个图像中的FM。请看补充视频。栅格化对象和全局特征。我们将 MCP 层合并到DenseNet-121 [22]中，以学习一个统一的模型来估计实例的未来方向，速度和动作。此外，为了有效的FM估计，我们采用有序回归。特别地，我们提出了未来方向的循环有序回归（COR）方案，其类具有循环序。所提出的算法提供了有前途的FM estima- tion结果，尽管在相机的观点，源类型和环境的变化。我们评估所提出的算法在单目标和多目标跟踪的重要应用中的有效性。结果表明，所提出的算法通过减少搜索区域使传统的对象跟踪器[25，41]此外，我们将该算法扩展到处理其他类型的实例，包括汽车，猫，狗和马。这项工作有以下主要贡献：• 我们开发了一个单图像FM估计算法，通过将MCP层并入DenseNet-121，并为未来的发展方向开发了COR方案分类.• 与以前的尝试不同[16，26，37，47，52]，所提出的算法在不同的场景和环境中可靠地估计FM。强烈建议看补充视频• 我们证明了该算法的有效性定量在单目标和多目标跟踪。• 我们发布的FM数据集作为一个基准的有趣的研究课题，随后在一个单一的静态图像的行为估计。2. 相关工作2.1. 实例级未来运动估计FM估计可以在实例级或像素级执行。让我们首先回顾一下实例级算法。Mottaghi等人[40]在单个图像中预测对象的FM。它们基于对象的物理移动预先定义了66种场景Chao等人[4]从静态图像预测人体姿势。他们设计了递归神经网络来从初始姿势生成姿势序列。但是，它只适用于有限的体育场景。此外，一些方法预测静止图像中物体的长期轨迹[26，37，47]。使用马尔可夫决策过程，Kitaniet al.[26]基于对象的当前状态和目标状态来预测对象的轨迹。Ma等人[37]通过深度网络提取行人的视觉属性，以预测行人动态。Walker等人[47]利用中级补丁进行未来轨迹预测。然而，由于它们关注场景信息而不是对象信息，因此这些常规技术高度依赖于场景类型和相机角度。相反，我们试图设计一个域自适应FM估计算法，它可以可靠地用于各种应用。2.2. 像素级未来运动估计一些算法[16，34，43，48，49]估计密集运动，即。光流，从一个单一的图像。Pintea等人[43]使用具有回归的结构化随机森林来预测连续运动矢量。Walker等人[48]将最优化的流矢量分成40个簇，然后使用卷积神经网络将每个像素分类到簇之一中使用条件变分自动编码器（VAE），沃克等人。[49]表征未来流的各种分布以预测每个像素处的多个运动方向和幅度。Gao等人[16]开发具有损失网络的编码器-解码器网络，以幻觉未来流并证明幻觉流对于动作识别的功效Li等[34]设计时空条件VAE来预测多个时间步长中的未来流图。利用预测的映射，它们执行全帧合成并实现视频预测。2.3. 顺序回归有序回归是一种用于预测对象的标签（或等级）的学习任务，其中标签集具有线性顺序[21]，例如。整数的集合已经尝试了有序回归[19]，例如，使用支持向量机[6]，高斯过程[5]和感知器学习[8]。Frank和Hall提出了有序二进制分解[15]。他们构建了独立的二进制分类器来判断对象的秩是否大于k。使用决策树，他们结合二进制输出来估计排名。Li和Lin [33]提出了一种从有序回归到二元分类的归约方案一组二进制分类器联合学习，并结合现有的技术，如SVM。这275(a) 方向（b）速度（c）动作图3.FM数据集的统计数据这些实例是从YouTube [1]、CityPersons [54]和CPDB [13]中采样的，然后分成训练集（顶部）和测试集（底部）。约简方案已在各种应用中采用，包括[3，42]中的年龄估计此外，在[11]中考虑了循环序情况下的分解在这项工作中，我们制定FM分类作为一个有序回归问题。3. 单图像未来运动估计我们用方向、速度和动作类来表示实例的FM。然后，我们开发分类器，序数回归的基础上，FM估计。3.1. FM数据集运动信息通常由连续帧之间的位移矢量表示。例如，密集光流估计视频帧之间的像素级对应然而，要从视频中准确可靠地提取像素级的运动信息相反，通过相对简单的注释，我们收集静态图像中的实例级运动，这些运动是从现有数据集[7，13，54]和YouTube[1]中采样的。这种实例级注释有助于构建大型数据集。此外，可以使用深度神经网络可靠地执行所提出的算法不限于特定类型的实例，但我们首先关注行人，原因如下。首先，它很容易访问公共数据集，捕捉街道场景，并注释大量行人。其次，排除异常情况，即使在一张图像中，人类行为也是可以预测的换句话说，一般来说，可以从语义上下文推断出行人的第三，人类往往是最感兴趣的对象。FM数据集注释了11，342个行人实例。在YouTube视频中，我们没有实例的因此，我们运行YOLOv3检测器[44]以获得边界框。对于每个实例，我们通过引用当前帧和九个后续帧来手动标记其方向、速度和动作类我们停止慢速快速人行道人行横道图4.三个速度类和三个动作类。将未来方向转换为图像坐标中的四个基本方向（N、E、S、W）和四个中间方向（NE、SE、SW、NW）中的一个。我们使用八个量化的方向，这在许多应用中是足够的。更精细的量化使得注释变得困难和不可靠。出于类似的原因，我们有三个速度等级：“停止”，“慢”和“快”。动作类可以在应用程序中变化。在这项工作中，为了监控行人图3显示了FM数据集中实例的类分布这些实例来自YouTube [1] ， CityPersons 数据集 [54] 和 CaltechPedestrian Detection Benchmark（CPDB）数据集[13]。我们将整个数据集分为训练集和测试集，比率为0.85到0.95。0.15.我们只使用CPDB数据集进行训练，因为它的对象比YouTube或CityPersons少，而且超过75%的对象只包含在3个视频中。3.2. 未来运动网络我们开发了一个用于FM估计的深度神经网络，它执行方向，速度和动作的三个分类任务该网络处理图像补丁，其中行人位于中心，并产生三个分类结果。它由一个特征提取器和一个分类器组成，如图5所示。我们假设，在图像中，行人要么定位手动或解析的对象检测器。假设一个行人有一个高度为h的边界框。然后，在边界框周围，我们裁剪2h×2h的补丁，将其放入网络中特征提取器然后产生276特征提取器全球背景ConcatSoftmaxFC512FC512致密块1密集座2致密块3DenseNet-121FC512多上下文池（MCP）层慢停Softmax快速侧横SoftmaxJaywalk图5.拟议的FM网络的架构使用了三个密集的DenseNet-121块[22]基于DenseNet-121 的对象和全局特征[22]。为了从DenseNet-121的输出中提取这些特征，我们开发了MCP层，它使用两个感兴趣区域（RoI）池化层：• 边界框是对象特征的RoI，它被合并到空间分辨率7×4。对象特征传达了足的外观信息西北太平洋W公司简介NS东北大学ଵEଶ公司简介ଷ小背景的特里安。• 2h×2h补丁是全局上下文特征的RoI，合并为分辨率7×7。该全局特征在FM估计中也是重要的，因为它提供了关于场景的全部语义信息我们确定的输出大小的ROI池层的经验。每个RoI池化层之后是两个全连接（FC）层。然后，分类器通过采用FC层和softmax层来执行这三个分类任务。具体而言，对象和全局特征是串联的，由两个FC层和三个子分类器处理，图6.循环有序回归的二元分类器其中K是偶数。在这种情况下，不希望应用不考虑损失函数中的循环顺序的K路分类。比如说，如果方向N被误分类为S，则误差比其误分类为NE更大。因此，我们通过扩展文献[33]中的有序二进制分解技术，提出了COR方案.设x是一个实例，yx∈ C是它的类. 对于COR，我们使用二进制分类器，f0，f1，.，f K/2−1。每个二元分类器fn被定义为：.行人的方向、速度和动作。这三个子分类器的设计不同。首先，我们将fn（x）=1如果yx∈{c（n+1）K， . . . ，c（n+K/2）K}0否则（二）使用第3.3节中的COR方案的方向。其次，我们使用线性顺序回归[33]来计算速度，因为速度类别的顺序是换句话说，“停”和“快”比“停”和“慢”更有区别。第三，我们使用softmax层执行动作的3路分类，因为动作类之间没有顺序关系。3.3. 循环有序回归如图6所示，对象的未来方向被分类为八个方向之一：N（c0），NE（c1），E（c2），SE（c3），S（c4），SW（c5），W（c6），NW（c7）。方向-由于N（c0）与NW（c7）和NE（c1）都相邻，因此，作用类具有循环顺序。注意许多物理量都有循环序，例如.一天24小时都是，以及平面上的方向。假设有K循环顺序的方向类C={c0，c1，.， c K−1}（1）其中（n）K表示n除以K后的余数。换句话说，f n把C分成两个大小相同的子集，并决定x的类是否在c（n+1）K之间和dc（n+K/2）K 或不。在图6中，f0将八个方向减半为蓝色和红色侧。输出1，如果方向为NE、E、SE或S，否则为0从（2）可以看出，fn= 1−fn+K/2，（3）fn=fn+K。（四）由于对称性和周期性，所有分类器仅由K/2个分类器确定，f0，f1，.，f K/2−1。注意，在线性有序回归[33]中，线段中的类被分为两部分。因此，对于K路分类，需要K-1个二进制分类器。在相比之下，在拟议的COR中，一个圆被一分为二如[11]中所示。因此，仅需要K/2个二进制分类器FC3N西北地区െ�NEଵWE公司简介公司简介SFC512FC512对象ROIൈ�ROIൈ� ͶFC512循环有序回归FC 64FC24FC64FC2顺序回归FC64FC2FC64FC2277nn在分类器的训练期间，在（2）中为fn分配二元地面真值另一方面，在测试中， fn 产生置信度值（即，softmax概率）介于0和1之间。使用K/2个分类器的这些置信度值，通过下式确定实例x的类ckkK/2表1.根据MCP层和有序回归的变化的分类准确度（%）。方向方向+速度行动对象75.995.788.386.8全球25.845.782.185.5对象+全局76.896.090.186.7提出77.796.690.487.2k*= argmaxk∈Cn=1fk−n（x）（5）例如，假设K= 8，如图6所示。理想情况下，当x的类为c2时Σ4n=1 f2−n（x）=f1（x）+f0（x）+f−1（x）+f−2（x）=f1（x）+f0（x）+1−f3（x）+1−f2（x）= 4Σ4图7.方向分类：绿色标签是地面实况，而红色标签是预测方向.在这些情况下，地面实况和预测方向彼此相邻大于或等于n=1f k−n（x）对所有k。因此，它的类被正确地声明为c2。也可以是证明（5）是最大似然（ML）决策规则[14]，如果每个fk−n（x）表示x具有（2）中定义的四个方向之一的概率3.4. 学习网络MCP层使用两个RoI池化层连接DenseNet-121和FC层。因此，图5中的网络可以接受任意大小的补丁。然而，在这方面，为了有效的训练和推理，我们将补丁的大小归一化为400×400，以便它在中心包含高度为200像素的行人我们将总损失函数定义为L=LDir+LSpe+LAct（6）其中LDir、LSpe和LAct分别是方向、速度和动作分类的损失对于LDir，我们采用二元交叉熵的和[42]。具体地说，3.5. 实验结果表 1 是对 MCP 层的烧蚀研究和有序回归方案。‘Direction,’ ‘Speed,’ and ‘Ac- tion’ are the classificationaccuracies of the FM direction, the 对于前三种配置，使用多类分类而不是顺序回归。“Object”和“Global "表示网络，其中仅对象和全局上下文特征分别用于分类。请注意，最后一种配置，在所有三个分类任务中，它即使在动作分类中，它也提高了性能，因为网络经过训练以提取更有效的特征。请注意，方向分类为Σ3LDir（p，q）=−Σ1 qilogpi（七）比速度和动作分类更具挑战性，准确率达到90%n nn=0i =0其中p ={p i：i = 0，1，n = 0，1，2，3}是来自四个二进制分类器f n的softmax概率向量，q ={q i}是对应的地面实况二进制向量。LSpe的定义类似。 L行为定义为Σ3LAct（p，q）=−qilogpi（8）i=1其中p={pi}是三个动作的softmax概率向量，q={qi}是地面实况二进制向量。我们通过随机梯度下降来训练网络对于20个时期，动量为0.9，批量大小为4前十个epoch的学习率为10−4，后十个epoch的学习率为10−5作为初始参数，我们使用在ImageNet[10]上预训练的DenseNet-121模型[22]278在表1中，“方向+”表示当估计的方向与地面实况方向相同或相邻时被认为是正确的时的精度。例如，对于地面实况方向N，估计的方向NE、N或NW在“方向+”精度中是正确的图7示出了其中地面实况和预测方向相邻的示例。在这些示例中，即使是人类也不能通过仅查看单个图像来容易地将真实方向识别为两个类中的一个。因此，“方向+”考虑到了这种模糊性。所提出的算法产生的如前所述，没有现有的算法，完全匹配所提出的算法。因此，对于COM，我们使用手工特征或CNN特征实现未来方向分类器。在表2中，我们使用HOG [9]和ACF [12]作为Pedes的手工特征。279正确估计错误方向错误速度错误动作图8.FM估计结果。第一行表示正确的估计结果。第二行显示了失败案例，其中顶部标签是基础事实，底部标签是预测类。Trians。我们通过在Faster R-CNN中采用VGG-16来提取 CNN-1 特征 [45] 。对于 CNN-2 特征，我们使用DenseNet- 121 [22]，在ImageNet [10]上训练。对于这些特征，我们使用支持向量机对未来方向进行分类。对于Gao等人，[16]中，我们获得像素级的流矢量，并将它们聚合以获得实例级的运动矢量。所提出的算法明显优于这些比较方法。Gao等人[16]可以预测特定动作场景的像素级流，如图2所示，但无法在FM数据集上提供可靠的流。因此，它的实例级方向估计几乎是随机的。在这里，我们没有在FM数据集上重新训练[16]中的网络。Gao等人[16]需要可靠的光流矢量进行训练，但FM数据集只提供稀疏采样的帧。图8呈现FM估计结果。在顶行中，即使场景拥挤或混乱，也能成功预测FM。下面一行显示了失败案例：方向被错误地预测，因为行人离得很远，并且不清楚他是面对相机还是向相反的方向移动。在假速度的情况下，三个人实际上站着不动，但被宣布为缓慢行走。中间的人更具挑战性。我们可以了解到，看手机的人通常不会走路，但很难说中间的人是站着不动还是走路。在虚假动作的情况下，由于行人被许多人包围，他被谎称在人行道上4. 应用对于建议的FM估计算法的应用，强烈建议查看补充视频和文档。例如，它证明了“人行道”、“人行横道”和“jay walk”的动作分类表2. 分类准确率（%）的未来发展方向。生猪ACFCNN-1CNN-2Gao等人提出[9]第一章[12个][45个][22日][16个]方向43.142.047.131.912.477.7方向+72.272.372.759.838.596.6的行人。此外，该算法可用于单一图像的人群分析。在许多可能的应用中，本节介绍了所提出的算法的两个应用：单目标和多目标跟踪。通过利用4.1. 单对象跟踪通过使用目标对象的FM来减小目标对象的搜索区域，我们可以更有效地跟踪对象。我们采用MDNet [41]作为基线单对象跟踪器，其在几个跟踪基准中表现出竞争性性能[27，28，51]。基线通过从高斯分布中采样来选择正方形窗口内的搜索候选。正方形的边长取决于物体的大小。我们将在[41]中详细说明。我们使用预测FM来缩小搜索区域。当FM速度为“停止”时否则，我们在FM的方向上确定一个扇形区域我们将扇形区域的角度设置为135°，但从目标到搜索候选者的最大距离与基线保持相同图9比较了基线MDNet和拟议的我们在样本颜色128（TC128）数据集[35]和对象跟踪基准（OTB）数据集[51]上评估了MDNet+FM的性能由于我们专注于280一二三四五32.521.532.521.5(a)(b)（c）第（1）款10.82 0.84 0.860.88精密度（PR）10.62 0.64成功率（SR）图9.在（a）MDNet、（b）MDNet+FM和（c）CDT+FM中，用红点表示的采样搜索点的比较的点图10.在TC128和OTB数据集中，PR和SR分数与行人序列的跟踪速度（a）和（b）中的数据是从高斯分布中采样的，而（c）中的数据是从均匀分布中采样的。表3. MDNet [41]和MDNet+FM对TC128和OTB数据集中行人序列的跟踪性能比较。0.50.40.30.20.1CDTCDT+FM39.84040.2 40.4 40.6 40.8跟踪性能（MOTA）（一）0.50.40.30.20.1CDTCDT+FM21231241251261228 29 30 31 32 33跟踪性能（MOTA）(b)图11.在视频帧速率为（a）5 fps和（b）1 fps时，MOTA分数与MOT17数据集上的跟踪速度。行人实例，我们只使用跟踪行人的序列。TC128和OTB分别有23个和22个这样的序列。去除重复的行人序列后，共得到33个行人序列。为了定量测量跟踪性能，我们使用精度（PR）和成功率（SR）[41]。表3比较了MDNet+FM和基线MDNet的性能。“#Samples”是搜索候选项的数量。MDNet和MDNet+FM都使用相同的高斯采样，但MDNet+FM缩小了搜索范围。因此，在表3中的相同设置中，MDNet+FM搜索的候选项比MDNet少得多，从而提高了跟踪速度。然而，MDNet+FM提供了与MDNet相当甚至更好的跟踪性能例如，在设置IV中，MDNet+FM提供比MDNet略高的PR和SR分数，并且速度快175%图10绘制了PR和SR评分与fps的关系。同样，当我们将结果与相似的PR或SR分数进行比较时，MDNet+FM明显快于基线。4.2. 多个物体追踪多对象跟踪（MOT）序列中的对象[39]倾向于在连续帧之间表现出缓慢和平滑的运动为了利用这一特性，Bochinskiet al.[2]提出了一种MOT算法，该算法仅使用目标对象的边界框与搜索候选框之间的交并比（IOU）进行决策。然而，在低帧速率视频中，低于每秒10帧（fps），他们的算法可能会失败，因为可以是帧之间的突然变化为了在低帧率视频中成功进行MOT，我们将所提出的FM算法应用于更复杂的MOT算法CDT [25]，这是一种检测跟踪方法。我们使用的FM减少CDT的搜索区域，目标对象，如图9（c）所示。在CDT中，均匀分布用于对搜索点进行采样，并且搜索点的数量被设置为212、312、412、512或612。对于CDT+FM，我们减少了搜索区域，但增加了采样密度，以具有相同数量的搜索点。我们使用MOT17基准[39]。MOT17中的七个序列中有四个具有摄像机移动，这使得使用FM的搜索范围减小无效。因此，我们通过采用BRISK关键点匹配[32]和仿射变换将背景补偿应用于所有序列。然后，我们评估MOT准确性（MOTA），这是基准测试中最全面的指标之一[39]。我们在补充文件中提供了一个表格，以详细说明CDT+FM与基线CDT。在图11中，我们根据搜索点的数量绘制了MOTA分数与处理速度的关系图在类似的处理速度，CDT+FM提供了一个显着更高的MOTA比CDT。在相同的搜索点数下，CDT+FM产生较慢的处理速度，因为它执行背景运动补偿。然而，通过减少基于FM的搜索区域，它提供了更准确的跟踪结果，产生更高的MOTA分数。5. 其他类型的广告所提出的单图像调频估计算法不仅适用于行人，也适用于其他类型的情况。本节将所提出的算法扩展到MDNetMDNet+FM处理速度（fps）处理速度（fps）处理速度（fps）处理速度（fps）MDNetMDNet+FM设置方法样本数量PRSrFPS我MDNet1280.8450.5891.67MDNet+FM850.8480.5982.75IIMDNet1920.8710.6141.51MDNet+FM1280.8490.5952.45IIIMDNet2560.8830.6161.41MDNet+FM1710.8300.5822.24IVMDNet3200.8750.6181.23MDNet+FM2130.8930.6232.15VMDNet3840.8370.5841.13MDNet+FM2560.8720.6131.98281图12.汽车的FM估计。左边的两个图像显示了正确的结果。右边的两个图像分别是方向分类和动作分类的失败案例，其中绿色标签是地面实况，红色标签是预测类。图13.动物的FM估计。左边两张图片显示了正确的结果。右边的两张图是失败案例，其中绿色标签是地面实况，红色标签是预测类。表4.分类准确率（%）的建议单一图像FM估计汽车和动物的例子。例如方法方向方向+速度行动车基线89.698.597.094.2提出89.998.797.494.5动物基线87.197.174.2-提出87.697.474.9-处理另外两种：汽车和动物这些实例具有与行人不同的特征。因此，尽管我们在图5中使用相同的网络架构，但我们分别为汽车和动物训练参数。此外，我们以不同的方式定义类。对于汽车来说，有8个方向类，与行人一样。在速度的情况下，即使是人类也无法在单个图像中预测汽车的绝对速度，因为汽车具有刚性形状。因此，我们定义了三个速度类为如果摄影机和实例之间的距离正在减小，则速度类别为“接近”。如果相机和实例以相同的速度向相同的方向移动，则类为“keep”。否则，课堂就“遥遥无期”了。最后，我们为汽车定义了四个动作类：“直行”、“停车”、“左转”和“右转”。然后，我们手动将这三个属性分配给每个汽车实例。我们使用KITTI对象数据集[18]，由7，481张训练图像和7，518张测试图像组成。由于只有训练图像具有边界框注释，因此我们使用这些图像。它们总共包含15，894个对象。我们在图5中使用6，526张图像和13，894个对象来训练网络。测试集由955张图像和2,000个对象组成。表4列出了分类精度。请注意，汽车的准确性高于行人的准确性，因为汽车的形状变化较小，并且是刚性的。图12给出了估计结果的示例。在最顶层的图像中，该算法从场景上下文中正确区分最后，我们将该算法扩展到估计动物实例（猫，狗和马）的FM。作为四足动物，尽管它们不属于同一科，但它们具有相似的运动特征。为了构建动物数据集，我们从YouTube上收集了包括猫、狗和马在内的帧[1]。动物和行人一样有八个方向类和三个速度类。我们不对动物进行动作我们收集了5，516张图片，其中包括6，626只动物：5,302只动物用于训练，1,324只用于试验。表4还列出了动物的分类准确度，其中“基线”表示使用多类分类的结果。由于有序回归，所有性能都得到了改善。在速度分类方面，动物比行人更具挑战性，因为“慢”和“快”类之间的差异在动物的静止图像中通常是模糊的。图13显示了正确的分类结果以及失败案例。例如，在第三图像中，由于马异常倾斜以快速转弯，所以方向预测失败。6. 结论提出了一种新的单图像实例级FM估计算法。利用MCP层，该算法提取目标和全局上下文特征，用于忠实的FM估计。该算法执行三个分类任务，以确定未来的方向，速度和行动的一个实例。特别地，我们提出了未来方向有序回归的COR格式。实验结果表明，该算法具有可靠的FM估计性能，可用于单目标和多目标跟踪。此外，所提出的算法可以用于估计的FM的汽车，猫，狗，马，以及行人。确认这项工作得到了韩国政府（MSIT）资助的“跨部门Giga KOREA项目”资助（编号：GK 18 P0200，基于超现实服务技术的4D再现和动态可变形动作模型的开发），由韩国政府（MSIP）资助的韩国国家研究基金会（NRF）资助（No. NRF-2018 R1 A2 B3003896）和NAVER LABS。282引用[1] http://youtube.com/。三、八[2] Erik Bochinski、Volker Eiselein和Thomas Sikora。不使用图像信息的高速检测跟踪。在AVSS，2017年。7[3] 张光宇，陈楚松，洪义平。纵向超平面排序与成本敏感性的年龄估计。CVPR，2011。3[4] Yu-Wei Chao，Jimei Yang，Brian Price，Scott Cohen，and Jia Deng.从静态图像预测人体动态。在CVPR，2017年。2[5] 魏楚和祖宾·格拉马尼。有序回归的高斯过程。 J. 马赫学习. Res. ，6：10192[6] Wei Chu和S.萨提亚·凯尔蒂支持向量有序回归。神经元计算，19（3）：792-815，2007. 2[7] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele. Cityscapes数据集用于语义城市场景理解。在CVPR，2016年。3[8] 科比·克莱默和约拉姆·辛格在线排名通过投影。神经元计算，17（1）：145-175，2005. 2[9] Navneet Dalal和Bill Triggs。用于人体检测的定向梯度的直方图。在CVPR，2005年。五、六[10] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. ImageNet：一个大规模的分层图像数据库。CVPR，2009。五、六[11] DieterDevlaminck ， WillemWaegeman ， BrunoBauwens，Bart Wyns，Patrick Santens和Georges Otte。从循环有序回归到多标签分类。ECML研讨会，2010年。三、四[12] 彼得·多尔，罗恩·阿佩尔，贝隆吉先生，还有彼得·佩罗娜。用于对象检测的快速特征金字塔。 IEEE Trans.Pat-tern Anal.马赫内特尔，36（8）：1532-1545，2014.五、六[13] 彼得·多尔、克里斯蒂亚·沃杰克、伯恩·席勒和彼得·佩罗娜。行人检测：对最新技术水平的评价。 IEEE Trans.模式分析马赫内特尔，34（4）：7433[14] 理查德·ODuda，Peter E.Hart，and David G.鹳鸟模式分类John Wiley Sons，2001年。5[15] Eibe Frank 和 Mark Hall 一个简单的顺序分类方法。ECML，2001年。2[16] Ruohan Gao ， Bo Xiong ， and Kristen Grauman.Im2Flow：用于动作识别的静态图像的运动幻觉。在CVPR，2018年。一、二、六[17] Kirill Gavrilyuk、Amir Ghodrati、Zhenyang Li和CeesG. M.斯诺克从句子中分割出演员和动作视频。在CVPR，2018年。1[18] Andreas Geiger，Philip Lenz，and Raquel Urtasun.我们准备好自动驾驶了吗？KITTI视觉基准套件。CVPR，2012。8[19] 佩德罗·安东尼奥·古特雷斯，马里亚·佩雷斯·奥尔蒂斯，J·阿维尔·S·桑切斯·莫内德罗，弗朗西斯科·弗尔·纳瓦尔罗，以及C·萨·埃尔瓦·马尔特·马丁内斯。有序回归方法：调查与实验研究。IEEE Trans. Knowl.数据Eng. ，28（1）：127- 146，2016. 2283[20] 何凯明、吉奥吉亚·吉奥克萨里、皮奥特·多尔和罗斯·吉西克。面罩R-CNN。InICCV，2017. 1[21] Karel Hrbacek和Thomas Jech。集合论导论。德克尔，1984年。2[22] 高煌，刘庄，劳伦斯·范德马腾，和Kilian Q.温伯格密集连接的卷积网络。在CVPR，2017年。一二四五六[23] Tak-Wai Hui ， Xiaoou Tang ， and Chen Change Loy.Lite- FlowNet：一种用于光流估计的轻量级卷积神经网络。在CVPR，2018年。1[24] 张元东和金昌洙基于反向传播细化方案的交互式图像分割。在CVPR，2019年。1[25] 金汉宇和金昌洙CDT：用于跟踪视频序列中多个目标的协同检测和跟踪。在ECCV，2016年。二六七[26] 克里斯·M作者：Brian D.作者声明：by J.活动预测。ECCV，2012年。一、二[27] MatejKristan ， Jiri Matas ， Ales Leonardis ， MichaelFelsberg ， LukaCzecho vin ， Gust av oFer na'ndez ，Toma'sBuccioj'r，Gust a v Hagéger，etal. 视觉对象跟踪VOT2015挑战结果。ICCVW，2015年。6[28] Matej Kristan，Roman Pflugfelder，Ales Pleenardis，Jiri Matas ， LukaCehovin ， GeorgNebehay， T. 我的天啊，我的天啊. 目视目标跟踪VOT2014次挑战结果。ECCVW，2014年。6[29] 李载汉和金昌洙使用相对深度图的单目深度估计。在CVPR，2019年。1[30] 李俊泰和金昌洙基于成对比较的图像美学评估在ICCV，2019年。1[31] Jun-Tae Lee，Han-Ul Kim，Chul Lee，and Chang-SuKim.语义线检测及其应用。InICCV，2017. 1[32] Stefan Leutenegger，Margarita Chli和Roland Y.西格沃特BRISK：Binary Robust Invariant Scalable Keypoints（二进制鲁棒不变可缩放关键点）。见ICCV，2011年。7[33] 李玲和林轩天。扩展二元分类有序回归NIPS，2007年。二、四[34] Yijun Li，Chen Fang，Jimei Yang，Zhaowen Wang，Xin Lu，and Ming-Hsuan Yang.基于流的静态图像时空视频预测。在ECCV，2018。2[35] 梁鹏鹏、埃里克·布拉什和凌海滨。用于视觉跟踪的编码颜色信息：算法和基准。IEEE传输图像处理。，24（12）：5630- 5644，2015. 6[36] Wen Liu，Weixin Luo，Dongze Lian ，and ShenghuaGao.用于异常检测的未来帧预测在CVPR，2018年。1[37] Wei-Chiu Ma，De-An Huang，Namhoon Lee，and KrisM.喜谷预测行人与虚拟游戏的互动动态在CVPR，2017年。一、二[38] Simon Meister ， Junhwa Hur ， and Stefan Roth.UnFlow：具有双向集中损失的光流的无监督学习。在AAAI，2018。1284[39] Anton Milan ， Laura Leal-Taixe ， Ian Reid ， StefanRoth，and Konrad Schindler. MOT16：多目标跟踪的基准。arXiv，1603.00831，2016年。7[40] Roozbeh Mottaghi，Hessam Bagherinezhad，MohammadRastegari，and Ali Farhadi.牛顿图像理解：在静态图像中展开对象的动态。在CVPR，2016年。一、二[41] Hyeonseob Nam和Bohyung Han。视觉跟踪的多域卷积神经网络在CVPR，2016年。二六七[42] Zhenxing Niu，Mo Zhou，Le Wang，Xinbo Gao，andGang Hua.年龄估计的多输出cnn序回归。在CVPR，2016年。三、五[43] 西尔维

下载后可阅读完整内容，剩余1页未读，立即下载