有序回归：解决分类问题，约束类别关系，转换标签为软概率分布，适应不同网络架构和指标的有效方法

110 浏览量更新于2023-10-19 收藏 1.3MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1有序回归Rau'lD'ıaz，AmitMarriottHP Inc.{raul.diaz.garcia，amit. marriage}@ hp.com摘要有序回归试图解决分类问题，其中类别不是独立的，而是遵循自然顺序。在学习适当的类间序数关系的同时，正确地对每个类进行分类是至关重要的。我们提出了一个简单而有效的方法，约束这些类别之间的关系，无缝地将度量处罚到地面真实标签表示。这种编码允许深度神经网络自动学习类内和类间关系，而无需对网络架构进行任何显式修改。我们的方法将数据标签转换为软概率分布，与常见的分类损失函数（如交叉熵）配对良好。我们通过在四种不同的场景中使用现成的分类和分割网络来证明这种方法是有效的：图像质量分级、年龄估计、水平线回归和单目深度估计。我们demonstrate，我们的通用方法是非常有竞争力的专业方法，并适应各种不同的网络架构和指标。1. 介绍有序分类，通常称为有序回归，是一种机器学习任务，类似于传统的实值度量回归和独立的多类分类问题的混合。目标是从一组离散的标签中预测输入实例的类别它的主要区别是，范畴是以自然或隐含的顺序相关联的。这种任务的常见示例是电影评级（例如，电影可以从1星到5星分级）或客户满意度调查，其中用户被要求用逻辑排序来回答来自一系列答案的某些问题从从更广泛的角度来看，有序回归试图解决分类问题，其中并非所有错误的类别都是同样错误的。回到电影评级的例子，如果一个特定的电影有一个真正的评级4星，3星的错误分类比1星的错误分类更不正确。显然，系统的实际目标是将电影分类为4星。然而，在不产生正确评级的情况下，期望输出尽可能接近地面实况的评级。虽然各种形式的分类（图像和对象分类，分割等）和度量回归一直主导着大多数研究挑战，有序回归当然不是一个新的问题，并且已经研究了好几年[21，14，9，37]。一般来说，有序回归研究可以分为两类：一类是将问题视为传统度量回归的一个版本，其中需要估计离散域的阈值;另一类是将问题作为分类目标，通过在域空间上固定一组阈值并学习每个阈值的分类器。当从回归的角度来处理有序回归时，文献往往侧重于将输入映射到一条实线，并预测有序类别之间的边界以定义最终的输出类。阈值方法的示例（如[7，6]）分别使用SVM或MAP来找到给定边界b和模型权重w的输入x的秩k，或者通过找到线性映射wTx∈[bk−1，bk]或假设潜函数是高斯过程。从分类的角度来看，有序回归通常通过将问题域分解为多个等级或阈值来假设K等级公式因为在-Stance，[14]使用K-1个二元分类器，每个二元分类器都经过训练来分类特定输入x是否有响应y> k，其中k是训练二元分类器的秩使用数据复制方法的替代方案可以在[29，2]中找到。一般来说，序数的地面真值表示由硬向量表示：每个Ground Truth Label为每个阈值分类器生成K-1个二进制独热向量秩预测典型地，每个输入实例的有效性取决于来自这些二元分类器的集合的肯定响应这些类型的方法特别适合用于分类的神经网络架构。47384739我们的贡献。本文提出了一种方法，属于有序回归方法，将问题视为一个分类任务。我们提出了一个软目标编码方案的数据标签，提供了一个非常直观的方式嵌入序数信息到地面真值向量。这种编码非常适合当前最先进的、现成的深度卷积神经网络（CNN），这些网络最初是为分类任务设计的。与其他方法不同，我们表明，这些软表示的序数类别能够优于那些使用硬，一热向量。2. 相关工作有序回归在过去几年中获得了一些动力，这要归功于深度卷积神经网络的不断发展和改进。也许最流行的方法是来自[14]的K秩方法，但是有许多替代方案可以约束有序回归的类间和类内关系。我们在下面的段落中讨论以前的工作。温和的方法。硬标签的替代方案存在于有序回归空间之外。软损失术语对于域和任务转移很有用[41]，以避免数据集偏差。在[45]中定义了精心设计的损失函数，以考虑户外图片的主观场景，通过尝试预测人类注释的相同评级分布。年龄估计是一个特殊的利基软标签已经变得流行。在[39]中，年龄由高斯分布表示这些积分考虑了输入图像属于给定人的真实实足年龄的概率，已经为其提供了多个年龄样本。一般来说，年龄回归可以被视为图像排序问题。形象排名。有序回归在计算机视觉中的一个流行用途是图像排名，其中每个图像必须被分类到一组离散的等距标签中。在[26]中，年龄估计作为一个独立的分类问题，通过训练一个浅层卷积网络来避免过拟合。在[32]中，通过使用具有K-1个二进制分类器的类似CNN来解决相同的问题，每个分类器一种设计用来预测特定图像输入x包含比给定年龄阈值y > k更老的面部。为了加强年龄等级之间的有序性，他们在分类损失函数中添加了一个权重惩罚wy，k，相当于预测类别y的输入x作为等级K.在[30]中可以看到一种不同的图像排名方法，他开发了一种深度神经网络架构，该架构使用具有共享权重的VGG-16网络[38]的多个实例该网络由不同等级或类别的输入元组提供，并在Softmax逻辑回归损失这种方法在大量离散有序类别的图像排名挑战中显示出出色的结果：年龄估计、照片质量、照片的历史年代和图像相关性。单目深度估计。估计在计算机视觉中，来自RGB图像的逐像素深度是一个特别热门的话题，因为它有助于与机器人和自动驾驶相关的许多任务，例如场景理解、3D重建和3D对象分析。2D图像的深度是研究人员广泛接触的一项基本任务[34，1，24，35]。自CNN引入以来，结果得到了显着改善[49，43，11，47，12，17]。最近，有序回归被引入到单目深度估计挑战中，取得了很好的效果。DORN网络[15]在具有挑战性的数据集（如KITTI [16]或Make3D [34]）中的表现优于最先进的结果。DORN提供了一种新的深度离散化策略和多尺度网络结构。他们的方法也是基于K秩框架的，在该框架中，他们学习多个二进制分类器来辨别图像中的每个像素是更接近还是更远离每个离散化的深度阈值。地平线估计。许多其他的挑战可以通过有序回归来解决。一般来说，任何涉及度量回归的任务都可以被解释为有序回归任务，只要参数空间被适当地离散化。例如，地平线估计在单目和多视点的场景理解任务中显示出许多好处[22，10]。即使找到地平线参数的解决方案通常不被公式化为有序回归问题，但它们的方法肯定类似于它们。在[48]中，使用传统的分类方案来找到地平线参数的离散值，并获得候选项来估计图像的消失点此外，[46]用子窗口聚合方法改进在[25]中，通过使用与分类和回归层联合组合的两个线池化层，将地平线提取为潜在的语义线。3. 方法最流行的序数回归方法使用多个二元分类器的集合来确定每个输入的序数类别（K秩方法）。在本节中，我们提出了一种简单而直观的方法，将有序回归视为传统的分类问题。换句话说，我们希望深度神经网络的最后一层具有与我们打算分类的类别或等级一样多的我们不会在任何网络架构中进行任何显式修改。我们的贡献完全取决于我们如何向网络呈现4740尼洛普岛pi我=−我我3.1. 将回归编码为分类分类通常通过在独热编码向量中描述每个类别来执行，其中所有值都被归零，除了指示真类的值为1的值。训练使用分类损失函数（如交叉熵）进行。在分类场景中，神经网络输出层的激活通常是Softmax，因此网络输出和真实标签（独热向量）都是我们打算通过损失函数匹配的概率分布直觉上，网络将学习如何尽可能多地模仿这些独热编码向量，使得其输出层的argmax值对应于输入的真实类。在独立类场景中，这些类的设置顺序无关紧要。这在one-hot编码向量中表示，在这里我们将任何错误的类与真实类远程相似的机会归零。换句话说，我们将所有错误的类设置为与真实类无限远。然而，这不是有序回归的情况，其中存在某些类别，这些类别比其他类别更正确。K秩方法通过将每个类硬编码成多个二进制1-hot向量并通过聚合每个二进制分类器的响应来解决这个问题。这种方法迫使每个数据标签必须以一种艰难的方式分配给一个有序的类别或等级，从而在标签属于连续域的情况下丢失有价值的信息然后，每个分类器被训练为专门学习针对每个指定的等级阈值的二进制响应，通常将其优化相对于集成中的我们建议，不同级别的排序可以最接近（或匹配）的真正的序数类将具有最高的值，就像在分类问题中一样（但不一定是1）。邻近类别的值会越来越小，因为它们远离真正的类（但不一定是0）。因此，这些软标签自然地封装给定预定义的类间惩罚距离Φ的输入实例的类秩。与标准回归问题一样，惩罚函数的选择取决于需要解决的问题和方法的期望性能。我们可以使用任何度量损失作为惩罚函数φ，例如绝对误差或平方误差，但许多其他度量可以自然地适应这些软向量。将地面真值标签编码为概率分布也与使用Softmax输出的常见分类损失函数（如交叉熵或Kullback-Leibler散度）很好地配对，因为这些损失函数的目标是最小化网络的Softmax输出和地面真值向量表示之间的区域3.2. 反向传播算法以这种形式编码序数信息的一个很大的优点是分类损失函数的梯度也变得相当容易计算。让我们考虑使用损失函数，如交叉熵，梯度为L=−yi。这里，yi是如等式1中的秩ri的软标签向量的元素，并且pi是网络。对应于相同秩的logit输出节点的工作给定真实秩rt的输入，令C>0为常数，使得Softmax分母匹配SORD分母：可以很容易地表达，而不需要这些多个二进制分类器。最后，分类网络总是试图估计输入属于ΣKCk=1eok= ΣKk=1eok+logC= ΣKk=1e−φ（rt，rk）（2）某个阶级。对于自然排序的类，我们知道这种可能性可以用类间距离来表示因此，我们引入一种新的公式来描述猫-自然地封装类之间的显式顺序特别地，令Y ={r1，r2，.，rK}是我们的分类问题的K序数类别（或等级）设o′=oi+logC是这组有偏的logits。Softmax的这种偏移不变性特性允许两个消除器的消除，从而将损失函数相对于网络输出的梯度简化为：−φ（rt，ri）莱姆我们计算一个编码向量作为我们的地面真值标签y，用于秩rt的特定实例，如下所示：e奥普河′=−e−φ（rt，ri） −oi（三）e−φ（rt，ri）所有其他层中的反向传播由stan执行标准程序。直觉上，SORD训练网络，yi=Kk=1i∈Y（1）e−φ（rt，rk）在更接近真实类的节点中产生更高的值，而在更远的类中产生更小的值其中φ（rt，ri）是我们选择的度量损失函数，它惩罚rt的真实度量值与秩ri∈ Y的距离。我们将此公式命名为 Soft Ordi- nal vectors （或 SORD ），它类似于Softmax图层其中度量惩罚被编码在软归一化概率分布中。在这种形式中，作为分类损失（例如，交叉熵）将惩罚每个输出logit值oi，如果它不考虑相对于真实秩rt和偏移logC的类间距离φ，使得损失在以下情况下达到其最小值：oi+logC=−φ（rt，ri）i∈Y（4）47413.3. SORD属性我们的软序数标签有许多优势，比其他现有的方法。首先，它们的公式很容易复制。它最简单的表达式可以用两行代码编写：1）对于所有的ri，计算φ（rt，ri） ∈ Y;2）通过简单地计算Softmax来生成软标签y对于所有−φ（rt，ri）。其次，我们可以使用众所周知的分类架构进行有序回归而不显式地修改单个层：与需要两倍多的参数来定义最后一层中的所有二进制秩分类器的K秩方法不同，我们保持与问题中定义的秩相同的输出神经元数量。第三，我们可以使用输出的argmax把层作为我们的预测一个时间推断，或者使用一个简单的Setup. 我们的设置包括一台配备 Intel i7 处理器和NVIDIA GTX 1080Ti GPU的计算机。我们通过使用高级深度学习平台Keras [5]来实现我们的实验我们使用预先训练的网络，最后一层是用随机权重设置的，学习率是所有其他层的10倍”[30]后。我们将学习率降低了×0。1当错误稳定时。我们的优化选择是随机梯度下降（SGD），动量为0。9 .第九条。不失一般性，我们采用Kullback-Leibler散度作为我们的分类损失：通过减去SORD向量熵，我们的损失值将导致0。0，以防网络输出和我们的软序数标签之间存在完美匹配。期望值公式Kk=1 共和党4.1. 图像排名最后，SORD能够轻松地封装来自连续域例如，假设输入实例具有真实深度值t=2。3m∈/Y的单目深度估计问题。我们通常计算φ，而不是将此输入硬分配给最接近的秩如果存在两个连续的秩ri=2m和ri+1=3m，则SORD向量y将平滑地使其自身朝向ri平衡，但不像作为标签r′= 2的输入。1m和SORD vec-形象美学。Aesthetics数据集由15，687个Flickr图像URL组成，其中14，767个可供下载。图像属于四种不同的名义类别：动物、城市、人和自然。图片由至少5个不同的评分员在5个美学类别中进行注释（见图1），以有序的方式评估摄影质量：1）“不可接受”的图片与前-质量不低、失焦、曝光不足或严重托尔河因此，定义域中的每一个可能的实值都将生成稍微不同的软标签，该软标签将根据它们的连续距离度量似然性而更强或更弱地倾向4. 实验结果为了评估我们的有序回归方法的好处我们在四个不同的数据集中对SORD标签进行基准测试。首先，使用Image Aesthetics数据集[36]和Adience数据集[26]分别在图像质量和年龄估计的均匀分布类场景中评估我们的方法。其次，我们针对最近更新的知名KITTI数据集[42]测试了我们的方法。在这里，我们使用SORD来预测RGB图像的深度，遵循[15]的增量SID离散化。最后，我们测试了一个多元回归场景，在该场景中，我们估计了Wild数据集中地平线的地平线参数[46]。2）“有缺陷的”低质量图像（轻微模糊，过度/曝光不足，不正确的框架），并且没有艺术价值; 3）没有技术缺陷的“普通”图像（框架良好，焦点对准），但没有艺术价值; 4）“专业”图像（完美的取景，焦点和闪电），或具有一定的艺术价值;和5）“特殊的”，非常吸引人的图像，显示出杰出的质量（摄影和/或编辑技术）和高艺术价值。每个图像的地面真值标签被设置为其所有分级中的中值在[30]之后，我们使用5个折叠，其中图像在每个标称类别中随机分割75%，5%和20%，分别用于训练，验证和测试。年龄估计。Adience数据集[26]旨在进行性别和年龄分类。它包含来自Flickr的2，284个主题的约26K张人脸图像，分为5个主题专用折叠以进行交叉验证。年龄分为8组：0-2、4-6、8-13、15-20、25-32、38-43、48-53和超过60岁假设这些组是等间距的类别（即，图像标记为1至8）。(a)（b）有缺陷的（c）普通的（d）专业的（e）特殊的图1：图像美学可视化。数据集中每个序数类别的示例。4742准确度（%）-越高越好MAE -越低越好红色-SVM [29]CNNm[30个]牛et[32]美国有线电视新闻网-[30]Sord红色-SVM [29]CNNm[30个]牛et[32]美国有线电视新闻网-[30]Sord性质动物都市人70.7261.0565.4461.1670.9768.0268.1971.6369.8169.1066.4970.4471.8669.3269.0969.9473.5970.2973.2570.590.3090.4100.3560.3150.3050.3420.3740.4120.3130.3310.3490.3120.2940.3220.3250.3210.2710.3080.2760.309整体64.5969.4568.9670.0572.030.3300.3760.3260.3160.290表1：图像美学数据集的定量结果。报告了每个标称类别的准确度和平均误差。我们使用Imagenet [33]预训练的VGG-16实现[38]。Aesthetics数据集的图像多样性与这些预先训练的权重很好地匹配，直到顶部完全连接的层，所以我们只随机初始化最后一个输出层。然而，Adience数据集仅包含面部图像，其中所有顶部完全连接层的随机初始化允许更好地学习区分面部年龄特征。这导致ImageAesthetics数据集的学习率选择更保守（10−4），而Adience数据集的学习率设置更大（10−3）。我们使用32的小批量，最多训练50个epoch。由于这些数据集通常在平均绝对误差和分类准确度，我们选择我们的度量损失简单地为φ（rt，ri）= |rt− ri|如图2所示。训练图像被调整为256×256像素，并在输入网络时随机裁剪为224×224，并随机水平分割以增强数据我们使用argmax在中心裁剪上预测标签。0.80.70.60.50.40.30.20.10.0表2：Adience数据集上的结果。两个数据集均根据[30]中定义的基线进行评价。表1和表2显示了SORD如何在平均绝对误差和分类准确性方面实现最先进的结果，优于使用相同VGG-16架构的当前现有方法，特别是严重约束的CNN-POR。总体而言，我们的软序数标签在分类准确性方面将基线提高了约2%，并将MAE降低了约0。02个单位。同样，我们的方法将Adience数据集的基线精度提高了2%以上，并将平均误差显著降低了0.05个单位。4.2. 单目深度估计遵循使用SORD将香草分类网络转换为有序回归的并行性，我们使用现成的语义分割网络来预测RGB图像的离散深度。我们使用来自KITTI的更新的单目深度估计挑战[42]。KITTI是一个户外场景的数据集，来自安装在驾驶汽车上的这组照片包括尺寸约375×1241。有42,949个立体声训练对和3,426个验证对。官方测试集由500张图片组成，这些图片被裁剪为352×1216的大小。测试集是封闭的，只能测试估计的深度KITTI的评估服务器数据集提供了一个1 2 3 4 5审美评价图2：用于Image Aesthetics数据集的SORD标签。我们定义φ（rt，ri）= |rt − ri|作为我们的度量惩罚。从验证图像中手动选择1，000个图像的裁剪子集，以进行本地基准测试和超参数调整。注释地面实况地图的最大深度为80米。我们使用DeepLabv3+ [3]语义分割网络，该网络在Pascal VOC挑战中显示出出色的最先进的结果[13]。Xception [4]被用作特征提取的骨干网络。为了公平地衡量SORD对DeepLabv3+的最终性能的贡献，我们还测试了[31]中的全卷积网络（FCN）。在这种情况下，我们使用Resnet50 [19]作为我们的骨干网络。我们在两种架构中使用Pascal VOC的预训练权重我们通过随机选择大小为375×513的作物来训练我们的模型，并采用最小增强策略。首先，我们在每个训练时期从立体对中随机选择左侧或右侧图像。其次，我们随机水平翻转图像。我们观察到，像规模和颜色[12]这样的增强并没有为我们的实验提供任何好处，而是使验证重新，不可接受缺陷普通专业特殊方法准确度（%）Mae[26]第二十六话50.7 ±5.1-CNNm [30]54.0 ±6.30.61 ±0.08Niu等人[32]56.7 ±6.00.54 ±0.08美国有线电视新闻网-POR[30]57.4 ±5.80.55 ±0.084743不我rt，ri越高越好低越好网络φδ<1。25δ<1。252δ<1。253absErrorRelsqErrorRelRMSERMSE日志SILogFCN平方SISL92.7592.1993.1498.5298.6598.7899.4699.6299.628.389.127.982.252.041.733.453.413.310.1320.1310.12412.5012.0011.73DeepLabv3+SQUDSQSISL95.3595.5495.0895.1098.9699.0499.1199.1799.5999.6399.7199.747.296.937.097.071.431.421.311.313.102.982.952.920.1140.1100.1090.10710.6810.3210.209.99SQCS+EVSLCS95.4195.7799.0199.2199.6999.757.076.991.591.272.852.860.1080.10410.129.73表3：KITTI数据集的定量结果。使用SID离散化、argmax预测和Pascal VOC的预训练权重从官方验证子集中获得的值，但均匀离散化（UD）、Cityscapes（CS）的预训练权重和预期值预测（EV）除外。平方对数差（SL）和SILog（SI）获得比平方差（SQ）更好的结果总的来说，前者表现稍好。Delta阈值、相对误差和SILog指标乘以100以提高可读性。结果更糟。我们将Nesterov动量设为0。9，沿边一个小批量大小的4个图像。我们训练了30个epoch，大约相当于30万次迭代。我们只计算那些图像像素的损失与相关的地面真值。在测试时，我们对裁剪后的图像进行零填充，以从训练集恢复原始的高度和宽度。在[15]之后，我们采用他们的SID策略，沿着水平轴提取等距作物，并对两种或多种作物重叠的区域进行平均以推断深度值。我们探索不同的类间距离作为我们的φ度量损失。我们首先使用两个像素级深度测量。给定具有真实深度rt和来自SID的离散深度秩值ri的像素p，我们将平方差和平方对数差定义为：0.80.60.40.20.00.020.010.001.01.52.43.75.88.9十三点九二十一点五三十三点三51.6八十深度（m）3米10米50米1.01.52.43.75.88.913.921.533.351.6八十深度（m）φ（rt，ri）=<$rt−ri<$2（5）φ（rt，ri）=logrt−logri<$2（6）受[12]的启发，我们还为尺度不变对数误差构建了一个像素版本：图3：SID离散化下的SORD标签。我们使用K= 120的间隔。上：等式5。下：等式6。在将结果提交给KITTI测试服务器之前，我们使用1,000张裁剪图像的官方验证子集对我们的方法进行基准测试和微调。我们使用与[12]中相同的评估指标表3显示了我们的多重实验。我们观察到对数差的平方φ（rt，ri）=d2-drt，ri（dnrt，riΣ+dp′）（7）p′ p获得了比其他度量更好的总体结果，改善了逐像素SILog度量和平方差。正如预期的那样，SID比均匀离散化的深度空间表现得更好FCN取得了良好的效果，其中dr，r=logri−logrt，且dp′=logr′−logr′SILog为11.73，而DeepLabv3+减少了此错误TIIT计算图像中任何其他像素p′的地面真值r′和当前深度预测r′的对数差直观地，等式7计算仅像素p的预测中的变化对图像方面的SILog误差有多大贡献因此，该度量在与当前平均深度误差相反的方向上惩罚逐像素深度预测，并将具有类似深度误差的预测记入贷方。到9.99最后一组实验是使用Cityscapes数据集[8]的预训练权重进行的，这些权重特定于自动驾驶领域。这允许SILog误差减少到9.73，相对于等式6。表4显示，后一种设置具有竞争力，在官方测试集中的已发布方法中排名第二，仅优于DORN。图3显示了所使用的SORD向量的示例。估计深度见图4。3米10米50米4744图像地面实况DeepLabv3+（SQ）DeepLabv3+（SL）FCN（SI）图4：KITTI数据集上的定性结果。不同度量如何生成深度图的示例。相比平方对数度量（SL），平方差（SQ）能够检索更精细的细节（树木，栏杆等），但产生稍微更差的结果。正如预期的那样，与FCN相比，DeepLabv3+预测深度更好。地面实况已被插值用于可视化。95.2595.0094.7594.503.153.103.05表4：KITTI基准服务器上的定量结果。SORD在官方在线排名中排名第二，优于专业的深度估计方法。间隔数。离散化输出域有助于更精确地预测深度值那里1.71.61.580 100 120 140 160间隔80 100 120 140 160间隔11.010.810.680 100 120 140 160间隔80 100 120 140 160间隔不是要设置的间隔的幻数，并且该数字通常取决于要解决的任务及其域。如[15]所述，间隔太少会导致量化误差，而间隔太多则会失去离散化的好处。我们探讨了敏感性SORD的间隔的数量，通过评估SID在一个广泛的范围内（80至160）。对于该消融研究，我们使用等式5 中的φ。图5 显示了我们的软标签如何在K=120SID间隔附近达到最佳性能。重要的是要注意，SORD在超过最佳间隔数时趋于平稳，并且其性能不会像我们使用比最佳间隔数少的间隔时那样快速衰减。这表明我们的软序数标签也很好地适应了SID的敏感性，即使在比DORN更高的间隔数下也是如此[15]。图5：不同SID间隔下的SORD性能。我们观察到，我们的软序数标签对各种各样的区间都是鲁棒的，并且在K=120时获得了最佳结果。熵我们观察到我们的软标签的熵对其他超参数有影响。例如，当在等式5中使用10−3的学习率时，φ表现更好，当使用等式6和10−1时，φ表现更好。7 .第一次会议。SORD的熵越大，其磁越小因此，需要更大的学习率，以避免在训练的早期阶段落入局部最小值。在推理时，我们观察到，当SORD考虑到concept时，argmax的性能优于三角洲1.25Squa RelRMSESILog方法SILog sqErrorRel absErrorRel iRMSE[15]第十五话11.772.238.7812.98Sord12.392.4910.1013.48VGG16-UNet [18]13.412.8610.6015.06DABC [27]14.494.0812.7215.53APMoE [23]14.743.8811.7415.634745每个等级的平均值：当计算期望值时，我们的DeepLabv3+测试使用等式6获得了非常差的结果，SILog为15.06。然而，表3示出了当使用等式5的较小熵向量时期望值如何改善结果。4.3. 时域估计水平线是场景理解任务的一个重要特征，其中需要待估算：角θ∈[−π，π]相对于2 2水平轴，和有符号偏移ρ∈[−inf，inf]，定义了地平线和IM的最近距离老年中心。这说明了SORD如何在多元有序回归情况下执行的一个很好的例子：通过将非常不同的域的两个参数带入相同的离散概率分布空间，这次我们的目标是最小化两个网络输出和两个SORD向量的联合分布的表面之间的体积。为此，我们使用Wild数据集中的地平线[46HLW由来自1DSfM、地标和YFCC 100M数据集[44，28，20]的高质量运动结构模型的精选图像组成从SfM数据中提取水平参数并投影到每个图像平面中。HLW包含约100K图像，分为96，617，525和2，018个图像，分别用于训练，验证和测试。我们使用从Im-agenet预训练的Resnet 50 [19]网络。我们将最后一个全连接输出层替换为两个不相交的全连接层，每个层专用于预测两个参数θ（以度为单位）和ρ（以像素为单位）中的每一个等级由线性插值从训练数据中每个参数的累积分布中获得N=100个bin，遵循[46]。在训练时，我们调整每个图像的大小，使其在较短的维度上具有256个像素，并随机提取224×224个作物，随机水平翻转我们使用的学习速率10−3，小批量为32。我们最多训练50个epoch。在推理时，我们调整测试图像的大小，使其在较短的维度上有224个像素，并提取一个中心裁剪来估计地平线参数与原始图像的大小。我们使用每个参数的平方差误差作为类间φθ（θt，θi）=min（θt−θi<$2，（八）（θt−θi−π）mod 2πφρ（ρt，ρi）=<$ρt−ρi<$2（9）我们将我们的多变量SORD方法与[46]的HLW基线方法以及[25]的最新我们在推理时测试argmax和期望值作为预测表5使用曲线下面积对结果进行基准测试图6：地平线估计的定性示例。地面实况线用绿色虚线表示，而我们的估计用黄色表示。[第46话]SLNet [25]SordSORDEVAUC（%）71.1682.3388.7789.98表5：HLW数据集的定量结果。我们的多变量SORD方法优于基线超过7%。[40]第40话SORD优于HLW原始基线使用相同的参数插值超过18%，证明我们的软序数标签能够执行硬标签分配。我们使用argmax预测将SLNet结果提高了6%以上，使用期望值（EV）提高了7%以上图6显示了使用我们的方法估计的地平线的例子5. 结论预测具有自然或逻辑顺序的类是一项具有挑战性的任务。在本文中，我们已经证明了具有已知类间距离的类别可以通过K类向量联合学习，该向量将这些度量惩罚编码为`laSoftma x。SORD在三个任务（图像质量排序、年龄估计和水平线回归）中获得了最先进的结果，并且在单目深度估计中获得了非常有竞争力的结果我们证明了我们的方法在离散和连续域中都是非常适应的，在不同的分类和分段网络中以及在大量的距离度量和参数离散化中显示出其鲁棒性。我们的软序数标签表示不仅为回归和序数回归问题引入了一种新的方法，而且可能甚至用于一般的分类问题，其中标签可能不被假设为相等（即，无限地）不同。它在将有序信息无缝整合到分类网络中的简单性使SORD成为一种通用方法，可应用于计算机视觉的许多子学科，这些子学科通常不将有序回归视为可能的解决方案。4746引用[1] 穆罕默德·哈里斯·拜格和洛伦佐·托雷萨尼。耦合深度学习。IEEEWinter Conference on Applications of ComputerVision（WACV），第1-10页。IEEE，2016. 2[2] Jaime S Cardoso和Joaquim F Costa。学习对有序数据进行分类：数据复制方法。Journal of Machine LearningResearch，8（Jul）：1393-1429，2007。1[3] Liang-Chieh Chen，Yukun Zhu，George Papandreou，Florian Schroff，and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。在欧洲计算机视觉会议（ECCV）的会议记录中，第801-818页，2018年。5[4] 弗朗索瓦·肖莱。Xception：使用深度可分离卷积的深度学习在Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition，第1251-1258页5[5] Francois Chollet et al.K 时代 https://keras.io ，2015年。4[6] 魏楚和祖宾·格拉马尼。有序回归的高斯过程。Journalof Machine Learning Research，6（Jul）：1019-1041，2005。1[7] Wei Chu和S Sathiya Keerthi.支持向量有序回归。神经计算，19（3）：792-815，2007。1[8] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在IEEE计算机视觉和模式识别会议（CVPR）中，2016年6月。6[9] 科比·克莱默和约拉姆·辛格用排名来恶作剧。神经信息处理系统的进展，第641-647页，2002年1[10] R au'lD'ıaz，SamHallman和CharlessCFowl k es。利用多视角背景减除法侦测动态目标在2013年IEEE计算机视觉国际会议论文集，第273-280页。2[11] David Eigen和Rob Fergus。使用通用多尺度卷积架构预测深度、表面法线和语义标签。在Proceedings of theIEEE International Conference on Computer Vision ，第26502[12] David Eigen、Christian Puhrsch和Rob Fergus。使用多尺度深度网络从单个图像进行深度神经信息处理系统的进展，第2366-2374页，2014年二、五、六[13] Mark Everingham ， Luc Van Gool ， Christopher KIWilliams ， John Winn ， and Andrew Zisserman.PascalVisual Object Classes （ VOC ） International Journal ofComputer Vision，88（2）：303-338，2010。5[14] Eibe Frank和Mark Hall一个简单的顺序分类方法。在欧洲机器学习会议上，第145-156页，2001年。一、二[15] Huan Fu ， Mingming Gong ， Chaohui Wang ， KayhanBat- manghelich，and Dacheng Tao.用于单目深度估计的深度有序回归在IEEE计算机视觉和模式识别会议集，第2002-2011页，2018。二四六七[16] Andreas Geiger ， Philip Lenz ， Christoph Stiller ， andRaquel Urtasun.视觉与机器人技术的结合：KITTI数据集。国际机器人研究杂志，32（11）：1231- 1237，2013。2[17] Cle' mentGodard，OisinMacAodha，andGabri elJBros-tow.具有左右一致性的无监督单目深度估计。在IEEE计算机视觉和模式识别会议论文集，第270-279页2[18] Xiaoyang Guo，Hongsheng Li，Shuai Yi，Jimmy Ren，and Xiaogang Wang.通过提取跨域立体网络学习单眼深度。在欧洲计算机视觉会议（ECCV）的会议记录中，第484- 500页，2018年。7[19] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE Conference on Computer Vision and PatternRecognition，第770-778页，2016中。五、八[20] Jared Heinly，Johannes L Schonberger，Enrique Dunn，and Jan-Michael Frahm. 6天内重建世界（由雅虎1亿张图片数据集捕获）。在IEEE计算机视觉和模式识别会议论文集，第3287-3295页8[21] Ralf Herbrich Thore Graepel和Klaus Obermayer序回归的支持向量学习。国际人工神经网络会议（ICANN），1999年。1[22] Derek Hoiem、Alexei A Efros和Martial Hebert。把物体放在透视图中。 International Journal of ComputerVision，80（1）：3-15，2008. 2[23] 舒空和查尔斯·福克斯。用于场景解析的像素级注意力2019年IEEE计算机视觉应用冬季会议（WACV），第1024IEEE，2019。7[24] Lubor Ladicky，Jianbo Shi，and Marc Pollefeys.把事情扯远

下载后可阅读完整内容，剩余1页未读，立即下载