基于Plackett-Luce模型的深度预测排序方法及实证评估

181 浏览量更新于2024-01-22 收藏 684KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

14595基于Plackett-Luce模型Julian Lienen1，*Eyke Hüllermeier2Ralph Ewerth3，4Nils Nommensen3，41帕德博恩大学2慕尼黑大学（LMU）3L3S研究中心，莱布尼茨大学汉诺威4TIB汉诺威摘要在许多实际应用中，物体在图像中的相对深度对于场景理解是至关重要最近的方法主要通过将问题视为回归任务来解决单目图像中的深度预测问题。然而，由于首先对顺序关系感兴趣，排名方法表明自己是回归的自然替代方案，事实上，利用成对比较作为训练信息（“对象A比B更接近相机”）的排名方法在这个问题上表现出了有希望的性能。在本文中，我们阐述了使用所谓的列表排序作为一个gener- alization的成对的方法。我们的方法基于Plackett-Luce（PL）模型，这是一种排名概率分布，我们将其与最先进的神经网络架构和简单的采样策略相结合，以降低训练复杂性。此外，利用PL作为随机效用模型的表示，所提出的预测器提供了一种自然的方式来从训练时提供的仅排名数据中恢复（平移不变）度量深度信息。在“零射击”设置的几个基准数据集的实证评估1. 介绍当旨在理解场景的几何形状时，估计单目图像中的深度构成了具有实际重要性的用于自动驾驶系统或增强现实应用。由于其不适定性质，目前处理此问题的方法通常包含经过大量训练的复杂* 通讯作者：julian. lienen@upb.de.使用机器学习的方法。大多数现有方法将深度估计（无论是每像素还是每对象）作为回归问题来处理，即，作为学习模型以预测（伪）度量图的问题（例如，[1、9、17、18]）。然而，一方面，度量深度的准确预测实际上取决于固有的相机参数，这通常是不可用的。另一方面，不是预测绝对深度，而是预测像素或更高级别概念（例如对象）的相对深度，即，从离相机最近到离相机最远对它们进行排序。然后，人们可能会认为回归正在解决一个不必要的困难任务，而是主张将深度估计的形式化作为一个排名任务[12]。所谓的由于不一定需要绝对深度测量，因此排名具有额外的优点，即它可能允许从较弱的训练信息中学习。这包括不是度量但可以被视为伪度量数据的深度注释，例如，从立体图像或视频[6，14，20]或人类注释数据[5，7]构建的视差图。在不需要深度传感器产生的度量RGB-D数据的情况下，由于更便宜的数据采集，训练数据集的多样性可以大幅增加[33]。现有的排序方法基本上是基于“对象A比B更接近于相机”的形式的成对比较从深度图中采样这种成对关系作为训练信息，并通过最小化成对排序损失来诱导预测模型。虽然这些方法已被证明是有效的，但可以构建的可能对的二次方数量使它们相当低效，并且需要复杂的采样策略来消除信息量较少的对[34]。此外，将线性顺序分解为成对比较必然会带来一定的信息损失在同等条件下-14596因此，隐含在线性序中的关于序关系传递性的信息将丢失。为了避免这些缺点，所谓的[32] 已经被提出作为成对方法的替代。在列表方法中，任意长度的高阶排序可以被认为是训练信息。在本文中，我们详细介绍了使用列表排序的深度估计图像。更具体地说，我们提出了一种基于著名的Plackett-Luce（PL）模型[22，24]的列表排序方法，该方法允许从伪度量数据中学习概率分布。此外，利用PL作为随机效用模型的表示[27]，我们提出了一种自然的方式来重新覆盖底层度量深度信息的保留不变近似与此同时，我们提出了一个最先进的神经网络架构作为骨干，以及一个简单的采样策略，从原始伪深度数据中构建在零次评估中，我们比较了未考虑用于训练的数据上的模型，我们研究了我们模型的跨数据集性能，并将其与最先进的方法进行了比较。因此，我们证明了列表排序是一种有效的基于秩的误差最小化方法，我们的模型构成了一个合适的选择，在看不见的场景中的深度顺序的预测，以及提供有前途的结果，在恢复度量深度。2. 相关工作在学习排名时，目标是从训练数据中以单个项目的排名（排列）的形式推断排名模型。根据方法的粗略分类，可以区分逐点、成对和列表方法[21]。虽然单个项目被视为逐点学习排名方法中的训练示例，但项目之间的关系通常被用作其他类别中的训练示例，无论是二阶关系在逐点学习排名的情况下，示例通常由确定其个体有用性的分数来注释，例如，可以从中导出回归模型。对于成对方法，其中示例通常作为两个项目之间的单个关系给出，现有方法的范围从基于SVM的分类器[15]到提升方法[11]和排名网络[2]。类似地，已经提出了几种列表最著名的代表之一是ListMLE[32]，这是一种最大似然估计方法，用于推断Plackett-排名上的卢斯概率分布已经提出了几种方法来解决使用相对深度信息进行训练来估计图像中的深度的问题。在第一种方法中，Zoran等人。[35]对图像中的单个点对进行分类，然后将其组合成一个全局解，以获得所有图像像素上的完整密集映射。基于类似的动机，Chen等人[5]通过使用成对排序损失来训练深度神经网络架构，以端到端的方式直接预测密集映射。这种方法也在随后的工作中被采用，并在各个方向上得到改进，例如通过使用不同的模型架构[33]，额外的数据[6]或改进的采样策略[34] 。 Fur-11 ， Ewerth 等人 [10] 提出了一种使用RankBoost模型估计相对深度的方法。替代方法还利用顺序深度信息[20]，直接或预训练回归模型[4]。学习适用于任意场景的模型，例如，在室内和室外情况下，训练数据的多样性是至关重要的。由深度传感器产生的常用度量数据通常提供有限的多样性，例如，[26]第二代的《明史》，《明史》。由于传感器的最大深度容量限制了可识别的深度，因此它们无法捕获“野外”场景。这就是为什么Chen等人。[5]提出了一个带有成对点样本的人类注释数据集，其中捕获了“更接近相机”的关系。然而，由于它仅提供两个点的地面实况信息，在每个图像中，并且人工注释过程是相当昂贵的，已经提出了旨在自动提取深度信息的其他策略例如，立体图像[33] 或者视频中的图像序列[6]已经被简化为从元素的运动预测结构视差图这些方法的组合也被考虑过[31]。由于它们中没有一个提供每像素的度量信息，因此所产生的信息必须被认为是伪深度，如前所述，伪深度对于深度关系仍然是足够的。虽然尺度不变回归方法也能够从这些数据中学习[20，25]，但它们推广到具有结构不同场景的新数据集的能力相当有限，至少对于深度排序的任务来说，正如我们的经验评估稍后将证实的那样。3. Plackett-Luce深度估计模型在下文中，我们介绍我们的用于深度估计的Plackett-Luce模型的提议，如图1B所示1，以及从原始深度数据构建训练示例14597+输入图像具有伪深度的图像��1≻��2≻��3Plackett-Luce模型由向量v=（v1，. . .，v K）∈RK，其中K是项目的数量（排名的长度）。根据优先顺序对排名的解释，值vi也称为第i项的（潜在）效用-随后，我们将使用PL得分或参数的更中性的然后，[K]的置换π的概率由下式给出：��编解码器网络接口（UART）（）��P（π|v）=KY−1vπ（i）Kv、（1）地点的顺序是i=1k=iπ（k）是最有可能的？图1.我们的方法概述：PL模型结合了一个深度神经网络来预测输入图像中每个像素的分数，然后将其转换为查询图像位置排名的概率。为了训练，我们从由伪深度注释的图像中采样排名。3.1. 问题公式化我们假设训练信息以RGB图像I连同（伪）深度注释D的形式，即，元组（I，D）∈Rh×w×3×Rh×w，其中h和w分别表示图像的高度和宽度此外，D[l]表示位置l ∈ {1，. . . ，h} ×{1，. . .，w}，由高度和宽度坐标标识。不失一般性，较低值D[1]编码到相机的较短距离。我们主要关心的是由（伪）深度引起的象I中D. 形式上，n个位置之间的关系M={11，12，. . .，1 n}可以用[n]的置换π来表示：. .，n}使得D[l π（i）]< D[l π（i+1）]对于i ∈ {1，. . . ，n-1}。该置换对秩l π（1）l π（2）···l π（n）进行编码，即，位置l π（1）最接近，然后l π（2），等等。在查询时间，当I被给出但D未被给出时，基于等级的深度估计模型的任务是预测“更接近相机”的关系λ，即，产生D的保序估计形式上，该估计可以再次用置换来表示，然后将其与地面真值置换π进行比较。3.2. Listwise深度排名我们以概率的方式对有关排名的信息进行建模，这具有几个优点，特别是从学习的角度来看（例如，它使问题符合一般推理原则，如最大似然估计）。关于排名的一个著名的概率模型是Plackett-Luce（PL）模型，其参数为：其中π（i）是第i个秩上的项的索引。很容易验证，分数vi越大，第i个项目出现在最高排名上的概率就越高。此外，分配模式，即，具有最高概率的排序是通过按照项目得分的降序对项目进行排序来获得的。PL模型具有吸引人的性质，即PL模型的每个边缘都是 PL 模型（具有相同的更具体地，如果J={j1，. . .，j k}[K]是K个元素的子集，则相应的边际（1）是一个PL模型，其参数为vj1，. . . ，v jk. 这个属性极大地促进了从不包括所有K项的可能不完整的排名中的事实上，学习使用PL模型进行排名本质上归结为估计得分向量v =（v1，. . . ，v K）。在深度估计的情况下，项目对应于图像的像素，并且学习器的任务是预测这些像素的分数为了使这成为可能，我们假设像素的分数可以表示为图像上的上下文因此，定义了一个参数vi，通过输入空间X[8]上的函数φ i：X −→ R，其中X =Rh×w×3对应于大小为h × w的所有可能图像的空间。假设所有图像都具有相同的大小，我们将备选方案的总数K设置为h × w。在深度估计领域中，表示函数φ1，. . .，φ K将它们建模为（联合）深度卷积神经网络。因此，每个函数-根据一组网络参数wi来表示，所述一组网络参数是整个（联合）网络的参数w的子集在实验部分，将评估不同的国家的最先进的模型架构的目的。对于图像x ∈ X，令w（x）表示参数化w下的神经网络的输出，（v1，. . . ，v K）=（φ1（x），. . . ，φ K（x））= exp（w（x））（2）诱导的（非负）PL参数。因此，图像x的整个PL模型最终由网络参数w指定。给定（的子集）的排名π训练预测14598i=1x的像素作为训练信息，因此可以确定概率P（π| x，w），根据（1）在w下的排名。更一般地，给定具有排名的图像集合形式的我们注意到，由于PL模型（1）对于乘法缩放是不变的（即，P（π |v）π P（π |λv）（λ> 0），则参数v只能确定到一个乘法因子。相应地，参数z只能是{（xi，πi）}L，学习最优模型可以实现为确定一个附加常数。这的确是一种安慰。最大似然估计[32]：sible：假设两个图像对象的顺序颠倒的概率仅取决于它们的真实距离Lw ∈arg min −对数P（π |x，w）。（三）|z i -zj|，该概率不会因移动Wi=13.3. 度量深度估计超越排名的预测，人们可能会怀疑是否有任何可能从学习的PL模型恢复度量深度信息。乍一看，这是令人惊讶的，因为该模型只接受排名形式的定性信息的训练，并预测概率而不是度量深度。然而，PL模型还包括定量部分，即分数Vi，如将在下文中解释的，分数Vi与基础度量信息直接PL 模型是一种特殊的随机效用模型（RUM ）[23]。在这类模型中，假定真实阶数z1zj-zi，并且距离越小，则两个项目之间的真实顺序关系z i z j被颠倒|zi−zj|越容易发生这样的错误。因此，排序错误的概率指示z i和z j之间的距离。PL模型是针对误差项i遵循具有固定形状参数的Gumbel分布的特殊情况获得的[27]。更具体地说，所谓的Thur-stone模型与参数z1，. . . ，zn等价于PL模型（1），其中参数vi= exp（zi），i = 1，. . . ，n.第i个图像对象（像素）的真实深度由z i给出，但是由于测量噪声，这些距离不能被精确地观察到。接受Gumbel分布1的假设，与图像对象的观察到的（噪声）排名拟合的PL模型产生vi=exp（zi）的估计v i。因此，基础度量深度的自然估计是g iv en，其中zi=l〇 g（vi）。1这个分布看起来类似于正态分布。即使不能证明是正确的，它也肯定不是不可信的。整个场景（即，将照相机移近或移远）。除了这种移位不变性之外，还有一种尺度效应，尽管是一种更间接的性质。这种效应是由将Thurstone模型的形状参数固定为1引起的。因此，我们不使用简单的对数变换，而是使用形式为z=slog（v）+t的有限变换，其中s，t∈R适合手头的图像3.4. 模型关于底层神经网络，将图像x作为输入并产生如（2）中所使用的w（x）作为输出，我们提出了我们的列表排序方法的两种变体。第一个被称为PLDepthResNet，使用与Xian等人建议的相同的作为第二个模型，考虑到最近的神经架构研究，我们提出PLDepthEffNet作为依赖于EfficientNet [29]作为骨干的密切相关的架构无需进一步说明，变体EfficientNetB5用作编码器，而解码器部分是重复卷积，BatchNormalization，ReLU和双线性上采样层的堆栈，直到恢复原始形状。与[33]中的模型类似，来自编码器分支的不同尺度特征被馈送到解码器部分的相应级别。我们不是通过加法来融合这些特征，而是在各个层上进行连接。因此，我们获得了具有大约4500万个参数的PLDepthEffNet模型，其类似于具有4200万个参数的PLDepthResNet的大小，同时提高了模型性能（参见图1）。经验评价）。对于PLDepthResNet和PLDepthEffNet，我们使用在ImageNet上预训练的编码器因此，我们将输入图像标准化以匹配ImageNet上的预处理。在训练过程中，我们冻结编码器部分，只允许BatchNormalization层调整新的输入数据，就像在迁移学习中通常做的那样。3.5. 采样在过去，已经提出了从原始深度数据构建成对关系的不同策略，包括超像素采样[35]、随机采样[5]和多种结构引导策略的组合[34]。AC-14599、根据Xian等人的研究[34]，从原始深度数据中随机抽取成对关系可能会损害模型的性能，因为训练的样本信息量不足，甚至会产生更糟糕的是，由于地面真实数据的不精确性，错误排序的项目的风险随着样本的增加而增加。为了解决这些问题，我们提出了一种随机采样策略，它几乎和纯随机采样一样简单，并且允许结合给定图像的深度结构，同时导致相对较低的训练复杂度。对于每个训练要查询的R ntuple（I，D），N·R项目集M，具有n个独立图像位置被采样，其中N >1是参数。对于每个排序集合M，我们将所有图像位置l按D[l]排序以构造地面真值置换 π 。给定 π ，我们将所有两两深度差相加 |D[l π（i）]−D[l π（i+1）]|，i∈[n−1]. 然后，我们将所有N·R排名按根据深度差的总和以降序排列图像，并选择前R排名作为训练示例。通过这种方式，我们考虑那些看起来信息量最大的排名，因为它们的相对深度值在样本中最大化。其他策略，例如排名中所有成对深度差异中的最小值，当然也可以作为信息量的代理值得一提的是，Plackett-Luce模型不支持部分排名，即，既不考虑项目之间的联系，也不考虑项目之间的不可比性因此，与包含平等关系的策略相反为了避免采样点对几乎同样远离相机，我们对每个深度差和加上-10的惩罚比较图像位置，n对L1和L2，如果它们的深度不同，使用单独的一组400个图像。由于作为深度注释提供的流预测对于某些图像区域失败为此，应用了前向-后向流一致性检查。此外，已经对注释进行了预处理，以便也为天空区域分配恒定的深度值。尽管它的大小相对较小，但我们发现这个数据集提供了高度信息化的图像和深度对来学习。在实验中，我们将我们的模型与在训练过程中未使用的数据集上进行的“零射击”泛化研究中的各种基线进行比较。因此，我们遵循Ranftl等人的基本评价方案。[25]。我们将考虑Ibims[16]、Sintel[3]、DIODE[30]和TUM[28]作为数据集。在补充材料中，我们详细介绍了每个数据集的特征，例如它们的数据多样性。通过选择基准目标，我们捕获室内，室外和计算机生成的场景，这为评估不同模型的泛化性能及其在各种应用中预测深度顺序的能力提供了良好的基础。4.2. 基线我们比较我们的PL为基础的方法，以国家的最先进的深度估计模型，使用深度关系作为训练信息。为此，我们考虑了基于ResNet的模型，该模型在“来自Web的相对深度”（ReDWeb），“野外深度”（DIW）和YouTube3D上训练[6]，以下简称YouTube3D，以及Xian等人[34]使用的相同模型。这是这样的，maxD[11]D[12]D[12]D[11]<1+τ，其中（简称西安2020）。这两种方法都表明，引人注目的泛化性能，证实了我们的参数τ被设置为τ = 0。在我们的实验中。4. 实验为了证明我们的方法的有效性，我们进行了详尽的经验评估几个基准数据集。在展示结果之前，我们首先介绍数据集，然后简要描述用于评估的基线方法和指标。4.1. 数据集为了训练我们的模型，我们使用最近引入的伪度量它由20378张不同的高分辨率图像组成，这些图像用从流量预测中生成的伪深度图进行了注释对于超参数优化，使用相关数据进行监督的动机。除了在相对深度信息上训练的模型之外，回归模型显然也能够推断排名，只需根据预测的密集深度图中的值对图像位置进行排序。因此，我们认为最先进的（伪）回归方法作为额外的基线，即，DenseDepth[1]，BTS [18]，MegaDepth [20]，MannequinChallenge（ MC ） [19] 和 Mi- DaS [25] 。此外，我们还将MonoDepth 2 [14]评估为完全无监督的响应。自我监督方法虽然我们考虑了相关工作中描述的大多数基线，但让我们注意到MiDaS的作者提供了一个大约200万个示例的模型，这远远超过了我们比较的大多数其他方法为了解决这个问题，我们重新实施了他们的方法，14600D[l]+1在HR-WSI上重新训练模型以进行更公平的比较。对于所有基线的完整概述，包括分类-预测的深度图和预测的百分比z使得Max. z=δ>1。第25章真相z z轴关于各自的训练数据多样性，我们参考花絮4.3. 度量为了评估我们的模型，我们报告了Xian等人[34]所做的采样点对的“有序误差”。对于从示例（I，D）采样的两个点11和12，其中I是图像并且D是如之前指定的密集（伪）深度图，地面真值顺序关系r（11，12，D）由对于D[11]> D[12]为+1，对于D[12]> D[11]为-1以及否则为0给出顺序误差则由下式给出：深度z 为了计算度量，我们将给定的根据相应数据集的最大深度容量的地面实况得分（参见补充中的数据集特征）以获得类似尺度的误差值。4.4. 结果为了证明我们的方法建议的有效性，我们首先使用相同的模型架构和训练数据集比较不同的损失，然后将我们的方法与基线进行比较每个报告的结果都是使用不同随机化种子的三次运行的平均值1美元。 Σord（D）=|D|f（l1，l2，D）/=r（l1，l2，f（I）），（I，D，l1，l 2）∈D4.4.1损失比较（四）其中，f是预测深度的函数，或者，在PL模型，输入图像I的每个像素的得分，导致如D所给出的密集深度图，并且D表示从测试数据集图像和深度图采样的所有点对的集合如前所述，我们忽略所有相等的对，即， r（·，·，·）=0的关系。因此，我们只在不相等的对上报告ORD，而因此，不需要像[25]中那样依赖重新缩放和转换，[34] 确定合理的平等阈值，这给评估过程带来了额外的复杂性。通常，深度顺序具有不同的优先级，即，较近的元素对于正确排序比远离相机的元素更关键例如，自动驾驶汽车对非常接近汽车的元素做出反应的时间更少，并且必须依赖有效输入进行安全交互。这反映在折扣累积收益（DCG）等指标上，该指标通过累积随着排名下降而折扣的排名项目的分级相关性来衡量排名的有用性。更准确地说，对于与密集深度图D相关联的每个图像位置l，我们设置D中l与rel（l，D）的相关性得分=1 .一、给定这些分数，我们可以指定排名的DCG分数lπ（1）<$lπ（2）<$··<$lπ（n）由文献中有许多实验研究表明-改进方法的性能，但不隔离有助于改进的关键因素，例如，神经网络结构，损失函数，训练过程，训练数据等。为了更清楚地评估列表方法对排名的影响，我们评估了在相同数据和相同神经网络结构上训练的三种方法，即（尺度不变，SI）回归，成对和列表排名。的确，模型、损失和数据可以彼此强烈地交互（即，丢失可能与特定数据集上的某个体系结构一起工作得很尽管如此，我们发现Xian等人提出的基于ResNet的架构。[33]随后也在[25]中使用，作为公平比较的良好基础对于我们的实验，我们重新实现了同样用于MiDaS的SI均方误差损失和[5]和[33]中描述的成对排序损失。作为训练信息，我们使用HR-WSI作为最先进的多样化伪深度数据集。我们参考补充资料，以了解-所有超参数的尾描述。所有这三种方法都需要不同的采样策略：虽然SI回归使用完整（掩蔽）图像，但配对和列表方法涉及每次排序选择的不同数量的为了公平比较，我们采用了列表式排名的抽样数量DCG（ π，D）=卢恩i=1rel（lπ（i），D）.（五）log2（i+1）到绘制的成对关系的数量，使得一种方法在训练期间不会比另一种方法看到更多的点在成对排名的情况下，我们随机对于我们的实验，我们使用归一化DCG（nDCG），它将（5）除以D上可能的最佳DCG。对于度量比较，我们评估了密集地面实况和每个图像和时期采样1k个点对，导致每个图像和时期最多2k个可见点。对于我们的列表方法，我们发现5的大小可以在高度信息化的排名和效率之间实现良好的权衡14601表1.每次损失50k个随机采样对的顺序错误，使用[34]中的架构在HR-WSI上训练（越低越好）。损失伊比姆斯Sintel二极管TUMAvg. 秩SI-回归0.3080.3110.3340.2223成对0.2810.2990.2910.1921.75Listwise0.2730.2890.2850.2181.25古代训练因此，我们对每个图像和时代的排名大小为5的400个排名进行了采样。在这里，我们明确坚持仅随机采样以减轻副作用。表1给出了每个图像50k个随机采样位置对的方法比较结果。可以看出，相对模型优于SI回归方法，这表明可以作为优化顺序误差的更好的替代损失。此外，我们的列表方法似乎比成对方法的性能略好，尽管差异似乎并不显着。4.4.2有序预测在比较了共享模型和数据水平上的损失函数之后，我们现在分析各个深度估计模型的顺序误差和由各自作者训练的nDCG性能，这些作者试图优化数据，网络架构和训练过程之间的相互作用。对于基线模型，我们使用作者提供的最好的预训练模型，或者如果官方实现不可用，则使用流行的和经过仔细测试的重新实现。对于我们的PL模型，我们保持了大部分训练超参数不变（更多细节请参见补充材料）。在我们的采样策略中，我们将因子N=5（参见第3.5节）。对于MiDaS，我们还使用了我们提出的基于EfficientNet的架构，与以前使用的架构相比，该架构提供了卓越的性能事实上，出于公平的原因在这里，与损失比较中的MiDaS版本相反，我们主要关注比较不同的问题考虑因素，我们采用修剪的绝对偏差损失，在所考虑的替代方案中提供最佳性能（参见[25]）。表2报告了四个基准数据集在不等关系上的个体顺序错误，同样是在50k范围内。每个图像的domly采样位置对可以看出，我们PLDepthEffNet在所有数据集上实现了最低的平均排名，同时在一半的数据集上优于其他方法，证明了列表排名方法优化有序误差度量的有效性支持前面实验中的观察，MegaDepth表2.每个图像具有50k个随机采样关系的基准数据集上的顺序错误（越低越好）。模型伊比姆斯Sintel二极管TUMAvg. 秩密度深度0.2080.3840.3170.2245.75MegaDepth0.2970.3240.3160.2277.5BTS0.1900.3840.3230.2516.25MC0.2720.3870.3780.2067.25Midas0.2690.2780.2630.2073.75MonoDepth20.3750.4250.4070.3369.75YouTube 3D0.2720.2920.2880.1994.75西安20200.2250.2780.2630.1842.25PLDepthResNet0.2450.2840.2770.2134.75PLDepthEffNet0.2130.2720.2560.2042表3.nDCG在基准数据集上，每个图像具有100个大小为500的随机抽样排名（越高越好）。模型伊比姆斯Sintel二极管TUMAvg. 秩密度深度0.9160.9860.8210.9864.75MegaDepth0.9110.9890.8150.9837.5BTS0.9180.9860.8250.9834.75MC0.9080.9860.8280.9875.5Midas0.9130.9910.8060.9876.25MonoDepth20.8960.9810.8360.9617.75YouTube 3D0.9110.9930.8160.9884.75西安20200.9160.9930.8170.9902.75PLDepthResNet0.9140.9930.8170.9855PLDepthEffNet0.9160.9940.8190.9882.5作为另一种尺度不变回归方法，即使通过访问超过600K的不同实例，正确地对元素进行排序也是相当有限的。此外，在协议与以前的结果，排名方法始终是最好的模型，这表明排名损失是最喜欢的选择，作为替代品的顺序误差最小化。此外，表3报告了nDCG的结果，按照每个图像大小为500的100个根据有序误差，排序方法很适合于优化该度量。在这里，前三名的模型都是这种类型，PLDepthEffNet的表现略好于Xian 2020。4.4.3度量预测如第3.3节理论上所述，我们的方法提供了一个接口，可以从观察到的排名中恢复度量深度信息。在这里，我们将我们的模型与两个度量误差度量RMSE和δ > 1的基线进行比较。使用与第4.4.2节相同的模型。由于所有基准数据集都有不同的尺度，并且可能会任意移动，因此我们重新缩放并将预测转移到地面实况的分辨率，14602表4.关于度量深度误差测量的基准数据集的评价结果（在两种情况下越低越好模型伊比姆斯RMSEδ >1。25SintelRMSEδ >1。25二极管RMSEδ >1。25TUMRMSEδ >1。25Avg.RMSE秩δ >1。25密度深度0.01620.90.12839.60.11053.50.08469.75.254.5MegaDepth0.02035.90.11935.50.09455.30.08270.867BTS0.01618.90.13341.80.11254.40.08972.476.25MC0.01831.30.12838.80.12058.70.07467.85.255.5Midas0.01933.20.09127.70.08153.50.08571.144.75MonoDepth20.02342.60.14343.80.12261.10.08872.59.75 10YouTube 3D0.01931.80.10131.10.09654.50.07768.44.755.25西安20200.01831.50.09630.50.08551.40.08069.433.25PLDepthResNet0.01930.90.09930.70.09253.10.08471.954.75PLDepthEffNet0.01729.10.09329.30.08552.70.08371.633.55. 结论IBIMSSINTEL DIODE TUM我们已经提出将图像中的深度排序问题作为列表排序问题来解决，为此我们采用了针对单目深度估计域定制的Plackett-Luce模型。因此，与估计精确的深度值相比，我们解决了一个可以说更简单的问题，至少如果目标是最小化有序误差度量。此外，与回归模型训练所需的精确数值数据相比，排名方法允许利用较弱和更多样化的训练数据。虽然没有直接在度量数据上训练，但我们的模型能够提供精确的（平移不变）深度预测，基本上是通过利用图2.由实验中使用的PLDepthEffNet模型的重构度量分数给出的样本预测在[25]中描述了通过优化最小二乘准则。结果在表4中给出可以看出，虽然我们的模型只接受排名训练，但它能够相对精确地恢复底层深度结构值得注意的是，它优于所有回归基线，与西安2020的RMSE相当，尽管这个排名基线还包含了一个平滑的梯度损失项，用于尖锐的边界，在训练时直接访问度量深度信息。而它提供最高的δ >1。25的准确性，我们的方法在这方面仍然证明是非常有竞争力的。图2显示了我们模型的示例性预测。此外，该模型能够捕捉最微小的物体细节，如DIODE图像中的树枝，并预测清晰的物体边界。这表明，即使使用简单的采样策略，列表排序也能够反映和预测这些小细节，而不需要基于图像深度结构的非常复杂的策略图像对象之间的（潜在）距离和在排名中颠倒它们的顺序的概率。通过详尽的零次交叉数据集评估，我们表明，与以前的方法相比，我们的方法结合最特别是，它改进了现有的成对排序方法，尽管使用了更简单，更有效的采样技术。值得注意的是，我们的模型在度量误差测量方面也非常有在这些有希望的结果的激励下，我们计划详细说明列表排序方法的进一步改进。这包括调查的影响，不同的排名大小，以及延伸到学习部分排名和平等关系。此外，由于我们迄今为止只采用随机抽样，我们计划开发更复杂的抽样策略，从而获得更多信息的排名。致谢。这项工作得到了德国研究基金会（DFG）的支持，基金号为3050231323.此外，计算资源由PaderbornCenter for Parallel Computing（PC2）提供。GT我们图像14603引用[1] 阿尔哈希姆和彼得·旺卡。通过迁移学习进行高质量的单目深度估计。CoRR，abs/1812.11941，2018。[2] 克里斯托弗·J·C·Burges，Tal Shaked，Erin Renshaw，AriLazier，Matt Deeds，Nicole Hamilton，and Gregory N.胡伦德学习使用梯度下降排序在Luc De Raedt和StefanWrobel编辑的Proceedingsofthe22ndInternationalConference on Machine Learning（ICML），August 7-11 ， 2005 ， Bonn ， Germany ，第 119 卷ACMInternationalConference Proceeding Series，第89-96页中ACM，2005年。[3] 丹尼尔·巴特勒，乔纳斯·武尔夫加勒特湾士丹利和Michael J.黑色. 一个用于光流评估的自然主义开源电影在安德鲁 W. Fitzgienic ， Svetlana Lazebnik ， PietroPerona ， Yoichi Sato ， and Cordelia Schmid ， editors ，Proceedings of the 12th European Conference on ComputerVision （ ECCV ）， Part VI ， October 7-13 ， 2012 ，Florence ， Italy ， Volume 7577 ofLecture Notes inComputer Science，pages 611Springer，2012.[4] 曹元洲，赵天奇，柯贤，沈春华，曹志国，徐叔公。增强顺序深度关系的单目深度估计。IEEE传输电路系统视频技术，30（8）：2674[5] 陈伟峰，赵甫，杨大伟，邓佳。单身-图像深度感知的能力。在丹尼尔 D.Lee ， MasashiSugiyama，Ulrike von Luxburg，Isabelle Guyon和RomanGarnett ，编辑， Advances in Neural InformationProcessing Systems 29 ： Annual Conference on NeuralInformation Processing Systems ， 2016 年 12 月 5 日至 10日，西班牙巴塞罗那，第730-738页[6] Weifeng Chen，Shengyi Qian，and Jia Deng.学习单-图像深度从视频使用质量评估网络。在IEEE计算机视觉和模式识别会议（CVPR）的会议记录中，2019年6月16日至20日，美国加利福尼亚州长滩，第5604-5613页。计算机视觉基金会/ IEEE，2019年。[7] 陈伟峰，钱胜义，范大卫，高纪之-吉马，麦克斯·汉密尔顿，邓佳。OASIS：一个大规模的单一图像3D数据集。在IEEE/CVF计算机视觉和模式识别会议（CVPR）的会议记录中，2020年6月13日至19日，美国华盛顿州西雅图，第676-685页。IEEE，2020年。[8] Weiwei Cheng ， Krzysztof Dembczynski ， and EykeHüller-梅尔。基于Plackett-Luce模型的标签排序方法。JohannesFürnkranz和Thorsten Joachims编辑，Proceedings of the27 th International Conference on Machine LearningICML，2010年6月21-24日，以色列海法，第215-222页。Omnipress，2010年。[9] David Eigen，Christian Puhrsch，Rob Fergus。深度使用多尺度深度网络从单个图像进行地图预测放大图片作者： Zoubin Ghahramani ， Max Welling ， CorinnaCortes，Neil D.Lawrence和Kilian Q.温伯格，编辑，Advances in Neural Information Processing Systems 27：Annual Conference on Neural Information ProcessingSystems，December 8-13，2014，Montreal，Quebec，Canada，pages 2366 -2374，2014.[10] Ralph Ewerth ， Matthias Springstein ， Eric Müller ，AlexanderBalz ， Jan Gehlhaar ， Tolga Naziyok ， KrzysztofDembczynski，and Eyke Hüllermei

下载后可阅读完整内容，剩余1页未读，立即下载