跨任务一致性的学习方法及其在多个数据集上的基准测试

101 浏览量更新于2023-10-23 收藏 2.25MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1通过跨任务一致性的阿米尔河Zamir<$ Alexander Sax亚历山大·萨克斯（NikhilCheerla）<$ Rohan Suri<$ ZhangjieCao<$Jitendra Malik<$Leonidas Guibas<$瑞士联邦理工学院（EPFL）瑞士联邦理工学院（EPFL）http://consistency.epfl.ch/摘要视觉感知需要解决一系列广泛的任务，例如，对象检测、深度估计等。对来自同一图像的多个任务所做的预测不是独立的，因此，预期是我们提出了一个广泛适用的和完全计算的方法，增强跨任务一致性的学习。1.所提出的公式是基于任意任务图上的推理路径不变性。我们观察到，跨任务一致性的学习导致更准确的预测和更好的泛化到分布外的输入。该框架还导致了一个信息量的无监督的量，称为一致性能量，基于测量系统的内在一致性。一致性能量与监督误差（r=0.67），因此它可以用作无监督的置信度度量以及用于检测分布外输入（ROC-AUC= 0. （第95段）。这些评估是在多个数据集上进行的，包括 Taskonomy 、CocoDoom和ApolloScape，它们对跨任务一致性与各种基线进行了基准测试，包括传统的多任务学习、周期一致性和分析一致性。1. 介绍什么是一致性：假设对象检测器在图像的特定区域中检测到球，而深度估计器返回同一区域的平坦表面。这就提出了一个问题更具体地，第一预测域（对象）和第二预测域（深度）不是独立的，并且因此对彼此实施一些约束，通常被称为一致性约束。为什么在学习中保持一致性很重要：首先，期望的学习任务通常是对一个潜在现实（图像的场景）的不同方面的预测。因此，预测之间的不一致性输入图像预测常态预测（重新）着色预测深度预测曲率跨任务一致性学习Y1XY2基线学习XY1图1：跨任务一致性学习。对于一个图像中的不同任务所做的预测预计是一致的，因为底层场景是相同的。这是由一个具有挑战性的查询和四个样本预测出来的。我们提出了一个通用的方法，利用数据驱动的跨任务一致性约束进行学习下面和上面的行显示了基线（独立学习）和一致性学习的结果，这产生了更高质量和更一致的预测。红框提供放大倍数。[Best在屏幕上看到）意味着矛盾，本质上是不可取的。其次，一致性约束是信息性的，并且可以用于更好地拟合数据或降低样本复杂性。此外，它们可以通过强制执行根植于不同物理或几何规则的约束来减少神经网络学习“表面统计”（表面线索）的趋势这在经验上得到了模型在使用一致性约束进行训练时的改进泛化的支持（第2节）。（五）。我们如何设计一个能够做出一致预测的学习系统：本文提出了一种方法，该方法在给定任务的任意字典的情况下，用用于跨任务一致性的显式约束来增加学习对象。这些约束是从数据而不是先验给定的关系中学习的。这使得该方法适用于任何任务对，只要它们在统计上不是独立的;即使它们的分析关系是未知的、难以编程的或不可微的。该方法背后的主要概念是“推理路径不变性”。的1缩写为X-TC，代表Cross-TaskC onsimilar。* 平等。2例如，没有必要编码表面法线是深度的3D导数或遮挡边缘是深度的不连续性。1119711198从输入域推断输出域的结果应该是相同的，而不管介导该推断的中间域（例如，RGB颜色法线和RGB颜色深度法线以及RGB颜色明暗度法线是前-X（一）Y1XY2（b）第（1）款Y1fY1Y2Y2X（c）第（1）款Y1Y1XY2（d）Y2期望产生相同的正常结果）。当具有相同端点但不同中间域的推理路径产生相似的结果时，这意味着中间域预测就输出而言并不冲突。我们将这一概念应用于任务图中的路径，其中节点和边分别是预测域和它们之间的神经网络映射（图1）。第2段（d）分段）。在图中的所有路径上满足此不变性约束可确保对所有域的预测处于全局跨任务一致性中。3为了使相关的大型优化工作可管理，我们减少了一个“可分离”的问题最后一个可以减轻网络中的残余误差和域之间潜在的不适定/一对多映射（第二节）。（3）第三章。交互式可视化、训练模型、代码和现场演示可在www.example.com上获得http://consistency.epfl.ch/。2. 相关工作一致性的概念和实施它的方法与各种主题有关，包括结构化预测，图形模型[22]，功能映射[30]以及向量微积分和微分拓扑中的某些主题[10]。我们在计算机视觉的背景下回顾最相关的利用一致性：各种一致性约束在不同的领域都被普遍发现是有益的例如，在一个实施例中，在语言中作为时域上的视觉[41，6]，3D几何[9，32，8，13，49，46，15，44，51，48，23，5]，并承认和（条件/无条件）图像翻译[12，28，17，50，14，4]。在计算机视觉中，一致性以循环形式广泛使用，通常在两个或几个域之间[50，14]。相比之下，我们认为在一个大的任务集，而不是短循环路径的特殊情况下，具有不同长度的任意路径的更一般的形式的此外，所提出的方法不需要关于任务关系的先验显式知识[32，23，44，51]。多任务学习：在最传统的形式中，多任务学习从输入的共享编码器/表示中预测多个输出域。据推测，多任务网络的预测可能会自动跨任务一致，因为进行预测的表示是共享的。据观察，这在几个国家不一定是真的。3推理路径不变性受到矢量微积分和物理学中的保守矢量场的启发，这些场是（在高层次上）沿着不同路径的积分产生相同结果的场，只要它们的端点相同[10]。物理学中的许多关键概念都是tive’, 重力：在两点之间运动时克服重力所做的功与所走的路径无关。图2：加强跨任务一致性：（一）典型的多任务设置，其中预测XY1和XY2在没有一致性标记的情况下进行训练。（b）描绘了基本三角形一致性约束，其中使用将Y1与Y2相关联的函数（即Y1<$Y2）来强制预测X<$Y1与X<$Y2一致。（c）显示了（b）中的三角形单位如何成为更大的域系统的元素。最后，（d）说明了一般情况，其中在更大的域系统中，可以使用沿任意路径的不变性来强制一致性只要它们的端点相同（这里是蓝色和绿色路径）。这是推理路径不变性背后的一般概念。（b）中的三角形是这种路径的最小单位。工作[21，47，43，38]，因为一致性在训练期间不直接我们也做了同样的观察（见这里的视觉效果），并量化它（见图1）。9（a）），这表明需要明确增强学习的一致性。迁移学习预测目标任务另一个任务的预测有时假设使用迁移学习进行的任务是跨任务一致的，但通常发现情况并非如此[45，36]，因为迁移学习没有特定的机制来默认施加一致性。与基本的多任务学习和迁移学习不同，所提出的方法包括具有一般数据驱动一致性约束的显式学习机制不确定性度量：在现有的测量预测不确定性的方法中，建议的一致性能量（第二节）。4）与EnseminaryAveraging [24]最相关，关键区别在于我们的集合中的估计来自不同的线索/路径，而不是使用不同的随机初始化或参数重新训练/重新评估同一网络使用多个线索，预计使合奏更有效地捕捉不确定性。3. 方法我们将问题定义如下：假设X表示查询域（例如，RGB图像）和Y={Y1，.，Y，n}是n个期望预测域的集合（例如，法线、深度、对象等）。来自域（X，Y1，.，Yn）由（x，yi，. ，yn）。目标是学习将查询域映射到预测域的函数，即。 FX={fXYj|Yj∈Y}其中fXYj（x）out-把yjgiv enx. 我们还定义FY={fYiYj|Yi，Yj∈Y，ij}，这是一组我们在一致性约束中使用它们。现在假设FY是先验的和冻结的;在第二节。 3.3我们讨论了本文中所有函数fs都是神经网络，并且我们像学习FX一样学习F Y。3.1. 三角形：基本一致性单元在F X中训练神经网络的一种常见方法，例如fXY1（x），是找到fXY1的参数，使形式的损失最小化：|fXY1（x）-y1|使用公共距离函数1119912XY1Y2图3：在学习中忽略跨任务一致性的影响，使用表面法线域进行说明。每个子图显示了从中间域的预测中预测表面法线的结果;使用符号X<$Y1<$Y2，这里X是RGB图像，Y2是表面法线，每列表示不同的Y1。上一行表明，当跨任务一致性没有纳入X-1网络的学习时，法线是嘈杂的和不相似的。而在学习XY1时强制一致性会导致更一致和更好的法线（下面一行）。我们将证明这会导致对中间域本身的预测更加准确和一致。补充资料中有更多例子材料能量的一致性（Sec.4）捕获每行中预测之间的方差作为|. |, e.g. ℓ1norm.如果给定无限数量的数据，则fXY的这种标准独立学习满足各种期望的性质，包括跨任务一致性，但在实际的有限数据状态下则不满足。如图所示3或fXY2，但不是两者都有，因此我们现在有一个损失可分为fXY1或fXY2的函数，并且它们可以独立地优化。与网络fXY1相关的部分是：L分离、|F（x）−y|+的|F◦f（x）− y|、（3）（上）。因此，我们引入额外的约束来引导XY1Y2XY11年1年2XY12跨任务一致性的训练我们将从X预测域Y1的损失定义为与域Y2的一致性，如图2所示的有向三角形。2（b）：命名为分离，因为我们减少了封闭三角形目标Y方程式中的X△Y1到2个等效的独立路径目标XY1Y2和XY2。Eq的第一项。3强制执行L三角形、|F（x）-y1|+|F◦f（x）-f（x）|+|F（x）-y|.预测Y1的一般正确性，以及第二项XY1 Y2XY1年1年2XY1XY2XY22（一）增强了与Y2域的一致性。第一项和最后一项是火车的标准直接损失ingf和f.中间项是一致性项3.1.2重新配置为XY1XY2培训费使用的损失L分离需要火车─它强制从预测的Y1中预测Y2，XY1XY1Y2这和直接从X4中预测出Y2的结果是一样的。因此，学习预测Y1和Y2不再是独立的。三角形损失1是执行跨任务一致性的最小单位。下面我们通过函数“可分性”和“感知损失”对它3.1.1优化参数为一个输入使用多域注释的数据集（x，y1，y2）。它还依赖于一个完美函数fY1Y2的可用性，用于将Y1映射到Y2;即它要求y2=fY1Y2（y1）。我们展示了如何减少这两个要求。从三角形不等式，我们可以得到：|≤|f Y 1 Y 2 <$f X Y 1（x）− f Y 1 Y 2（y 1）|+|+损失三角形包括同时训练两个网-|、 |, （四）XY1 Y2工作于fXY1和fXY2，因此它需要资源。我们年1年212三角形XY1Y2可以简化为一个在Eq. 3产量：从而导致可以独立地优化的两个项从三角形不等式，我们可以推导出：L分离 ≤|F（x）−y1|+的|F◦f（x）−f（y1）|+XY1 Y2XY1年1年2XY1年1年2|ff（x）-f(x) |F|f◦f（x）-y|+|F（x）-y|、|.|.（五）年1年2XY1XY2年1年2XY12XY22与不等式2的讨论类似，在Eq. 1得到：在不等式5中，可以代替L进行优化分离既是L三角形 ≤|F（x）-y|+|F◦f（x）-y|+2|F（x）-y|.都有相同的极小值。6因为最后一项是一个常数w.r.t.XY1Y2XY11年1年2XY12XY22（二）fXY1，训练fXY1的最终损失是：RGB图像SensorrgroRGB→3D曲线RGB→Textureedgesnormals→normals（Sobel）→normalsRGB→depth→无反应RGB→shading→无反应RGB→在RGB上的任何细胞→3D关键点RGB→2Dkeypointsedges→normals（NARF）→无残留（SURF）→无残留随着时间的推移，随着时间的推移，越来越多的人开始担心Cross-显示L11200XY1Y2XY1Y2L三角形的上界在不等式2中，可以是最优的。L知觉、|fXY （x）−y1|+|fYY fXY （x）−fYY（y1）|. （六）代替L三角形因为它们都有相同的XY1Y211 2 1 1 2最小化器5这个界限的条件包括fXY4运算符f表示函数复合：gfh（x），g（h（x））。5不等式2的两边都≥0且=0，对于极小元fXY1（x）=y1fXY2（x）=y2.6对于极小元fXY1（x）=y1，不等式5的两边都≥0且=0。术语|fY1Y2（y1）−y2|是一个常数，并且是0，因为它正是fY 1 Y 2的训练目标。非零残差应被忽略并假设为0，因为非零部分与fXY 1无关，但与fY 1 Y 2的缺陷无关。111201XY1Y21 2XY1YXY1Y2学而不Cross-TaskConsitencyXRGB图像Y1法线Y（re）Shading3DCurvateteureEdges（Sobel）Dep hOclusinEdges学习与Cross-TaskConsitency传感器地面实况图4：为示例查询显示的有和没有跨任务一致性的学习。使用符号X<$Y1<$Y，这里X是RGB图像，Y1是表面法线，Y中的五个域是重绘，3D曲率，纹理边缘（Sobel过滤器），深度和遮挡边缘。顶行示出了XY1的标准训练的结果。在训练收敛之后，预测的法线（Y1）被投影到其他域（Y）上，这揭示了各种不准确性。这表明这种跨任务投影Y1Y可以为训练XY1提供额外的线索。中间一行显示了通过在损失中利用Y1Y来对XY1进行预测的法线得到了显著的改进，特别是在难以预测的细粒度细节中（放大黄色标记）。最好在屏幕上看到）。底行提供了地面实况。在可视化网页上查看视频示例。这个术语Lperceptual不再包括y2，因此它允许成对训练数据（x，y1）而不是三元组（x，y1，y2）。比较-一年二年y1fY1Y2（y1）fY1Y2（y1）y1fY1Y3（y1）ing Lperceptual 和L分开显示了修改归结为XY1 Y2取代y2XY1Y2其中fY1Y2 （y1）。这有直观的意义（一）图5：f的推导损失示意图fY1Yn（y1）. （a）：L三角形同样，因为y2是y1在Y2域中的匹配。XY1XY1 Y2（等式。1）。（b）：L单独（等式。（3）第三章。（c）：L感知（Eq.（六）。（d）：L感知（Eq.（七）.不恰当的任务和不完美的网络：如果fY1Y2 是噪声估计量，则fY1Y2（y1）=y2+噪声，而不是XY1 Y2XY1 Y2XY1Yf（y）=y。使用噪声f在L分离腐化同时也加强了预测Y1年1年212年1年2XY1Y2fXY1的训练由于第二个损失项不针对多个其他域（第3.2和3.3节）。如果fXY1（x）正确输出y1，则达到0。这是在康-trast to Lperceptual 其中两项具有相同的全局最小值，3.2. fXY1的一致性关于XY1 Y2imum和总是0，如果f（x）产出y– even导出的LXY Y损失增加了fXY1的学习，XY11fY1Y2（y1）=y2+噪声。这是至关重要的，因为神经网络几乎从来都不是完美的估计器，例如。由于缺乏用于它们的最佳训练过程或任务Y1Y2的潜在不适定性。进一步的讨论和实验是对一个域Y2的一致性约束。直接-向同一推导的扩展，以强制fXY1对多个其他域的一致性（即，当fXY1是多个同时三角形的一部分时）产生：Σ在补充材料中可用。我个人认为，|Y|×|F（x）-y1| +|f◦f（x）-f（年）|、（7）感知损失：导致EQ的过程。6可以通常被视为利用损失|g<$f（x）−g（y）|而不是XY1YXY1Yi∈YY1YiXY1Y1Yi1|.|. 后者在显式空间中比较f（x）和y，而前者通过函数g的透镜比较它们。这通常被称为分辨率和风格转移文献[19]-类似地，方程中的域Y1和Y2之间的一致性约束也是相同的。6（第二项）可以被看作是通过网络的镜头fY1Y2来判断预测fXY1（x）对y1;这里fY1Y2是训练f XY 1的然而，与基于ImageNet的感知损失不同[19]，该函数具有与另一项任务保持一致性的特定和可解释的工作。我们还使用多个fY1Yi其中Y是fXY1必须与之一致的域的集合，并且|Y|是Y的基数注意，Lperceptual是L perceptual的特殊情况，其中Y ={Y2}。图 5总结了fXY1的损失推导。图图4示出了针对样本查询在具有和不具有跨任务一致性的情况下学习fXY1的定性结果3.3. 超越三角形：到目前为止的讨论已经提供了一个函数fXY1的跨任务一致性训练的损失，三角形单位我们还假设函数FY为给予先验。更一般的多任务设置是：给予我们感兴趣的是在全局交叉任务中将域映射到彼此的X（b）X（c）第X（d）其y1Xy2…11202学习函数11203感知p∈Pp一致的方式。这个目标可以用一个图G=（D，F）来表示，图中的节点代表所有的域D=（X<$Y），而边是它们之间的神经网络F=（FX<$FY）;见图。第2段（c）分段。任意路径的扩展：从三个域到大型图G的过渡使得能够使用任意路径形成更一般的一致性约束。即两具有相同端点的路径应该产生相同的结果-图中显示了一个示例。第2段（d）分段。图中的三角形约束。2（b，c）是图2中更一般的约束的一个特殊和基本的情况。2（d），如果为绿色和蓝色路径选择长度为1和2的路径。扩展第二节中三角形的推导。3.1to paths产生：算法1：网络的全局跨任务一致学习结果：图G的训练边F1独立训练每个f∈F通过标准直接培训进行初始化2 对于k←2到L，3当不满足LossConvergence（F）时，4fij ←SelectNetwork（F）选择要训练的目标网络。5p←Select P ath（fij，k，P）n为f i j选择一条可行的一致路径，该路径距离P的最大长度为k。6使用损失8中的路径约束p优化Lijp训练sfij。7端端8使用最大违反准则：在每一步选择具有最大损耗的网络和路径8。是的，Alg。1从较短的路径开始，只有在较短的路径收敛之后，才逐渐向较长的路径（直到长度L）开放感知XY 1 Y 2.Yk为|fXY1 （x）−y1|+这是基于这样的观察，即短期和|fYk −1Yk哦……2006年1月2日◦fXY1（x）−fYk−1Yk哦……2006年1月2日（y1）|、（8）在执行跨任务一致性方面，lap，而较短的路径在计算上更便宜8。为这是使用任意一致性路径XY1Y2.训练f XY 1的损失。长度为k的实数k（在补充材料中提供了完整的推导过程）。请注意，Eq。6是Eq的一个特例。如果k=2，则为8。方程8对于不完全图特别有用;如果函数Y1≠Yk丢失，则域Y1和Yk之间的一致性仍然可以通过使用等式（1）的通过其他域的传递性来实施。8.此外，扩展Eq. 8到多个同时的路径（如在等式7）通过求和路径约束是直接的。全球一致性目标：我们定义达到图G的全局跨任务一致性为满足G中所有可行路径的一致性约束。我们可以将G的全局一致性对象ive写为LG=Lperceptual，其中p表示路径，P是出于同样的原因，所有的网络都是通过使用标准的直接损失（Op. 1在Alg。1）逐步增加一致性条款之前。最后，Alg1不区分Fx和Fx并且可以用来在同一个游泳池中训练它们这意味着所选路径P可以包括尚未完全收敛的网络。这在实践中不是一个问题，因为，首先，所有网络都是用它们的直接损失进行预训练的（Op.1在Alg。1）因此，它们离它们的收敛点并不遥远。第二，感知损失公式化使得训练fij对p（Sec.3.1.2）。然而，由于实际应用主要关心Fx而不是Fy，因此可以首先使用Alg训练Fy收敛1，然后开始训练Fx，融合网络F.我们在实验中采用了后者G中的所有可行路径。直接优化目标LG是棘手的，因为它需要同时训练F，其中有大量的一致性路径7。在Alg.1我们去-Vise一个简单的训练时间表的近似优化的LG。该问题类似于图模型中的推理，其中人们对未观察到的节点的边际分布感兴趣收敛由于无约束图的精确推理通常是困难的，通常是一个近似的消息传递y请参阅补充材料，了解如何规范化和平衡直接损失项和一致性损失项，因为它们是具有不同数值属性的不同域4. 一致性能量我们使用一个基于能量的量[26]来量化系统中的跨任务一致性，称为一致性能量。对于单个查询x和域Yk，一致性能量被定义为成对不一致性的标准化Σ使用了具有各种算法的算法能源（十）、1|−µ i，（9）|−µi,(9)算法1选择一个网络fij∈F进行训练，Yk|Y| −1σiYi∈ Y，i k为它选择一致性路径p∈P，并训练fij，使用损耗δ（或其多径），版本（如果选择多个路径重复这个过程，直到F中的所有网络都满足收敛准则。选择中的选择标准有许多选择网络和选择路径是可能的，包括循环和随机选择。虽然我们没有观察到最终结果的显著差异，但我们取得了最好的结果其中μi和σi是以下各项的平均值和标准差：|在数据集上。|overthedataset.当量可以通过在其像素上求平均来逐像素或逐图像地计算直觉上，能量可以被认为是图中下一行的预测方差3一致性能量是系统的内在量，不需要地面实况或监督。7例如，一个有n个节点的完备G包含n（n-1）个网络ΣLK=2.nΣk+1（k+ 1）！可行路径，路径长度上限为L。[8]实验比较见补充材料。L和112042图6：预测多个域以及逐像素一致性能量的定性结果。排名靠前的查询来自Taskonomy数据集的测试集。使用一致性训练的网络的结果更准确，特别是在细粒度区域（放大到黄色标记），并且在不同任务之间的相关性底部的图像是外部查询（没有可用的基础事实），展示了一致性网络对外部数据的泛化和鲁棒性将能量与预测域（例如，法线）表明能量通常与误差相关项目页面中提供了更多示例，演示页面中提供了用户上传图像的现场演示。《阿尔勒的卧室》（Bedroom in Arles），梵高（1888）;《棉纺厂女孩》（Cotton Mill Girl），刘易斯·海因（LewisHine）（1908）;《切尔诺贝利普里皮亚季废弃学校》（Chernobyl Pripyat Abandoned School）。2009年）。[best在屏幕上看到）节中5.3，我们证明这个量是相当有信息的，因为它可以指示预测的可靠性（作为置信度/不确定性度量）或输入域的变化（用于域适应）。这是基于以下事实：如果查询来自与训练相同的数据分布并且没有挑战性，则用一致性路径约束训练的系统的所有推理路径都工作良好并且产生类似的结果（因为它们被训练成）;而在分布偏移下或对于具有挑战性的查询，不同的路径以不同的方式中断，从而导致不相似的预测。换句话说，通常正确的预测是一致的，而错误的预测是不一致的。（图9（b）、9（c）、9（d））5. 实验评估的组织，以证明所提出的方法产生的预测，是我。一致性（SEC）5.1），II. 更准确（SEC）。5.2）和III. 更容易生成训练分布外的数据（Sec. 5.4）。我们也是四。定量分析一致性能量并报告其效用（第5.3）。数据集：我们在评估中使用了以下数据集：Taskonomy [45]：我们采用Taskonomy作为我们的主要训练数据集。它包括400万张室内场景的真实图像，每张图像都有多任务注释。使用来自数据集的以下10个域进行实验：RGB图像、表面法线、主曲率、深度（zbuffer）、重绘、3D（遮挡）边缘、2D（Sobel）纹理边缘、3D关键点、2D关键点、语义分割。任务被选择为覆盖2D、3D和语义域，并且具有基于传感器/语义的基础事实。我们报告测试集的结果。[40]具有高分辨率的3D地面实况，可以对细粒度细节进行更可靠的评估除了Taskonomy测试数据外，我们还测试了1227张来自NXP的图像（没有训练）CocoDoom[27]包含来自Doom视频游戏的合成图像。我们将其用作训练分布外的数据集之一ApolloScape[16]包含户外驾驶场景的真实图像。我们将其用作另一个训练分布外数据集。NYU [37]：我们也对NYUv2进行了评估调查结果与关于任务分类法和任务分类法的调查结果相似（补充材料）。架构&培训详情：我们使用了UNet [34]主干架构。FX和FY中的所有网络都具有类似的架构。电视网有6个频道关闭，使用AMSGrad [33]和Group Norm [42]进行训练，学习率为3×10−5，权重衰减为2×10−6，批量大小为32。输入和输出图像被线性缩放到范围[0，1]，并将大小缩小到256×256。我们在所有损耗中使用了1作为范数，并设置最大路径长度L=3。基线：主要的基线类别被描述为低。为了防止混淆因素，我们的方法和所有基线都是在可行的情况下使用相同的UNet网络实现的，并在Taskonomy数据集上重新训练。基线UNet（标准独立学习）是主要基线。它在所有意义上都与一致性模型相同，除了只使用直接损失而没有一致性术语进行训练。多任务学习：一个共享编码器和多个解码器的网络，每个解码器专用于一个任务，类似于[21]。基于周期的一致性，例如[50]，是一种强制要求域之间双射这条基线是图1中三角形的特殊情况。2（b）通过设置fXY=恒等式。基线感知损失网络使用冻结的随机（高斯权重）网络作为FY，而不是训练它们成为跨任务函数。这一基线将显示，是由于约束网络架构中的先验知识，而不是它们执行跨任务一致性约束。基于GAN的图像翻译：我们使用Pix2Pix [17]。盲猜：从每个域的数据中计算出的查询不可知的统计信息猜测（见补充）。它展示了可以从一般数据集学习到什么[45个]Quer yN ormals（re）ShadingDepth2DTextureEdges3DCurvatureOcclusionEdges能量（不确定性）质量（不确定性）数据（不确定性）S 具有深度2DT文本3DCurvatureOcclusionEdges能量（不确定性）X-TaskConsitency基线X-TaskConsisten cyPrdictions（externalqueries）地面实况（传感器）新闻中心新闻中心11205查询多任务网络TaskonomyCycle-BasedConsitencyBaselinePerceptualLossBaseline（L1UNet）土工网X-Task一致性传感器地面实况图7：跨任务一致性与各种基线的学习在表面法线上的比较。数据来自Taskonomy数据集（顶部）或外部数据（底部）。更多的例子在项目页面中提供，用户上传的图像的现场演示可在演示页面。[best在屏幕上看到设置方法复本数据集Taskonomy数据集法线感知错误深度重新着色直接2001年错误。深度感知错误诺姆reShade直接2001年错误。重新着色感知错误诺姆深度直接2001年错误。法线感知错误深度重新着色曲线边（2D）直接2001年错误。深度感知错误诺姆重新着色曲线边（2D）直接2001年错误。重新着色感知错误诺姆深度曲线边（2D）直接2001年错误。语义分段直接X-熵（↓）盲猜任务型网络多任务GeoNet（原始）周期一致性基线感知损失Pix2Pix基线UNet（2001）GeoNet（更新）X任务一致性4.75三十三点三十一分3.73十一点零七分5.5822.116.23十九点三十四分5.65二十二点三十九分4.88十五点三十四分4.52十九点零三分4.69十三点十五分4.62十二点七十九2.07九点九九16.026.556.037.487.134.997.704.964.704.8022.23 十九点九四18.06 十五点三十九分15.30 十六点十四分13.88 十四点零三分4.813.722.444.0115.745.148.70三点八五7.243.36× ×16.4511.4310.32×7.3938.113.91十二点零五分7.1922.683.68十点七8.7827.323.65十点十六分7.7127.353.32九点零九分8.8130.333.84十点二六8.5923.983.41十点零一分8.1226.233.83十点三三8.1720.943.41九点九八8.1820.843.40九点九九4.3212.153.29九块五17.777.547.079.588.686.179.405.955.916.0822.3727.277.96十二点七七18.8220.836.65十四点十分17.1819.557.54十三点六七15.4418.734.03十点七八7.074.552.814.0719.967.143.53十二点六二11.724.693.54十一点十九分9.193.543.56十点七五× × × ×24.8516.5811.61××10.47 十二点九九10.47 十二点七五7.01 十一点二十一分1.991.831.636.902.74× ×5.501.969.55×9.2213.6215.687.31十二点六一13.7715.767.52十二点六七分9.4612.663.61九点八二2.272.262.299.583.383.78十点八五× × × ×7.132.513.28九点三八10.45×10.520.246×0.2370.25%数据：基线0.25%数据：一致性5.6521.762.41 十二点二十六分7.617.288.8626.913.78十点三十一分5.0715.963.74九点九三8.179.19表1：跨任务一致性学习与基线的定量评估。使用“直接”和“感知”错误度量，在TMS320F200和Taskonomy数据集上报告了四个预测任务（法线、深度、重绘、像素语义标记）的感知度量评估另一域中的目标预测（例如，最左边的列评估从预测法线推断出的深度）。粗体标记性能最好的方法。如果超过一个值为粗体，则根据双样本配对t检验α = 0，其性能在统计学上与最佳性能无区别。01.学习与一致性导致改进与大利润率在大多数列。（在所有表格中，为了可读性，将n范数值乘以100不能为给定目标运行的方法用"“表示。GeoNet [32]是一种针对深度和法线分析策划的特定于任务的一致性方法。该基线显示了基于已知分析关系的特定于任务的一致性方法与所提出的通用数据驱动方法的接近程度。“原始”和“更新”变体代表原始作者发布的网络以及我们重新实现和重新训练的5.1. 预测的一致性图图9（a）（蓝色）显示测试集预测中的不一致性（一致性能量）在训练过程中成功使用一致性训练的网络的收敛点远低于基线独立学习（橙色）和多任务学习（绿色）-5.2. 预测准确性图6和图7比较了用跨任务一致性训练的网络的预测结果与不同域中的基线。这些改进是可以考虑的，特别是在困难的细粒度细节方面。定量评价见表1。1用于深度，正常，重新着色和像素语义预测任务的TensorData集和Taskonomy数据集。学习的一致性导致了大部分设置的大幅改进由于图像中的大多数像素属于容易预测的区域，这些区域由房间布局（例如，天花板，墙壁），11206标准逐像素误差度量（例如，1）由它们主导，因此对细粒度的变化不敏感。因此，除了标准的直接度量之外，我们还报告感知误差度量（例如，法向曲率），其评估相同的预测，但是对像素特性的关注不一致每个感知误差提供不同的角度，并且最佳结果对于所有度量都具有低误差。选项卡. 1还包括在使用少量数据（Taskonomy数据集的0.25%子集）进行训练时对网络的评估，这表明一致性约束在低数据状态下也很有用。我们采用法线作为更广泛评估的规范任务，因为它具有实用价值和丰富的基线。无论如何，结论都是一样的5.3. 一致性能源（Consistency Energy）下面，我们对能量的一致性进行定量在图1中示出了针对样本查询的能量（每像素）六、一致性能源作为一信心度量：图9（b）显示预测的能量与使用地面实况（Pearson Corr.）0.67）。这表明能量可以用于置信度量化和处理不确定性。本实验是在Taskonomy测试集上完成的。9例如，通过法向曲率度量评估法线类似于更加关注法线的变化，因此减少了平面区域（如墙壁）在数字中的主导地位。112070.080.060.040.020.000 2 4 6 8域偏移幅度（模糊西格玛）图8：增加（平滑）域偏移的误差。用一致性训练的网络对这种变化更鲁棒新领域错误（自适应后）错误（预适应）# 图像一致性基线一致性高斯模糊12817.4（+14.7%）20.446.2（+12.8%）（任务经济学）1622.3（+8.6%）24.4CocoDoom12818.5（+19.2%）22.954.3（+15.8%）1627.1（+24.5%）35.9ApolloScape840.5（+11.9%）46.055.8（+5.5%）表2：CocoDoom，ApolloScape和Taskonomy模糊数据的领域泛化和适应。使用一致性训练的网络对新领域的泛化能力更好，并且在数据较少的情况下适应速度更快。（括号内为相对改善）w.r.t.域转移和更好的适应性，数据少。补充材料：我们推迟了额外的讨论和实验，特别是分析优化的不同方面，实验趋势的稳定性分析，以及在补充材料和项目页面上大规模证明定性结果。(a)训练过程中的能量（b）能量与误差（c）能量与离散域移位（d）能量与连续域移位图9：一致性能量分析。作为域转移的一致性能量检测器：图9（c）显示了分布内（ Taskonomy ）和分布外数据集（ApolloScape，CocoDoom）的能量分布。分布外的数据点具有明显更高的能量值，这表明能量可以用于检测异常样本或域偏移。使用每图像能量值来检测分布外图像实现了ROC-AUC= 0。95;分布外检测方法OC-NN [3]得分为0。51岁图9（d）示出了与图9（c）相同的概念（能量与主位移），但是当远离训练数据的位移是平滑的时。通过在Taskonomy测试图像上应用内核大小为6的逐渐增强的高斯模糊来完成这种转变。该图还显示了使用具有与能量类似的模式的地面实况计算的误差。我们发现报告的实用程序值得注意，因为处理不确定性，域转移和测量神经网络中的预测置信度是开放的研究主题[29，11]，其中具有关键值，例如。主动学习[35]、现实世界的决策[20]和机器人[31]。5.4. 概括&适应新领域研究：一。网络在没有任何适应的情况下推广到新领域的情况如何，并量化它们的弹性，II. 他们如何有效地适应一个新的领域，通过微调给出一些训练示例，我们测试网络在各种新领域的Taskonomy数据集上进行培训为了节省篇幅，我们把细节问题交给了作者，并将结果提供在图1中。8和Tab。二、经过一致性训练的网络通常表现出更高的弹性6. 结论和限制我们提出了一个通用的数据驱动框架，用跨任务一致性增强标准学习。评估表明，具有跨任务一致性的学习更一致性能量被认为是一个信息丰富的内在量，对置信度估计和域移位检测的效用。我们简要讨论一些限制：路径集成：我们仅使用各种推理路径作为一种加强一致性的方式。聚合多个（非弱）推理路径到单个强估计（例如，以类似于boosting的方式）是本文没有涉及的有希望的方向。分类/低维任务：我们主要使用像素任务进行实验。分类任务，以及通常具有低维输出的任务，将有兴趣进行实验，特别是考虑到它们诱导的更严重的不适定的跨任务关系。未标记/未配对数据：当前框架需要标记的训练数据。将概念扩展到未标记/未配对的数据，例如如[ 50 ]中所示，仍然是开放的。优化限制：通过引入一致性获得的改进受到可用优化技术的成功的限制，因为有时添加一致此外，使用神经网络实现跨任务功能使它们受到某些输出伪影的影响，这些伪影类似于使用神经网络进行图像合成时看到的伪影。对抗鲁棒性：最后，如果跨任务一致性学习确实降低了神经网络学习表面统计的趋势[18]（第二节）。1），研究其在对抗性攻击防御中的含义将是有价值的。确认：我们感谢TeresaYeo和OguzhanKar。这项工作得到了 ONR MURI （ N 00014 -14- 1-0671 ）、 AmazonAWS机器学习奖、Google Cloud和TRI的支持丰田研究所（e模型巴塞尔事件模型组成一致性模型基线模型多任务模型3r = 0.673210123

下载后可阅读完整内容，剩余1页未读，立即下载