路径不变映射网络优化及应用分析

57 浏览量更新于2023-10-19 收藏 3.39MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1路径不变映射网络张在伟UT奥斯汀梁振晓UT奥斯汀LemengWu UT奥斯汀周晓伟浙江大学黄启星UT奥斯汀†摘要输入输入优化一个网络的地图之间的一个集合，PCI VOLI PCI VOIII地图/域（或地图同步）是计算机视觉和许多其他相关领域的中心问题。输出输入输出输入与孤立地优化成对映射相比，映射同步的好处在于，PCI PCIII PCI PCII地图网络之间的约束，可以提高单个地图的质量。虽然这种自我监督约束对于无向映射网络是很好理解的（例如，循环一致性约束），但是它们对于有向映射网络的探索不足，这在映射由参数映射给出时自然出现（例如，一种饲料-PCI输出输入PCIIPCI输入PCIII输出PCIPCIIPCIII前向神经网络）。在本文中，我们研究了一个自然的自我监督约束的有向映射网络称为路径不变性，它强制复合映射沿着不同的路径之间的一对固定的源和目标域是相同的。我们引入路径不变基的路径不变约束的有效编码，并提出了一种算法，输出一个多项式的时间和空间复杂度的路径方差基础。我们证明了我们的方法在优化对象对应关系，通过神经网络估计密集图像映射，以及通过不同3D表示的映射网络对3D场景进行语义分割方面的有效性特别是对于3D语义分割，我们的方法只需要来自ScanNet的8%标记数据，就可以实现与使用30%到100%标记数据训练单个3D分割网络相同的1. 介绍优化对象/域的集合之间的地图网络（或地图同步）是跨计算机视觉和许多其他相关领域的中心重要的应用包括为多视图运动恢复结构建立一致的特征对应[1，11，44，5]，计算一致的相对相机姿态，3D重建[20，17]，密集图像流[57，56]，图像翻译[59，52]，以及优化一致的密集周晓伟博士隶属于CAD CG国家重点实验室和浙大-商汤三维视觉联合实验室。†huangqx@cs.utexas.edu图1：（左）任务的3D表示网络3D场景的语义分割。（右）正则化单个神经网络的计算路径不变性基础。用于共分割[47，16，48]和对象发现[40，8]的对应关系，仅举几例。造福优化映射网络与优化孤立对象对之间的映射的区别来自于循环一致性约束[31，18，15，47]。例如，这个约束允许我们通过沿着相似对象的路径组合映射来替换一对不相似对象之间的不正确映射[18]。在计算上，最先进的地图同步技术[3，7，15，19，43，16，18，25，57，58，29]采用映射的矩阵表示[25，18、15、48、16]。这允许我们利用循环一致性约束的低秩公式（c.f.[15]），导致有效和强大的解决方案[16，58，43，19]。在本文中，我们专注于地图同步设置，丁，其中基于矩阵的地图编码变得过于昂贵，甚至不可行。这样的实例包括优化跨许多高分辨率图像的密集流[30，24，41]或优化神经网络的网络，每个神经网络将一个域映射到另一个域（例如，3D语义分割[12]将3D场景的空间映射到3D分割的空间）。在这种设置中，地图通常被编码为广义的参数地图（例如，前馈神经网络），并且映射优化简化为优化超参数和/或网络参数。同步参数化贴图会带来许多技术挑战。例如，与对象之间的无向对应不同，参数映射可能不具有有意义的逆映射。这就提出了挑战11084输入模型PCIVOLIPCII第二卷PCIII输出分段11085提出了有向映射网络的循环一致性的等价正则化约束。此外，由于基于矩阵的映射编码对于参数映射是不可行的，另一个关键挑战是如何有效地实施用于映射同步的正则化约束。我们引入了一个优化有向映射网络的计算框架，以解决上述挑战。具体地说，我们提出了所谓的路径不变约束，它确保无论何时存在从源域到目标域的映射（通过沿着路径的映射组合），该映射都是唯一的。这种路径不变性约束不仅保证了映射网络的良好定义，更重要的是它为优化有向映射网络提供了一个为了有效地实施这种路径不变性约束，我们引入了路径不变性基的概念，它收集了可以诱导整个映射网络的路径不变性属性的我们还提出了一个算法，用于计算从任意有向映射网络的路径不变的基础。该算法具有多项式的时间和空间复杂性。我们证明了我们的方法的有效性，对三个设置的地图同步。第一种设置考虑了可以使用低秩公式优化的无向映射网络[16，58]。实验结果表明，我们的新配方导致竞争力和一些倍更好的结果比国家的最先进的低秩公式- tions。第二种设置研究一致的密集图像映射，其中每个成对映射由神经网络给出。实验结果表明，我们的方法显着优于国家的最先进的方法计算密集的图像对应。第三种设置考虑由6种不同的3D表示组成的地图网络点云和体积表示）用于语义3D语义分割的任务（参见图1）。通过在未标记数据上强制神经网络的路径不变性，我们的方法只需要来自ScanNet的8%标记数据[12]就可以实现与使用30%到100%标记数据训练单个语义分割网络相同的性能2. 相关作品地图同步。大多数地图同步技术[20，17，54，31，15，57，16，7，49，5，58，2，53，19，34，43，14，56，59，52]已经集中在无向映射图上，其中自正则化约束由循环一致性给出。根据如何应用循环一致性约束，现有的方法分为三类。第一类方法[20，17]利用了这样一个事实，即可以从与生成树相关联的映射生成一组循环一致的映射。然而，很难将它们应用于优化周期一致的神经网络，其中神经网络在优化过程中发生变化。第二类方法[54，31，57]将约束优化应用于选择周期一致的映射。这些方法通常是公式化的，使得目标函数对所选地图的得分进行编码，并且约束沿着循环强制所选地图的一致性我们的方法是相对于这类方法，但解决了一个不同的问题，优化地图沿有向地图网络。第三类方法应用现代数值优化技术来优化循环一致性映射。沿着这条线，人们已经引入了凸优化[15，16，7，49]，非凸优化[5，58，2，53，19]和光谱技术[34，43]。为了将这些技术应用于参数映射，我们必须手工制作一个额外的潜在域，以及每个输入域和该潜在域之间的参数映射，这可能会受到次优网络设计问题的相反，我们专注于不同域之间的有向映射网络，并通过路径不变性基明确地强制执行路径不变性约束。神经网络的联合学习。最近的一些工作已经研究了在一个神经网络循环中加强循环一致性以改善沿着循环的单个网络的质量的问题。Zhou等人[56]研究了如何通过两个实2合成网络和合成图像之间的地面真实对应来训练真实图像对象之间的密集图像对应。[59，52]加强两个图像域之间变换网络的双向一致性，以改善图像转换结果。人们已经将这些技术应用于多语言机器翻译[21]。然而，在这些作品中，周期是明确给出的。相反，我们研究了如何将无向图的圈一致性约束扩展到有向图的路径不变性约束。特别是，我们专注于如何计算路径不变的基础上，有效地执行路径不变约束。最近的一项工作[55]研究了如何建立一个表征网络来提升个人任务。然而，自我监督的限制，如循环一致性和路径不变性。另一个区别是，我们的方法试图利用未标记的数据，而[55]专注于在不同的表示/任务下传输标记的数据。我们的方法也与模型/数据蒸馏有关（参见[38]及其参考文献），可以将其视为两个域之间具有许多边的特殊图。在本文中，我们专注于定义一般图的自监督。循环基地。路径不变性基与无向图上的循环基有关[22]，其中任何循环一个图是由圈的线性组合给出的在循环的基础上。然而，除了基本的循环基[22]可以推广到定义循环一致性基之外，其他类型的循环基是否推广是一个开放的问题。此外，无向映射网络和有向映射网络之间这就需要新的工具来定义和计算路径不变性基.11086Rqq′qq′r′3. 有向映射网络的路径不变性在本节中，我们将重点介绍本文的理论贡献，它介绍了一种用于计算路径不变基的算法，该算法强制执行有向映射网络的路径不变约束。请注意，本节中定理和命题的证明将推迟到补充材料中。3.1. 路径不变性约束我们首先定义有向映射网络的概念定义1. 有向映射网络F是属性有向图G=（V，E），其中 V={v1 ， . . . ， v|V|{\fn 方正粗倩简体\fs12\b1\bord1\shad1\3cH2F2F2F}每个顶点vi∈ V都与一个域Di相关联。每个边e∈ E，其中e=（i，j）与映射f ij：Di→Dj相关联。在下文中，我们始终假设E包含每个顶点处的自循环，以及关联的映射每一个自环都是恒等映射。为了简单起见，每当它可以从上下文中推断出来时，我们将有向映射网络的术语以下定义考虑了沿地图网络的路径引入的地图。定义2. 考虑一条沿G的路径p=（i0，· · ·，ik）.我们定义从G上的映射网络F导出的沿p的合成映射为：对.这就提出了如何计算路径不变性基B G对的问题，BG对是一个小的路径对集合，足以强制任何映射网络F的路径不变性。为了严格定义路径不变基，我们引入了三种关于路径对的合并、缝合和剪切（见图2）：定义4. 考虑一个有向图G。我们说两个路对（p，q）和（p′，q′）是相容的，如果{ p，q }中的一条路是{ p ′，q ′ }中的一条路的子路，反之亦然。在不失一般性的情况下，假设 p 是 p ′ 的一个子路径，我们写p′=r<$p<$r′，它按顺序缝合了三个子路径r、p和r′。我们定义了合并操作，使得它以两个相容的路径对（p，q）和（r<$p<$r′，q′）作为输入，并输出一个新的路径对（r<$q<$r′，q′）。我们继续定义缝合操作：定义5. 我们定义缝合操作，使其以两个路径对（p，q），p，q∈ G路径（u，v）和（p′，q′），p′，q′∈ G路径（v，w）作为输入，并输出（p<$p′，q<$q′）。最后，我们定义了两个圈上的割操作，这对强连通图很有用：定义6. 操作cut将两个路径对（C1，C2）和（C2，C3）作为输入，其中C1和C2是具有两个公共顶点u，v并且共享公共从v到u的路径具体来说，我们假设这两个周期fp=fik−1ik··· ··· i0i1 .（一）pqp′qare eu−→v−→u和u−→v−→u，其中reep，p′∈Gpath（u，v）我们还定义了f：=I，其中f可以指任何自循环。在剩下的文本中，对于两个连续的路径p和q，我们使用p<$q来表示它们的合成。现在，我们陈述路径不变性约束。定义3. 设Gpath（u，v）集合G中所有u到v的路. 我们定义G的所有可能路对的集合且q∈ G路（v，u）. 我们定义剪切歌剧的输出-作为一个新的路径对（p，p′）。定义 6 是必要的，因为 fp<$fq=fp′<$fq=I 蕴涵fp=fp′。正如我们将在后面看到的，这个操作对于导出新的路径不变基是有用的。现在我们定义路径不变基，这是本文的关键概念：作为G对=[u，v∈V{（p，q）|p，q∈ G路（u，v）}.定义7. 我们称一个路对集合B={（p，q）}是G上的一个路不变性基，如果每个路对（p，q）∈ G对\B都可以从B的一个子集通过一个级数我们说F是路径不变的，如果fp= fq，<$（p，q）∈ G对.（二）注1. 很容易检查路径不变性导致循环一致性（参见。[15]），但循环一致性不一定会导致路径不变性。例如，具有三个顶点{a，b，c}和三个有向合并、缝合和/或剪切操作。下面的命题说明了路径不变性基的重要性p q映射fab，fbc和fac没有圈，只有一个路对p（fbc fab，fac）.3.2. 路径不变性基强制执行路径不变约束的挑战在于，在每对do之间存在许多可能的路径，合并p′q ′缝合pp′qq′切割p′p qp′p11087图中的干线，导致难以处理的路径数图2：操作11088i=11.提案考虑图G的路不变性基B。则对于G上的任何映射网络F，如果fp=fq，（p，q）∈B，则F是路径不变的。3.3. 路径不变基计算我们首先讨论了路径不变基计算的准则。由于我们将在路径不变性的基础上为每个路径对制定一个损失项，因此我们设置了以下三个目标。首先，我们需要路径的长度，算法1高级算法流程是寻找路径不变基.输入：有向图G=（V，E）。输出：路径不变性基B。1：计算SCC G1，. . . ，GK为G和由此产生的收缩DAG Gdag。2：计算Gdag的路径不变基Bdag，以及将Bdag变换为收集G上路径对的Bdag。3：计算Gi的路径不变性基Bi。4：每当Gi可以时，计算路径相关对Bij在Gdag 中达到G j。每个路径对都很小。直观地说，在长路径之间强制一致性会削弱每个涉及的映射上的正则化。第二，我们希望重新-5：return B = BdagS. K好的。吉吉比吉选择较小的路径不变基以提高基于梯度下降的优化策略的效率。最后，我们希望得到的路径不变性基能够很好地分布，以提高诱导优化问题的收敛性。不幸的是，实现这些目标似乎是棘手的。例如，我们猜想，计算一个给定的图的最小尺寸的路径不变基是NP-难1。有鉴于此，我们的方法试图计算一个路径不变的基础，其大小是多项式，|V|，即，O（|V|| E|）在最坏的情况下。我们的方法建立在经典的结果，一个有向图G可以分解成一个有向无环图（或DAG），其顶点是G的强连通分量（c.f.[4]）。更确切地说，我们首先展示了如何计算一个路径不变性基，DAG 然后，我们讨论的情况下，强连接组件。最后，我们展示了如何将前两个设置的结果扩展到任意有向图。请注意，我们的方法隐含地考虑了另外两个标准。具体地说，我们认为，小路径不变的基础favors短路径对，因为它是不太可能结合长路径对，以产生新的路径对通过合并，缝合和切割操作。此外，该建筑采用了考虑到输入图G的全局结构，导致很好地分布的路径对。有向无环图（或DAG）。我们的算法利用了一个重要的属性，每个DAG承认一个拓扑顺序的顶点是一致的边缘orienta-（c. f. [4]）。具体地，考虑DAGG=（V，E）。拓扑序是双射σ：{1，···，|V|}→V，所以当（u，v）∈ E时，我们有σ− 1（u）<σ−1（v）。 DAG的拓扑序可以通过Tarjan算法（c.f. [46]在线性时间内。我们的算法从一个当前图Gcur=（V，V）开始，稍后我们将E中的所有边以某种顺序添加到该图中特别地，E中的边将关于（部分）边序<$被访问，其中<$（u，v），（u′，v′）∈ E，（u，v）<$（u′，v′）当且仅当σ−1（v）<σ−1（v′）。注意，具有相同头部的两条边（u，v），（u′，v）可以是任意顺序的。1与具有已知最小尺寸的循环基不同（参见[22]），最小路径不变基的大小不同对于每个新访问的边（u，v）∈ E，我们收集一组候选顶点P <$V，使得每个顶点w∈P都能到达Gcur中的u和v。接下来我们通过从P中移除所有w∈ P使得w可以达到某个不同的w′∈ P来构造集合P。换句话说，在这种情况下，w是多余的，因为w′对于每个顶点w∈P，我们收集一个新的路径对（p′，p<$uv），其中p和p′分别是从w到u和v在收集路径对之后，我们用（u，v）来扩充Gcur。我们用Bdag（σ）表示Ecur=E之后的结果路对集。定理3.1. G的每个拓扑序σ返回一个路径不变基 Bdag（σ），其大小至多为|V|| E|.强连通图（或SCG）。为了构造SCG的路径不变性基，我们从任意顶点对G因为G是强连通的，所以生成的生成森林一定是一棵树，用T表示。路径对集合B是我们得到的结果。此外，我们使用一个Gdag来收集G的一个非循环子图，并且初始时它被设置为空。当遍历边（u，v）时，如果v是第一次访问，那么我们将（u，v）添加到T和Gdag。否则，可能有两种情况：• v是u在T中的祖先。在这种情况下，我们将循环对（P<$（u，v），<$）添加到B中，其中P是从v到u的树路径。• 否则，将（u，v）加到Gdag中。我们可以证明Gdag确实是一个无圈图（参见补充材料中的A.3因此，我们可以通过运行为DAG引入的构造过程来获得Gdag我们把这个基础加到B中。第二个提案。上面构造的路对集合B是G的路不变基。广义有向图给定在DAG和SCG上构造的路不变性基，在一般图上构造路不变性基是直接的。具体地说，11089IJIJ^ ^您的位置：^ ^您的位置：vvIJ- X轴FIJ考虑图G的强连通分支Gi，1≤i≤K.用Gdag表示Gi中的DAG，1≤i≤K。我们首先构造路径不变基Bdag和Bi的Gdag和每个Gi，分别。然后，我们通过收集三组由路径变异基B引起的损失。设dDi（·，·）是与域Di相关联的距离度量。考虑Di的经验分布Pi。我们将联合映射网络优化的总损耗目标定义为ΣΘΣΘ Θ路径对。第一组简单地组合Bi，1≤i≤K。minlij（fv<$ivj）+λE dDpt（fp（v），fq（v））第二组延伸Bdag 到原来的图表。这Θ（i，j）∈Evpt（p，q）∈B通过将每个边（Gi，Gj）∈Ed替换为G上连接Gi和Gj的代表的最短路来完成，其中代表i首先是任意选择的对于每个组件。为了计算第三组，考虑每个（Gi，Gj）∈Edag之间的所有定向边：E ij={uv ∈ E：u ∈ Vi，v ∈ Vj}。（三）其中pt表示p的端顶点的索引。本质上，（3）将监督损失项和无监督正则化项组合，以确保在地图网络中传递未标记的实例时，学习的表示是一致的。我们采用ADAM优化器[27]进行优化。此外，我们从一个注意，当构造Bdag，Eij中的所有边是λ的小值，例如， λ = 10−2，求解方程（3）40个历元。在E天收缩到一个边缘。这意味着当构造B时，我们必须在原始图G上强制Eij之间的一致性。这可以通过构造树Tij来完成，其中V （Tij ）=Eij ，E （Tij ）<$E2。Tij是顶点集为Eij的图上的最小然后，我们每10个epoch将λ的值加倍当λ≥103时，我们停止训练过程。培训详情见附录。5. 实验评价边权（uv，u′v′）∈E2由下式给出本节介绍了我们uu′和vv′的长度之和。此策略鼓励减少Bij中的所得路径对的总长度：Bij：={（u^u′<$u′v′，uv<$v^v′）：（uv，u′v′）∈E（Tij）}，其中uu′和vv′表示从u到u′在Gi上的最短路径和从v到v′在Gj 上的最短路径，关于iv el y。算法1给出了我们方法的高级伪代码。定理3.2. 的路径对 B衍生从B天，{Bi：1≤i≤K}和{Bij：（Gi，Gj）∈Edag}是G的路径不变性基。3号提案 B的大小由下式确定：|V|| E|.4. 联合地图网络优化在本节中，我们提出了一个共同行动的公式三种设置的方法，即形状匹配（第5.1节）、密集图像图（第5.2节）和3D扫描分割（第5.3节）。5.1. 形状映射的映射网络我们从联合形状匹配的任务开始[31，25，15，16，10]，它旨在联合优化形状映射，以改善孤立形状我们利用功能图表示在[33，47，16]中描述具体地说，每个域Di由图拉普拉斯算子的前m个特征向量所张成的线性空间给出[16]（我们在实验中选择m=30 从Di到Dj的映射由一个MA给出。<$Xij∈Rm×m。设B是路径不变基，伴随图G.自适应（3），我们解决了关节形状匹配的以下优化问题：使用在前面部分中计算的路径方差基来优化地图网络。考虑在Def中定义的地图网络1.一、我们假设ΣǁXij（i，j）∈E在IJ1+λXp−Xq<$2（p，q）∈B（四）与每个边（i，j）∈ E相关联的映射是一个参数映射，在那里，还有，是元素L1范数和映射f θij，其中θij表示超参数或网络1F，矩阵Frobenius范数。Xij表示ini-参数f ij。我们承担地图网的监管-功由超集E ∈ E给出。正如我们稍后将看到的，当两个域之间存在配对数据时，会发生这种情况，但我们没有直接的神经网络他们之间为了利用这种超视觉，我们定义沿边（i，j）∈ E的诱导使用[33]从相应的初始形状图转换的初始功能图数据集。我们对SHREC 07-Watertight进行了实验评估具体来说，SHREC 07- Watertight包含20个类别的400个形状。其中，我们选择了11个类别（即，人类（在（1）中定义）I j沿着从v i到v j的最短路径vivj。眼镜，飞机，蚂蚁，泰迪熊，手，钳子，鱼，鸟，这里Θ={θij，（i，j）∈E}收集所有参数。We定义每个监督损失项为l ij（fΘ），l（i，j）∈ E。Lij的具体定义将推迟到第5节。除了监督损失项之外，联合映射网络优化的关键组成11090部分利用了自监督Armadillo，Fourleg），适用于形状间映射。我们还在来自ShapeCOSEG的两个大规模数据集Aliens（200个形状）和Vase（300个形状）上测试了我们的方法。对于初始映射，我们采用混合的内在映射[26]，这是一种最先进的形状11091BIM70宇宙1760周1550黄14兰德循环40基金-周期30我们的2010输入70宇宙1760周1550黄14兰德循环40基金-周期302010我们输入70宇宙1760周1550黄 14兰德循环40基金-周期30我们的2010输入70宇宙1760周1550黄 14兰德循环40基金-周期30我们的2010IJIJp形状匹配（SHREC 07，团）800.020.04零点零六0.08 0.1测地误差形状匹配（SPCoSeg、团）80形状匹配（SHREC 07，稀疏）800.020.040.060.080.1测地误差形状匹配（SPCoSeg、Sprase）80我们的方法和使用基本循环基的基线都优于随机采样路径对的基线，这表明计算路径不变基对于实施一致性约束的重要性。5.2. 密集影像地图在第二种设置中，我们考虑在相关图像的集合中优化密集图像流的任务我们再次使用映射网络F对该任务进行建模，其中每个域Di由图像Ii给出。我们的目标是--将密集图像映射fij ：Ii→Ij （区别于0.020.04零点零六0.080.1测地误差0.020.040.060.080.1测地误差恒等映射给出了每对之间密集图像流的输入图像。为此，我们使用DSP [24]预先计算初始稠密映射fin，f（i，j）∈ E，这是用于稠密图像流的最我们的目标是获得改进的稠密图像映射fij，f（i，j）∈ E，其通过映射合成导致F中所有图像对之间的稠密图像映射（参见（1））。由于可扩展性问题，图3：基准数据集的基线比较。我们表明每个方法的累积分布函数（或CDF）关于注释的特征对应。匹配.我们在两个图G.第一个图是团图。第二个图将每个形状与关于GMDS描述符的k-最近邻连接[42]（在我们的实验中k=10评估设置。我们将我们的方法与五个基础-用于该任务的现有技术方法[28，23，36，57]限于少量图像。为了解决这个问题，我们使用神经网络fθ编码密集图像映射在[56]中描述。给定一个固定的映射网络F和初始稠密映射f，（i，j）∈ E，我们用公式表示一个类似于（4）的优化问题来学习θ：minfθ− fin+λ（5）第二节：线的方法，包括三个国家的最先进的方法和我们的方法的两个变种三个最先进的AP-θij（i，j）∈EIJ1p qF（p，q）∈B方法是1）基于函数映射的低秩矩阵重构[16]，2）基于点映射的低秩矩阵恢复其中B表示与F相关联的路径不变基;ps是p的起始顶点的指数;fθ是合成通过交替最小化[58]，和3）一致的部分通过稀疏建模进行匹配[10]。两种变体是4）使用一组随机采样周期[54]，其大小为相同|B| 5）利用由G（c.f. [22]）（可能包含长周期）。我们通过标注的关键点来评估每张地图的质量（请参阅补充材料）。下面[26，15，16]，我们报告了预测特征对应的测地误差的累积分布函数（或CDF）。结果分析。图3显示了我们的方法和基线方法的CDF。所有参与的方法表现出相当大的改进，从最初的地图，证明联合匹配的好处。与最先进的方法相比，当G是团时，我们的方法具有可比性，并且表现出一定的性能增益当G是稀疏的。一种解释是，低级别的ap-方法是基于松弛的周期一致性约束（参见[15]），并且这样的松弛在稀疏图上变得松散。与这两个变体相比，我们的方法在团图和knn-图上都提供了最好的结果。这是因为这两个备选策略在B中产生了许多长路径和循环，使得谈目标函数（3）难以优化。在knn-图上，沿着路径p的网络。数据集。我们使用的图像集是从PASCAL-Part数据集的12个刚性类别中采样的[6]。为了生成对对齐有意义的图像集，我们为每个类别选择最流行的视图（在20个最近的邻居中具有最小方差的然后，我们通过收集其姿势在该视图的30度我们通过将每个图像与相对于DSP匹配分数的20个最近邻居连接来构建地图网络[24]。请注意，重新-结果F是有向图，因为DSP是有向的。在我们的实验中，最长路径在4（汽车）-6（船）之间变化评估设置。我们将我们的方法与凝结[28]，收集流[23]，RASL [36]和FlowWeb [57]进行比较。请注意，Flowweb和我们的方法都使用DSP作为输入。我们还在不同的设置下将我们的方法与[56]进行了比较（参见补充材料）。为了运行基线方法，我们遵循[57]的协议，将每个数据集进一步分解为最大大小为100的较小数据集。此外，我们考虑我们的方法的两个变体：我们的密集和我们的不定向。我们的-Dense对F使用团图。Ours-Undirected使用一个无向knn图，其中每条边的权重平均双向DSP匹配分数（c.f. [24]）。我们采用PCK测量[51]，该测量报告了%对应性%对应性%对应性%对应性11092IJ50403020100.020.040.060.08PCK错误图4：（左）12个刚性PASCAL VOC类别的关键点匹配精度（PCK）（α= 0。05）的情况。越高越好。（右）不同α源目标凝结RASL CollectionFlow DSP FlowWeb Ours图5：我们的方法和最先进的方法之间的视觉比较。这个数字是最好的彩色观看，放大。补充材料中包含更多示例。预测误差在α·max（h，w）范围内的关键点（h和w分别是图像的高度和宽度结果分析如图4和图5所示，我们的方法在大多数类别中优于所有现有方法。有几个因素有助于这种改进。首先，我们的方法可以联合优化比基线方法更多的图像，从而更多地受益于联合匹配的数据驱动效应[15，7]。这就解释了为什么我们的方法的所有变体都是可比的或优于基线方法。其次，我们的方法避免了将神经网络直接拟合到不相似的图像上，而是专注于相对相似的图像（其他地图是通过地图合成生成的），从而获得额外的性能增益。事实上，所有现有的方法，操作子组相似的图像，也隐含地受益于地图的组成。这就解释了为什么FlowWeb表现出与Ours-Dense竞争的性能。最终，我们的指导优于我们的无指导。这是因为Ours-Undirected中f的离群值比率高于Ours-Directed ，后者纯粹基于匹配分数选择边。5.3. 3D表示在第三种情况下，我们寻求共同优化神经网络的网络，以提高单独网络的性能。我们特别感兴趣的是3D场景的语义分割的任务。具体来说，我们考虑一个具有7个3D表示的网络（见图1）。第一个表示是输入网格。最后一个表示是3D语义分割的空间。第二至第四个3D表示是具有不同点数的点云：PCI（12K）、PCII（8K）和PCIII（4K）。改变点数的动机PCI PCII PCIII VOLI VOLII ENS100%标签（隔离）84.2 83.3 83.481.981.5858%标签（隔离）79.2 78.3 78.478.777.481.48%标签+取消标签（联合）82.382.582.381.679.083.430%标签（隔离）80.8 81.981.280.379.583.2表1：ScanNet测试场景上的语义表面体素标签预测准确性（百分比），遵循[37]。我们还在最后一列中显示了五种表示的集成预测精度。在不同点数下学习的模式表现出一定的变化，这对彼此都是有益的同样，第五和第六份是两项决议下的体积代表：VOLI（32×32 ×32）和VOLII（24×24×24）. 不同的有向映射ent 3D制图表达分为三类，分别是总结如下：1. 分割网络。我们使用PointNet++[37]和3D U-Net[9]分别用于点云和体积表示下的分割网络。2. 点云子采样贴图。我们在网格表示（我们使用[32]均匀采样24K点）和三个点云表示中有六个点云子采样图对于每个点子采样图，我们强制下采样点云与输入点云的特征点对齐[35]。请注意，该下采样点云也通过分割网络进行了优化，以最大限度地提高分割精度。3. 生成体积表达。每个体积表示由[45]中描述的符号距离场（或SDF）给出这些SDF是预先计算的。实验装置。我们已经在ScanNet语义分割基准上评估了我们的方法[12]。我们的目标密集图像贴图凝结RASLCollectionFlowDSPFlowWeb我们的-密集我们的-无定向我们%对应性Aero 自行车船瓶总线车椅子表姆比凯沙发火车电视是说凝结0.130.240.050.210.22 0.110.090.050.140.090.100.090.13RASL0.180.200.050.360.33 0.190.140.060.190.130.140.290.19CollectionFlow0.170.180.060.330.31 0.150.150.040.120.110.100.110.12DSP0.190.330.070.210.36 0.370.120.070.190.130.150.210.20FlowWeb0.310.420.080.370.56 0.510.120.060.230.180.190.340.28我们的密集0.290.420.070.390.53 0.550.110.060.220.180.210.310.28我们的-无定向0.320.430.070.430.56 0.550.180.060.260.210.250.370.31我们0.350.450.070.450.630.620.190.060.270.220.230.380.3311093地面实况8%标签30%标签100%标签8%标签+92%取消标签图6：ScanNet上3D语义分割结果的定性比较[12]。每行表示一个测试实例，其中地面实况和顶部子行显示21个类的预测，底部子行仅显示正确标记的点。（绿色表示正确的预测，而红色表示错误的预测。这个数字是最好的彩色观看，放大。是评估我们的方法在使用小的标记数据集和大的未标记数据集时的有效性。为此，我们考虑三种基线方法，它们使用100%、30%和8%的标记数据在每个单独的表示下训练分割网络然后，我们通过利用8%的标记数据（定义（3）中的数据项）和92%的未标记数据（定义（3）的正则化项）来测试我们的方法我们使用在标记数据上训练的均匀采样点来初始化点云的分割网络。然后，我们使用标记和未标记的数据对整个网络进行微调。请注意，与[55]不同，我们的方法基本上利用了相同的标记数据，但在不同的3D表示下。性能的提升来自于未标记的数据。代码可在https://github.com/zaiweizhang/path_invariance_map_network上公开获取。结果分析。图6和表1显示了我们的方法和基线之间的定性和定量比较。在所有3D表示中，我们的方法都得到了一致的改进，证明了我们方法的稳健性。具体来说，当使用8%的标记数据和92%的未标记数据时，我们的方法在每个单独的表示上训练时使用30%到100%的标记数据时实现了计算性能。此外，委员会认为，与使用100%的标记数据相比，VOLI的准确性是有竞争力的我们还测试了将大众投票[39]应用于使用不同3D表示的预测的性能。相对性能增益保持相似（参见表1中的最后一列）。更多实验评价和基线比较请参见附录C6. 结论我们研究了优化有向映射网络的问题，同时通过路径不变基来加强路径不变我们已经描述了一个算法，用于计算具有多项式时间和空间复杂度的路径不变基在三组具有不同应用的地图网络上证明了该方法的有效性。谢谢。黄奇星希望获得NSF DMS-1700234、NSF CIP-1729486、NSF IIS-1618648的支持，Snap Research的礼物和Nvidia Inc.国家自然科学基金部分资助项目（No.61806176）和中央大学基础研究基金。11094引用[1] 作者：陈文辉，陈文辉.Seitz和Richard Szeliski。一天建成罗马。Commun. ACM，54（10）：105-112，2011年10月1[2] Federica Arrigoni、Beatrice Rossi、Pasqualina Fragneto和Andrea Fusiello。通过低秩和稀疏矩阵分解实现SO（3）和SE（3）中的鲁棒同步计算机视觉和图像理解，174：95-113，2018。2[3] Chandrajit Bajaj 、 Tingran Gao 、 Zihang He 、 QixingHuang和Zhenxiao Liang。Smac：通过光谱分解同时映射和聚类在ICML，第1001[4] Jrgen Bang-Jensen和Gregory Z.古丁有向图-理论、算法与应用。Springer，2002年。4[5] Avishek Chatterjee和Venu Madhav Govindu。高效、稳健的大规模旋转平均。在ICCV中，第521- 529528. IEEE计算机学会，2013年。一、二[6] Xianjie Chen，Rooseveh Mottaghi，Xiaobao Liu，SanjaFidler，Raquel Urtasun，and Alan L.尤尔。检测您可以：使用整体模型和身体部位检测和表示对象。见CVPR，第1979-1986页。IEEE计算机学会，2014年。6[7] 作者：陈宇昕，Leonidas J.Guibas和黄其兴基于凸松弛的近最优联合目标匹配。在第31届机器学习国际会议的筹备会上，ICML 2014，中国北京，2014年6月21-26日，第100-108页一、二、七[8] Minsu Cho ， Suha Kwak ， Cordelia Schmid ， and JeanPonce.野外无监督对象发现和定位：基于零件的匹配与自下而上的区域建议。在IEEE计算机视觉和模式识别会议，CVPR 2015，美国马萨诸塞州波士顿，2015年6月日，第1201-1210页1[9] O¨zgu¨ nC¨ic¨ek ， AhmedAbdulkadir ， SoerenSLienkamp ，Thomas Brox，and Olaf Ronneberger.3d u-net：从稀疏注释学习密集体积分割。医学图像计算和计算机辅助干预，第424-432页。施普林格，2016年。七、十六[10] LucaCosmo ， EmanueleRodo la` ， AndreaAlbarelli ，Facundo M e'moli，andDanielCremers. 通过稀疏建模实现形状集合的一致部分匹配Comput. Graph.Forum，36（1）：209-221，2017. 五、六[11] David J. Crandall，Andrew Owens，Noah Snavely，andDaniel P. Huttenlocher基于mrfs的Sfm：大规模结构运动离散-连续优化。IEEE Trans. 模式分析马赫内特尔，35（12）：28411[12] 戴安琪，天使 X. 放大图片创作者： ThomasA.Funkhouser和Matthias Nießner。扫描网：室内场景的丰富注释3D重建，2017年。一、二、七、八、十六、十九[13] Daniela Giorgi Silvia Biasotti和Laura Paraboschi。2007年形状检索竞赛：2007年

下载后可阅读完整内容，剩余1页未读，立即下载