多领域专家网络用于准确的摄像机重定位模型参数拟合

195 浏览量更新于2023-10-12 收藏 976KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

7525专家样本共识在摄像机重定位Eric Brachmann和Carsten Rother视觉学习实验室海德堡大学（HCI/IWR）http://vislearn.de摘要将模型参数拟合到一组噪声数据点是计算机视觉中的常见问题在这项工作中，我们将6D相机姿态拟合到2D输入图像和已知3D环境之间的一组噪声对应关系。我们估计这些对应关系的图像使用神经网络。由于对应关系通常包含离群值，因此我们利用诸如随机样本一致性（RANSAC）或可微分RANSAC（DSAC）的鲁棒估计器来拟合姿态参数。当问题域，例如所有2D-3D对应的空间很大或不明确，单个网络不能很好地覆盖该域专家混合（Mixture of Experts，MoE）是一种流行的策略，用于将问题域划分到一组专门的网络（所谓的专家）中，其中门控网络决定哪个专家对给定的输入负责。在这项工作中，我们介绍了专家样本共识（ESAC），它集成了DSAC在一个MoE。我们的主要技术贡献是提供了一种端到端联合培训ESAC的有效我们证明experimentally，ESAC处理两个现实世界的问题查询图像：选通预测：优于竞争方法，即，可伸缩性和模糊性。我们应用ESAC拟合简单的几何模型，合成图像，相机重新定位困难，真正的数据集。1. 介绍在计算机视觉中，我们通常有一个模型，它用一小组参数来解释观察结果。例如，我们的模型是相机的6D姿态（平移和旋转），我们的观察结果是已知3D环境的图像。相机重新定位的任务是在给定相机图像的情况下稳健且准确地预测6D相机姿态。然而，从观测值推断模型参数是困难的，因为我们的模型无法解释许多效应。人们可能会在环境中移动，其外观在很大程度上取决于照明效果，例如白天与夜晚。我们通常将我们的观察映射到一个表示，从中我们可以更容易地推断模型参数。例如，在相机低样本共识高样本共识图1. 使用ESAC的摄像机重新定位。给定由若干模糊房间（顶部）和查询图像（中间）组成的环境，我们估计6D相机姿态（底部）。门控网络（黑色）预测每个房间的概率。我们将姿势假设的预算分配给专门针对每个房间的专家网络我们选择具有最大样本一致性（绿色）的姿势假设，即。最大的几何一致性。我们对所有网络进行端到端联合训练。通过重新定位，我们可以训练神经网络来预测2D输入图像与3D环境之间的对应性从这些对应关系推断相机姿态要容易得多，并且存在用于该问题的各种几何求解器[21，16，26]。因为网络的某些预测可能是错误的，即我们有离群值对应，我们利用鲁棒估计器，例如随机样本一致性（RANSAC）[14]，分别。它的可微对应可微样本共识（DSAC）[6]，或其他可微估计[53，35]用于训练。专家：...专家预测：工作环境：办公室1办公室2办公室1办公室27526对于某些任务，问题域很大或不明确。在摄像机重新定位中，环境可以具有局部唯一但不是全局唯一的重复结构，例如：办公设备、散热器或窗户。单个前馈网络不能预测这样的对象的正确对应，因为有多个有效的解决方案。然而，如果我们训练一个网络集合，其中每个网络专门针对环境的局部部分这种策略在机器学习中被称为专家混合（MoE）[20]。每个专家都是一个网络，专门针对问题领域的一部分。一个额外的门控网络决定哪个专家负责给定的观察。更具体地说，门控网络的输出是专家的分类分布，它要么指导单个专家的选择，要么指导所有专家输出的加权平均[30]。在这项工作中，我们扩展了混合专家拟合参数模型。每个专家都专门研究所有的训练观察，并预测一个表示，我们使用DSAC拟合模型参数我们认为，专家混合模型的两种实现方式不是最佳的：i）让门控网络只选择一个专家[19，51，3，43]; ii）给出所有专家的加权平均值作为输出[20，1]。在第一种情况下，我们忽略了门控网络可能会将相当大的概率归因于多个专家。我们可能会选择错误的专家，并得到一个糟糕的结果。在第二种情况下，我们计算模型参数空间中的平均值，这在学习中可能是不稳定的[6]。在我们实现的混合专家模型中，我们将门控网络集成到DSAC的假设和验证框架中。为了估计模型参数，DSAC通过对数据点的小子集进行采样并将模型参数拟合到每个子集来创建许多模型假设。DSAC根据假设与所有数据点的一致性对假设进行评分，即：他们的共识样本根据该得分选择一个假设作为最终估计假设选择是概率性的，训练的目的是最小化预期的任务损失。而不是让门控网络选择一个专家，并只适合这个专家的预测模型参数每个专家根据选通网络接收假设总数的一部分。对于最终的选择，我们根据样本共识对每个假设进行评分，而不管它来自哪个专家，见图1。因此，只要门控网络将一定概率归因于正确的专家，我们仍然可以得到精确的模型参数估计。我们称这个框架为专家样本共识（ESAC）。我们通过最小化预期的任务损失来联合和端到端地训练网络集成我们定义的期望，假设共享根据门控网络，并根据样本的共识假设选择。我们展示了我们的方法在玩具问题的门控网络必须决定哪个模型来适应合成数据-一条线或一个圆圈。与朴素的专家选择相比，我们的方法被证明是非常强大的考虑门控网络我们的方法还实现了摄像机重新定位的最先进的结果，其中每个专家都专门研究较大室内环境的一个单独的小部分。我们提供以下主要贡献：• 我们提出了专家样本共识（ESAC），一个可微样本共识的集成公式。sus（DSAC），我们从混合专家（MoE）中获得• 一种端到端联合训练ESAC的方法。• 我们证明了我们的算法上的属性将简单的参数模型拟合到嘈杂的合成输入• 我们的配方改进了基于学习的相机重新定位，可扩展性和模糊性的两个现实世界的方面我们在不同领域取得了最先进的成果用于室内重新定位的公共数据集。2. 相关工作集成方法。为了提高机器学习算法的准确性，可以训练多个基本学习者并结合他们的预测。一种常见的策略是平均化，这样个体学习者的错误就可以抵消[10，25，45，18]。为了确保基本学习器产生不相同的预测，它们使用训练数据的随机子集（bagging）或使用参数的随机初始化（例如，网络权重）。提升是指预测的加权平均值，其中权重来自每个基础学习者对训练样本进行分类的能力[15]。在这些集成方法中，所有的基础学习者都是在整个问题域上训练的。相比之下，专家混合（MoE）[20]采用了分而治之的策略，每个基本学习者，分别。专家，专门研究问题领域的一部分。额外的门控网络评估每个专家对于给定输入的相关性集合预报是对预报员输出的加权平均。通过最小化预期训练损失[20]、在高斯混合模型解释下最大化似然[20]或使用期望最大化（EM）算法[52]来训练MoE。MoE已被应用于图像分类，其中每个专家专门针对类别的子集[51，19，1，3]。Ahmed等人[1]用EM风格的算法找到不相交的子集。Hinton等人[19] Yanet al.[51]根据通才基网络的类混淆来查找类Aljundi等[3]将MoE应用于终身多任务学习。每当他们的系统应该扩展一个新的任务（例如一个新的对象类），他们训练一个新的专家7527和新的专家门每个专家门测量输入与其相关联的任务的相似性，并且具有最高相似性的门将输入转发给其专家。在所有上述方法中，专家相比之下，我们感兴趣的是这样一种场景，即专家输出一种表示，我们以稳健的方式将参数模型拟合到该表示，同时保持联合和端到端训练集合的能力据我们所知，这一问题以前没有得到解决。前面提到的一些方法利用了条件计算，即。选通网络选择专家的子集进行评估，而其他专家保持空闲[51，19，3]。虽然这是计算效率，路由错误可能会发生，即。选择不正确的在这项工作中，我们基于门控网络的潜在软预测在专家之间分配计算预算。因此，我们在效率和鲁棒性之间取得了良好的平衡摄像机重新定位。摄像机重新定位已经解决了一个非常不同的方法集一些作者使用基于图像的检索系统[41，11，4]将查询图像映射到具有已知姿势的一组数据库图像中的最近邻居。姿势回归方法[23，50，22，5，9]训练神经前馈网络，以直接从输入图像预测6D姿势。姿势回归方法在网络架构、姿势参数化或训练损失方面有所不同。基于检索和姿态回归的方法都非常有效，但精度有限。基于稀疏的重新定位方法[28，36，38，37，40，47]将输入图像的稀疏特征点与环境的稀疏3D再现相匹配。使用RANSAC从这些2D-3D对应关系这些方法非常准确，规模很好，但由于特征检测器失败，因此在无纹理表面和运动模糊等图像条件下存在问题[44，23]。场景坐标回归方法[44，17，49，7，31，图32、6、12、33、8]还估计图像与环境之间的2D-3D对应关系，但是针对输入图像的每个像素密集地这样做。这就避免了具有上述基于特征的方法的缺点的特征检测器。Brachmann等人[6]将用于场景坐标回归的神经网络与用于端到端可训练相机重新定位流水线的可区分RANSAC组合。Brachmann和Rother [8]改进了流水线的初始化和可微分姿态优化，以实现室内摄像机从单个RGB图像重新定位的最新结果。我们通过将它们与我们的ESAC框架相结合来构建和扩展[6，8因此，我们能够解决两个现实世界的问题：摄像机重新定位中的可伸缩性和模糊性。一些场景坐标回归方法使用基本学习器的集合，即随机森林[44，49，7，31，32，12，33]。 Guzman-Rivera等人[17]火车随机森林中的一个boosting-like的方式多样化的预测。Massiceti等人[31]将决策树集合映射到神经网络集合。然而，在这些方法中，基础学习者都不专门研究问题域的某些部分。在[7]中，Brachmannet al.训练联合分类-回归森林用于相机重新定位。森林分类输入属于环境的哪一部分，并回归该部分的相对场景坐标。最近，在[46]中，图像检索和相对姿态回归已被组合在一个系统中以获得良好的准确性。这两个作品，[7]和[46]，与我们的策略有一些相似之处，但使用一个大型模型，没有有效的条件计算的好处。此外，他们的模型不能以端到端的方式进行训练。型号选择。有时，模型类型必须与模型参数同时估计。例如，数据点可以用线或高阶多项式来解释名词模型选择的方法实现了模型表现力和拟合误差之间的权衡[2，42].为了说明的目的，我们介绍了ESAC的玩具问题，它学习模型选择在监督的方式。然而，在我们的主要应用中，相机重新定位，模型类型总是已知为6D姿势。3. 方法我们首先回顾DSAC [6]，以拟合第二节中第3.1条然后，在Sec。3.2，我们引入了混合专家[20]和专家选择。最后，我们提出了ESAC，一个合奏制定DSAC在第二。三点三我们将解释这些概念的一个简单的玩具问题，然后再将它们应用到相机重新定位。4.第一章3.1. 可微样本共识我们感兴趣的是在给定观测值I的情况下估计一组模型参数h。例如，模型可以是具有斜率m和截距n的2D线，即h =（m，n）.观察I是线的图像，其中还包含我们的模型h无法解释的噪声和干扰项。参见图的顶部。图2a）对于示例输入I，其中干扰项是部分遮挡线的框。我们不是直接将模型参数h拟合到I，而是从I推导出一个中间表示Y，我们可以很容易地将模型在直线的情况下，Y可以是一组二维点y∈ Y，y =（y0，y1 ），其中每个点都由我们的模型解释：y1=my0+n。我们可以使用线性回归或Deming回归[13]从Y推导出线参数h由于图像形成过程是复杂的和/或我们未知的，因此没有简单的方法从I推断Y。相反，我们用可学习的参数w训练神经网络f来预测Y=f（I; w）。神经网络可以学习在一定程度上忽略干扰物和图像噪声7528(a) 专家DSAC。微分样本共识的核心思想[6]是使假设选择概率化。而不是选择具有最大分数的假设，如在等式中确定性地。2，我们根据分数上的softmax分布随机选择它：h=hj 其中jp（j）= exp（s（hj，Y））j′exp（s（hj′，Y））（三）(b) 门控网络这允许我们最小化训练期间的预期任务损失L（w）：L（w）=Ejp（j）[（hj）]，（4）图2. 一个玩具问题的网络包围。a）两个专家网络，一个专门寻找线，一个专门寻找圈。两位专家都预测了一组2D点，这些点应该分别位于线或圆上。我们使用可微RANSAC将模型参数拟合到这些点b）选通网络其中，k（h）度量模型假设hw.r.t.一些地面实况参数h*。由于L（w）是具有有限数量的N个被加数的加权和，因此，对于池中的每个假设，我们可以精确地计算它及其梯度。作为最后一个考虑，我们必须重新放置方程的不可微内点计数。一个软版本[8]。Σ预测图像是否包含直线或圆。然而，它很可能会犯一些错误，例如。预测s（h，Y）=αy∈Y1−sig（βd（y，h）−βτ），（5）我们的模型H不能解释的一些点y。因此，我们采用了一种稳健的估计器 h_∞ ，即随机样本一致性（RANSAC）[14]，并且，对于神经网络训练，可区分样本共识（DSAC）[6]。RANSAC RANSAC通过对N个模型假设的池进行采样来鲁棒地估计模型参数，其中j∈ {1，. . .，N}。通过从Y中随机选择一个最小集合并将模型参数拟合到它来对假设进行采样。对于2D线，最小集合由两个2D确定斜率和截距的点。通过测量其样本一致性或内点计数s（·），i，对每个假设进行评分。e. 与假设一致的数据点的数量yΣs（h，Y）= π（τ−d（y，h）），（1）y∈Y其中d（y，h）是模型假设h和数据点y之间的距离的度量，例如，点线距离。参数τ是封装了我们对内点误差的容限的阈值，并且τ（·）表示He a viside阶跃函数。我们的最终估计是具有最大值的模型假设妈妈评分：其中j=argmaxs（hj，Y）（2）J由于argmax选择的不可微性，我们不能直接在神经网络训练中使用RANSAC。然而，Brachmannet al. [6]提出了一个可微版本的算法，我们将在下面讨论。输入包含行输入包含圆用圆或直线输入选通网络预测输入行行搜索估计和分心专家点在线预估线参数输入Circle Circle搜索估计值和分心专家点上圈估计圈参数可微RANSAC可微RANSAC7529其中，sig（·）表示Sigmoid函数，并且α、β是hy。[8] 这是一种控制分数柔软度的通过最小化 L（w），我们可以训练网络f（I; w）以端到端的方式使用DSAC。网络学习来预测一个表示Y，它产生一个准确的模型估计值h，尽管Y可能仍然包含离群值。对于拟合2D线的玩具问题，我们展示了一个示例运行，图中的完整管道。2a）顶部。3.2. 专家评选在下文中，我们将介绍用于参数模型拟合场景的专家的概念。首先，我们应用了混合专家（MoE）[20]的原始公式，然后在第二节中对其进行扩展。三点三我们不是训练一个负责所有输入的神经网络，而是训练一个M个专家的集合f e（I; w），其中e ∈{1，. . . ，M}。我们将每个专家的输出表示为是的。选通网络g（e，I; w）决定给定的输入我是哪个专家负责的，也就是说。它预测了专家分布：p（e）=g（e，I; w）.为了简化符号，我们将所有单个网络的可学习参数堆叠在单个参数向量w中。为了说明，我们改变了前一个玩具问题-以下面的方式进行。一些输入我显示一个二维线（如前所述），而其他人显示一个二维圆。因此，我们将模型参数扩展为h =（m，n，r）。在圆的情况下，（m，n）是圆心，r是半径。在直线的情况下，m和n分别是斜率和截距，我们设置r=−1表示它不是圆。7530我们培训两名专家，例如M=2，一个专门用于拟合直线，一个专门用于拟合圆。此外，我们训练了一个门控网络，它应该决定一个任意输入是否显示一条线或一个圆，这样我们就可以应用正确的专家。见图图2显示了所有三个网络及其各自的任务。给定图像I，我们首先根据门控网络预测ep（e）选择专家。我们让这个专家估计Ye，并应用DSAC，即。我们从Ye中抽取了一系列假设。我们选择类似于Eq的估计。33.3. 专家样本共识我们不是让选通网络选择一个专家，而是在专家之间分配我们的N个模型假设的预算。我们采样来自每个专家的预测的ne≤N个为此，我们定义了一个向量H，它表示我们为每个专家分配了多少假设。ΣH=（n1，. . . ，ne，.. . ，n M），其中n e=N（9）根据h=hj，其中jp（j|e）=Σexp（s（hj，Ye））j′exp（s（hj′，Ye））.（六）我们根据选通网络的输出为给定的输入I选择H更具体地，H遵循基于门控概率g（e，I; w）的多项分布。我们在图中说明了合奏的前向过程。3 a）。为了训练网络集成，我们可以调整DSAC的训练公式（等式2）。（4）以下列方式。N！p（H）=Qene！Yg（e，I;w）nee（十）L（w）=E ep（e）Ejp（j|（e）[（hj）]，（7）I.E. 我们根据p（e）选择正确的专家，并根据p（j）从该专家中选择模型假设，从而使期望损失最小化|e）。请注意，我们通过运行来在此培训公式中强制专家的根据我们选择的专家，即，我们用圆或线拟合Ye。为了计算外部期望，我们必须对给定图像I，我们首先选择H∼p（H），和然后，根据H，我们采样n e个假设h（e，j），其中j∈ {1，. . . .，n，e}中的每一个。我们使用索引对（e，j）来表示假设是哪个专家这是一个很大的问题，也是一个很大的问题。我们选择类似于Eq的估计3和等式6日电据h=h（e，j）其中（e，j）p（e，j）|H），和exp（s（h（e，j），Ye））所有的M专家和运行DSAC每次为内部实验，p（e，j| H）=0.001（十一）位置。由于DSAC是昂贵的，并且在某些应用中，我们可能有大量的专家，这可能是不可能的。然而，我们可以将期望的梯度重写为期望本身[6]。这使我们能够通过采样有效地近似梯度。Σ Σ∂ ∂ ∂e′j′exp（s（h（e′，j′），Ye′））注意，p（e，j| H）是所有N个假设上的softmax分布，即我们仅基于其得分s（·）来选择假设，而不考虑其来自哪个专家。特别地，门控网络不影响假设直接选择，但仅指导假设分布L（w）=Ee∂wEj[] logp（e）+Ej[]w专家之间。取决于门控1万美元≈E∂[编辑]∂logp（e）+ΣE[]、（8）网络g（e，I; w），一些概率较低的专家将没有分配假设（ne=0）。对于这些专家来说KjZwwk=1克鲁瓦河我们不需要Ye，因此可以节省计算as-关联向前传递，实现条件计算-其中，我们对ekp（e）K次进行采样，并对gra进行平均，配料我们使用缩写Ee、Ej和E e来表示，在Eq.7 .第一次会议。在实践中，当训练第我们将我们的方法形象化在Fig.3 b）。对于培训，我们调整我们的教育部的Eq培训目标。7、最小化随机梯度下降，我们可以近似的经验，具有K=1个样本的站，这意味着我们对每个训练输入进行一L（w）=EHp（ H）E（e，j）p（e，j）|H）ΣΣ（h（e，j））.（十二）由于我们在测试时仅选择一个专家，因此我们仅需要计算该专家但是如果我们选错了专家I.E.如果专家不是专门研究电流输入的，我们就不能指望得到合理的预测。因此，I.E.我们最小化分布Nhy上的期望损失。假设，并选择最终估计。由于p（H）是所有可能向量H上的分布，我们再次将L（w）的梯度重写为期望值，并通过采样进行近似：7531这种MoE公式的精确性受到限制，门控网络在下一节中，我们将描述我们的替代方案 L（w）≈1Ee，j[] logp（Hk）+Ee，j[]有效的新配方，对不准确性更稳健，门控网络。克拉夫k=1∂w（十三）7532（a）严格的专家甄选模型假设（仅线性假设）选假设模型假设采样门控网络决定无论是线还是圆。（b）专家样本共识（我们的）模型假设（线和圆假设）选定假设选通网络分布模型假设预算图3. 整体互动。给定一个直线或圆的图像，我们估计相关模型的参数。a）选通网络为给定输入选择一个专家。我们只根据这位专家的预测对模型假设进行抽样。b）门控网络预测模型假设的数量应该如何在专家之间划分，即我们抽样线和圆假设。在这个例子中，a）和b）的估计是相似的，但是在b）中，我们结合了门控网络的完整预测，而不仅仅是最大概率。实际上，我们发现K=1就足够了。在整个训练过程中，我们对许多不同的假设分割进行采样。每当一个负责的专家收到太少的假设，方程。12产生大的损耗，因此产生用于选通网络的大的训练信号。另一方面，接收太多的hypothethes将不会进一步减少损失，并且将没有训练信号来奖励它。因此，选通网络学习在模糊情况下分配广泛分布p（e）与将足够多的假设分配给最可能的专家之间的权衡。计算等式（1）的近似梯度13涉及给定H的对数概率的导数，我们计算为∂Σne ∂软内围值计数作为得分。这就是Eq。其中我们使用场景坐标的重新投影误差d（y，h）。一旦我们选择了一个假设，我们就使用[8]的可微姿态优化来完善它。精化迭代地解决假设的所有内点上的透视n点问题。通过对目标函数进行线性化，最后一次细化迭代。我们的输出是精炼的、选择的假设R（h ）。作为训练的任务损失，我们使用（h）=（θ，θ*）+γ||t−t*||，其中θ（·）表示角度差。超参数γ控制着权衡，旋转和平移误差[23]。我们使用γ=100当测量角度时，以度为单位，以米为单位。我们使用以下集合来估计场景坐标ynlogp（H）=eg（e，I; w）.（十四）g（e，I; w）专家fe（I; w）和门控网络g（e，I; w）。在设计专家网络体系结构时，我们受到了启发4. 用于摄像机重新定位的ESAC我们从单个RGB图像估计6D相机姿态h =（t，θ），其由3D平移t和3D旋转θ我们的管道基于Brachmann和Rother [8]的DSAC++，其本身基于Shotton等人的场景坐标回归方法。[44 ]第44段。对于图像中具有2D位置pi的每个像素i，我们回归3D场景坐标yi，即像素在世界空间中的坐标给定四个2D-3D对应（pi，yi）的最小集合，我们可以使用透视n点al来估计hm[16，2 6]. 我们采用了一种稳健的估计方法，在Sec. 3 .第三章。也就是说，我们采样多个最小集合DSAC++[8] 。每个专家都是一个 FCN [29] ，它为640×480px的图像预测80×60的场景坐标与DSAC++[8]不同，我们使用ResNet架构[18]而不是VGG [45]。我们发现ResNet可以达到相似的精度，同时在计算时间上更有效内存（28 vs.210MB）。每个专家有16层，6M参数和81px的感受野。选通网络有10层和100k个参数。门控网络的感受野是完整的图像，即它在分配专家时结合了更多的上下文。专家们有一个小的接受域，可以对观点的变化保持稳健我们的实现基于PyTorch [34]，我们将公开提供1。以创建N个姿态假设h，j的池，并且选择最佳的一个根据评分函数。我们遵循[8]，并使用1vislearn.de/research/scene-understanding/pose-estimation/#ICCV197533专家选择ESAC（我们的）a）、百分百百分之九十百分之八十百分之七十百分之六十百分之五十参数精度b）、分类精度7场景Acc.Med. 呃。12场景Acc.MapNet [9]-18cm，6.6° [48]第四十八话百分之六十二点二[第38话]-5.1cm，2.5°BT-RF [32]63.6%AC-RF [7]55.2%4.5cm，2.0°MNG [48]百分之六十九点三DSAC++74.4%3.6 cm，1.1°DSAC++百分之九十六点四ESAC（我们的）百分之七十三点八3.4cm，1.5°ESAC（我们的）百分之九十七点八图5. 场景ID已知时的姿势精度。误差低于5cm和5 ◦的姿势估计的百分比，以及中值误差。图4. 玩具问题的结果。A.正确的百分比估计的模型参数（左）和正确选择的模型类型的百分比，即，直线或圆（右）。（二）质量结果。地面实况模型显示为绿色，估计值显示为蓝色。5. 实验我们评估ESAC的玩具问题中介绍的。3，以及从单个RGB图像的相机重新定位5.1. 玩具问题Setup. 我们生成大小为64× 64px的图像，其中显示直线或圆形的概率为50%。我们在每个图像上添加4到10个干扰项，这些干扰项可以遮挡圆圈或线。线、圆和干扰项的颜色是均匀随机的。最后，我们将斑点噪声添加到每个图像。Dif- ficult示例输入如图所示。4 b）。我们训练一个直线专家和一个圆专家。每个专家是一个CNN，具有2M个参数，预测64个2D点。门控网络是一个具有5k个参数的CNN，它预测两个输出，对应于直线或圆的概率。作为线的训练损失，我们最小化图像中估计值和地面真实值之间的最大距离。对于圆，我们最小化中心之间的距离以及估计值和地面真实值的半径的绝对差。我们使用DSAC仅使用线或仅使用圆形图像对我们使用具有负对数似然分类损失的线和圆图像来预训练在预训练了50k次迭代之后，我们联合训练了集成，并进行了另外50k次迭代的端到端训练，或者使用专家选择（第二节）。3.2）或ESAC（第3.3）。我们使用Adam [24]训练批量大小为32，并对N=64个模型假设进行采样。为了测试，我们生成了一组10，000张图像。结果图4a）显示了正确估计的模型参数的百分比（参数准确度）。如果到图像中的地面真值线的最大距离是3px，则我们<如果圆的中心和半径在地面真实值的3px范围内，则我们接受圆估计。我们观察到使用ESAC比专家选择（+3.9%）具有显著优势。门控网络有时会将图像与线条和圆圈混淆，并可能将更高的概率分配给错误的专家。ESAC在不明确的情况下运行两个专家，并根据样本共识选择最终估计。图4a）还示出了集合的分类精度，即，选择正确的模型百分之六十七点二86.0%97.5%专家ESAC选择输入7534类型.在这里，ESAC比专家选择高出11.5%。良好的分类精度表明，ESAC可能是一个合适的模型选择的方法，虽然我们没有进一步研究这种情况。5.2. 摄像机重新定位对于我们的主要应用程序，每个专家预测相同的模型类型，6D相机姿势，但专门针对潜在的大型重复环境的不同部分。数据集。7Scenes[44]数据集由七个室内房间的RGB-D图像、相机姿势和3D模型组成。125m3）。这些图像包含无纹理表面、运动模糊和重复结构，这使得该数据集尽管大小有限，但仍具有挑战性十二景[48]数据集在结构上类似于7Scenes，但有12个更大的房间（约12个）。520m3）。 7Scenes和12Scenes的组合产生了一个由 19 个房间组成的大环境（19Scenes）。645米3，也见图。①的人。这些数据以多个厨房、起居室和办公室为特色，其中包含模糊的家具和办公设备。Setup. 忽略深度通道，我们仅从RGB 我们为每个场景培训一名专家，即。M∈{7，12，19}取决于数据集。我们预先训练每个前-pert为500k迭代，使用L1回归损失w.r.t.通过3D渲染获得的地面真实场景坐标场景模型，类似于[8]。此外，我们预先训练门控网络，使用负对数似然对场景进行分类，迭代10万次。我们使用亚当的固定学习率为10- 4。在预训练之后，我们使用专家选择来联合和端到端地训练网络（第二节）3.2）或ESAC（第3.3）进行100k次迭代。我们对专家使用10−6的学习率，对门控网络使用10−7的否则，我们保留DSAC++[8]的超参数，例如。我们对N=256个假设进行采样，并使用τ=10px的内点阈值。个别场景的结果。首先，我们验证了DSAC++的重新实现，以及我们所选择的网络体系结构.为此，我们评估我们的专家网络时，场景ID的测试帧。也就是说，我们不-能够门控网络，并始终使用正确的专家。我们实现了类似于DSAC++的精度，在7个场景上略差，在12个场景上略好，见图。五、请注意，我们的网络比DSAC++的网络小7.5倍7535杜布罗夫尼克[27]方法中位准确度亚琛日[39]0.25米，2°/0.5米，5°/5米，10°DSAC++[8] 2.3°，24.0mESAC（10名专家）1.6°，10.1mESAC（20名专家）1.4°，9.4米ESAC（50名专家）1.6°，9.1m0.4%/2.4%/34.0%30.3%/49.3%/73.7%39.7%/55.9%/77.8%42.6%/59.6%/75.5%PoseNet [22] 4.4°，7.9m主动搜索[38] N/A，1.3mN/A57.3%/83.7%/96.6%AC-RF[7] DSAC++[8]专家选择ESAC（我们的）图6. 场景ID未知时的平均姿势精度。a）在生长环境中的准确性。场景ID必须由方法推断。b）场景分类的平均精度组合场景的结果。为了评估我们的主要贡献，我们创建了三个不断增加的环境，结合场景的7场景，12场景和两者（= 19场景）。我们通过为一个环境训练一个CNN来与DSAC++进行比较。为了公平的比较，我们使用我们的专家网络架构DSAC++，并增加其容量，以匹配ESAC我们还比较了一个合奏与专家选择（节。3.2）。我们在图中显示了我们的主要结果。6 a）测量具有以下误差的估计姿势的百分比5厘米和5厘米。DSAC++的准确性在较大的环境中明显下降，最终达到中等准确性在19个场景中，53.3%的图像重新定位。DSAC++仅依赖于局部图像上下文，随着视觉上相似场景的数量不断增加，局部图像上下文变得越来越模糊。尽管在消除场景歧义时在门控网络中使用全局图像上下文，但具有专家选择的集合表现甚至更差。一些场景过于相似，并且在许多情况下得分最高的门控预测是不正确的。通过在专家之间分配模型假设，ESAC以稳健的方式结合全局图像上下文边缘是最明显的19场景，最大的环境，88.1%的正确重新定位的图像。注意，增加的环境规模几乎不影响ESAC的准确性。对于具有已知场景ID的7个场景，其损失3.5%的准确度，并且对于12个场景，其损失小于1%，参见。图五.在补充中，我们包括一项关于端到端培训效果的消融研究。处理歧义。在图6b）中，我们示出了专家选择和ESAC的平均场景分类精度。在补充中，我们提供了额外的信息，在场景混淆矩阵的形式，以及视觉上相似的场景的例子。专家选择特别容易混淆包含模糊家具和办公设备的办公室ESAC在分配假设时结合全局图像上下文，在选择假设时结合几何一致性，可以可靠地区分这些场景图7. 大规模的户外重新定位。对于ESAC，我们通过场景坐标聚类划分环境，并为每个聚类训练一个专家。详情请参阅补充资料条件计算通过使用单一的单块网络，由于模型容量大，DSAC++的推理在19个场景上几乎需要1秒。ESAC只需要评估与给定测试图像相关的专家。在19个场景中，它平均在555ms内评估6.1个专家。我们也可以限制max。每幅图像的专家数量，以权衡速度的准确性，请参阅补充细节。户外重新定位。我们将ESAC应用于广阔连通空间中的户外重新定位，即杜布罗夫尼克数据集[27]和亚琛日数据集[39]。关于实验装置的详细情况，我们参考了补充资料，并在图中给出了主要结果。7.第一次会议。虽然我们在DSAC++上有很大的改进，但我们并没有完全缩小与经典的基于稀疏特征的方法（如ActiveSearch [38]）的性能差距。我们看到，增加更多的专家（因此模型容量）只在一定程度上有所帮助。这暗示了当前场景坐标回归方法[6，8]的局限性超出了环境大小。例如，我们用于训练的SfM地面实况重建包含大量的离群值，特别是对于杜布罗夫尼克。基于CNN的密集回归的训练可能对这种噪声输入敏感，开发弹性训练策略可能是未来研究的一个有希望的方向。6. 结论我们提出了ESAC，一个用于估计参数模型的专家网络的集合。ESAC使用门控网络在专家之间分发模型假设。这比选通网络仅选择单个专家的公式更鲁棒我们将ESAC应用于大型室内环境中的摄像机重新定位任务，其中每个专家都专注于单个房间，实现了最先进的精度。对于大规模的户外重新定位，我们在缩小与经典的基于特征的方法的差距方面取得了进展。鸣谢：该项目已获得欧洲研究委员会（ERC）在欧盟地平线2020研究和创新计划（赠款协议编号647769）下的资助。计算在德累斯顿工业大学信息服务和高性能计算中心（ZIH）a）重新定位精度b）分类准确性百分百百分之八十0%的百分比7场景12场景19场景7场景12场景19场景百分之五十百分之六十六点六67.4%百分之七十点三百分之八十三点三60.5%97.1%百分之五十三点三47.5%88.1%百分之九十点九百分之九十五点五62.1%百分之九十九点四53.0%百分之九十八点七7536引用[1] 卡里姆·艾哈迈德，穆罕默德·哈里斯·拜格，洛伦佐·托雷萨尼。大规模图像分类专家网络。在ECCV，2016年。2[2] 赤池裕通统计模型识别的新观点。战术行动中心1974年3[3] Rahaf Aljundi ， Punarjay Chakravarty ， and TinneTuytelaars.专家门：通过专家网络进行终身学习。在CVPR，2017年。二、三[4] ReljaArandjelovic´ ， PetrGronat ， AkihikoTorii ，TomasPa-jdla，and Josef Sivic.NetVLAD：用于弱监督位置识别的CNN架构。在CVPR，2016年。3[5] Vassileios Balntas ， Shuda Li ， and Victor AdrianPrisacariu. RelocNet：使用神经网络的连续度量学习重新定位。在ECCV，2018。3[6] Eric Brachmann、Alexander Krull、Sebastian Nowozin、Jamie Shotton、Frank Michel、Stefan Gumhold和CarstenRother 。 DSAC- 用于相机定位的可微分 RANSAC 在CVPR，2017年。一二三四五八[7] 放大图片作者： Eric Brachmann ， Frank Michel ，Alexander Krull ， Michael Y.Yang ， Stefan Gumhold ，and Carsten Rother.不确定性驱动的6D姿态估计的对象和场景从一个单一的RGB图像。在CVPR，2016年。3[8] Eric Brachmann和Carsten Rother。学习越少越好-通过3D表面回归进行6D相机定位。在CVPR，2018年。三、四、六、七、八[9] Samarth Brahmbhatt，Jinwei Gu，Kihwan Kim，JamesHays，and Jan Kautz.用于相机定位的地图的几何感知学习在CVPR，2018年。3[10] 利奥·布莱曼乱林。机器学习，2001年。2[11] 宋曹和诺亚·斯内弗利。基于图的位置识别判别学习。CVPR，2013。3[12] Tommaso Cavallari、Stuart Golodetz、Nicholas A Lord、Julien Valentin、Luigi Di Stefano和Philip HS Torr。在线相机重新定位的回归森林的动态适应。在CVPR，2017年。3[13] William E.戴明数据的统计调整。1943. 3[14] Martin A. Fischler 和 Robert C. 波尔斯 Random SampleConsensus：一个模型拟合的范例，应用于图像分析和自动制图。Commun. ACM，1981年。1、4[15] 作者声明：Robert E.夏皮尔一个简短的介绍来提升。载于IJCAI，1999年。2[16] Xiao-Shan Gao，Xiao-Rong Hou，Jianliang Tang，andHang-Fei Cheng.透视三点问题的完全解分类。TP

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

多领域专家网络用于准确的摄像机重定位模型参数拟合

摄像机目标定位 模型

用于图像恢复的多参数正则化模型

神经网络用于传感器网络定位的缺点

基于视觉双目摄像机如何定位

重定位是指讲逻辑地址转换成物理地址的过程，执行指令前完成重定位的方式被称为静态重定位，这个说法正确吗

有哪些算法可以实现激光重定位

效果好 激光 重定位 ndt icp csdn

基于多网融合特征挖掘的药物重定位算法 什么意思

动态重定位分区分配的地址变化公式是（）。 A物理地址=重定位寄存器的值 B物理地址=逻辑地址 C逻辑地址=重定位寄存器的值+物理地址 D物理地址=重定位寄存器的值+逻辑地址

动态重定位和静态重定位的区别

gnss高程拟合程序c#

什么是二进制可重定位文件

摄像机标定代码分析csdn

RSSI拟合的测距模型代码

为什么要引入动态重定位？如何实现？

unity 朝向摄像机

getcenterpoint.zip_中心点_图像边缘拟合_椭圆拟合_椭圆拟合中心_椭圆提取

vs 2022 符号重定位在哪

几种GPS高程拟合方法分析与比较

最新资源

摄像机目标定位模型

效果好激光重定位 ndt icp csdn

基于多网融合特征挖掘的药物重定位算法　　　什么意思