面向SfM的视图选择与优化配方的研究

38 浏览量更新于2023-10-13 收藏 1.45MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

面向SfM的Rajvi Shah、Visesh Chari和P J Narayanan印度海得拉巴工业理工学院Kohli智能系统中心抽象。视图选择是精确、高效地从运动中构造大尺度结构的关键步骤。大多数sfM方法使用几个固定的启发式标准去除不期望的图像和对，并且提出定制的解决方案以实现特定的重建目标，诸如效率、准确度或消歧。与这些不同的解决方案相比，我们提出了一种基于优化的配方，可以用来实现这些不同的重建目标与任务特定的成本建模和构建一个非常有效的网络流的配方，其近似的解决方案。由该选择机制带来的抽象将特定于数据集和重建目标的挑战与标准的SFM流水线分离，并改进其泛化。本文主要集中在应用这个框架与标准的SFM管道的准确和无重影的高度模糊的数据集重建。为了对这项任务的选择成本进行建模，我们引入了基于局部几何学的新的消歧先验我们进一步证明了该方法的通用性，通过使用它的大规模互联网数据集的准确和有效的重建，使用成本的基础上众所周知的SFM先验的一般目标关键词：视图图·运动结构·消歧1介绍视图图是大规模结构自运动（SFM）的一个重要输入结构。该图中的节点表示图像（也称为相机/视图），并且边缘表示节点之间的相对运动或对极几何形状（例如）。视图组使用以下步骤来实现图像采集：（i）选择用于重建的现有技术的方法，如增量[22，32，17]、分层[3，7，28，18]或全局[21，2，14，13，1]，都依赖于基于视图图的初始修剪步骤以进行有效和准确的重建。大型社区照片集通常显示视点偏差，因为某些视角比其他视角更受欢迎。由于高冗余，使用用于SfM此外，对于紧密聚类的图像，窄基线增加了三角测量的不确定性，导致大的重新投影误差。虽然孤立的错误例如可以通过鲁棒平均（全局SFM）和重复光束法平差（增量SFM）来克服，大量不正确的EG会使重建降级。因此，它的核心是为客户选择合适的信息和更多的信息2R. Shah和V.沙里和P J纳拉亚南图1：拟议甄选框架概述。通过适当地建模成本，框架可以选择满足期望的重建目标的视图图精度标准的自适应滤波方法应用固定的内点、基线、单应性、循环闭合等方法，以进行图像和图像对的保守选择/修剪虽然这些启发式方法对于各种各样的数据集都很有效，但它们不足以识别和去除在模糊场景中出现的一致噪声。成对匹配中的歧义出现是因为人造结构通常包括重复（窗户、拱门）、对称（圆形结构、相似的立面）和大的重复元素（尖塔、圆顶）。虽然标准的采样流水线是鲁棒的，以单独地处理大量不准确的EG，但是对于具有高模糊性的场景，这样的错误EG形成一致的集合，从而导致沿着对称性的不准确的eg、相关联的eg、或不准确的eg先前的工作提出了量身定制的解决方案来处理这种具有针对性的hlocal/global结构的情况[ 34，16，11，29，10，33]。虽然这些方法在具有挑战性的数据集上显示出良好的结果，但它们不在标准SFM管道的框架内操作。我们相信，这些特征可以导致更好的重建，并且可以在一个完整、一致和无噪声的视图图中提取一个更完整、一致和无噪声的视图图，以进行准确和有效的我们的工作的主要动机是形式化的核心问题的视图图选择，以满足不同的目标在一个统一的框架。我们提出这是一个优化问题的图像和对选择成本，并提出了一种新的基于网络流的近似其有效的解决方案。这种抽象允许通过插入特定于任务的成本来实现不同的目标，同时保持总体选择和重建框架相同。图1示出了该框架的概要我们主要集中在这个框架的应用程序的准确和无重影的重建高度模糊的数据集，并显示如何成对的选择成本可以使用本地pri- ors建模，还介绍了一个新的基于上下文的先验。此外，我们还展示了它的实用性，准确和有效的重建一般的大型互联网地标数据集的成本建模使用常用的本地启发式。据我们所知，这是系统化视图图选择的第一次尝试所提出的框架带来了更大的灵活性和通用化的标准SFM管道和它的应用程序不限于特定的用例。一个统一的框架也土地最佳视图图选择作为一个学习问题，如果和当任务特定的地面实况数据变得可用。面向SfM的32相关工作在sfM文献中，视图图选择不是在一个统一的意义上处理的，而是针对特定的选择目标设计特定的方法为了效率和完整性，增量/分层自适应方法使用不同的标准和选择策略来计算生成子图[24，15，8，28]对于全局方法，子图的最优性通常与一致性和鲁棒性目标有关[13，35，5，27，14，31]。我们的框架是不是一个一刀切的替代专门的方法，但提供了一种机制来表达不同的objec- tives使用特定于任务的图像和成对的选择成本。在这里，我们重新审视以前的作品有关的准确性和具体目标的消歧的一般目标，并讨论他们的相关性，我们的工作。SfM方法中的隐式视图图过滤从输入视图图中修剪不期望的图像/对对于增量和全局SfM方法都是隐式的，并且通常使用各种标准上的阈值来完成。增量sfM的准确性取决于种子成对重建和下一个最佳视图选择。宽基线种子对选择使用基于极线内点（不适合于全息图）[22，23]或线内点（将种子对定义为平面、旋转或一般）[ 17]的标准来确保。对于下一个最佳视图选择，三角测量角度、内点或对应分布被用作标准[22，17]。全局sfM方法首先使用相对旋转来估计全局旋转，然后是全局平移估计[21，2，13，1，30，27]。在[2]中，为了减少用于基于MRF的估计的相机参数的状态空间，使用相对扭曲和不寻常的纵横比作为视图过滤准则。使用相对旋转的李代数平均[4，5，35，14，13，1，27]的方法通常会丢弃具有未知校准的图像，并使用循环一致性检查[35，14，13]和鲁棒成本函数处理离群值。许多这些启发式很容易纳入图像和成对选择成本到我们的框架。采用全局推理（诸如循环一致性）的其他试探法可以潜在地被重构为成对试探法。消歧的SfM方法消歧的初始方法集中在推断缺失的对应关系[34]，并将其用作相机姿态推断[16]或一致视图图扩展[11]的全局目标的先验。其他方法包括基于社交网络原理的跟踪细化[29]，几何感知特征匹配[19]，三元组一致性图扩展[20]以及基于测地流形的模糊性检测和校正[33]。消除歧义的重建后方法使用反投影3D点来识别冲突的观察[9，10]。与这些专门的算法相反，我们使用我们的选择框架，成本建模为消歧先验的组合。我们还提出了一种新的基于上下文的成对选择先验，其基于缺失的对应性和冲突的观察，并且与[9]不同，它可以在重建前计算。我们的解决方案是更一般的和非常有效的相比，现有的方法，仍然恢复正确的结构，为各种模糊的数据集。4R. Shah和V.沙里和P J纳拉亚南3将视图图选择作为优化设输入视图图为G=（V，E），其中顶点（节点）的集合V表示图像，并且边的集合E表示成对对极几何（EG）。目标是选择满足期望目标的节点子集V’和边子集E’（子图G’=（V’，E’我们将用于图像选择的索引或变量表示为δi，并且将配对表示为δij。其中，ea chδi，δijc或eppoteima m am 直观地，该问题可以表示为形式的最小化，arg minf（δ）=Σqiδi+Σ Σqijδij（1）i i jΣ Σ受δi≤N，δij≤M（2）δij≤δi，δij≤δj（3）什么时候i∈V<，|V|、M <|E|i和δ ij的作用或可变δ i和δ ij的作用充分利用了对信息vi和pij 的依赖性。 Q是选择新视图的成本，并且Qij是选择边eij的成本，并且这些成本在最小化意义上被假定为负。N和M指示关于所选择的图像和对的最大数量的阈值2）的情况。图像对（i，j）的选择要求构成该对的图像i和j两者也必须被选择（等式11）。（3）第三章。对这些成本进行适当的建模可以表达视图图选择的不同目标在本文中，我们讨论了成本建模的准确和无鬼重建使用一些相关的先验。然而，这可以用于使用文献中已知的各种其他先验或甚至学习成本来实现其他目标。这个最小化问题可以表示为一个二进制整数线性规划（BILP），它是NP完全的.为了找到一个精确的最优解，BILP的股票求解器使用类似分支定界的技术来智能地迭代所有可能的解决方案。然而，由于NP-完全性质的问题，这是不可行的，以计算精确的最优解，我们感兴趣的许多问题。事实上，在我们的实验中，即使对于玩具大小的问题，基于分支定界的ILP一个标准的技巧，以实现有效的解决方案与一些近似是使用一个线性规划（LP）松弛与舍入，以获得一个整数的解决方案。然而，在初步的实验中，使用这种方法获得的解决方案似乎太不准确，是有用的。此外，该公式没有考虑所选子图的连通性为了解决这两个问题，我们提出的视图图选择的最小成本网络流（MCNF）的问题（见补充材料的更多讨论），保证我们在多项式时间内的二进制解决方案，并鼓励在选定的子图的连接。在下一节中解释所提出的MCNF面向SfM的54作为MCNF问题的McNF问题中的网络是一个至少有一个源节点和一个汇节点的有向图我们将网络表示为T=（N，A），其中N表示节点的集合，并且A表示有向边/弧的集合。网络中的每条边（i，j）具有与让通过一个单位流相关联的成本cij，并且由边引起的成本与通过它的流（xij）成比例每条边还具有关于可以通过它的流量（xij）的下限和上限（源发送汇聚节点必须接收的特定流单元在所有其他节点处，必须保存流。让我们将总流量表示为F，将节点i处的剩余流量表示为bi，则当i为源时bi=F，当i为汇时bi=-F，否则bi= 0。这些约束被称为等流约束（e.f. c）。McNF问题是关于在不违反容量和流约束的情况下，以最小的代价将总流从源发送到汇这种具有流量和容量约束的最小化可以被描述为，Σ尽量减少（i，j）∈AΣcij xij（5）Σ受制于，{j：（i，j）∈A}xij−{j：（j，i）∈A}xji=bii∈Ne.f.c（6）lij≤xij≤uij（i，j）∈ Ac. c（7）网络构造为了将视图图选择作为一个Mc NF问题，我们如下构造网络。对应于{δi}、{δij}上的图像/对集合i的所有指示符变量都是通过使用在网络w或k中的arcs（i，j）∈A来表示的，源节点和宿节点是辅助的。由于视图选择变量被表示为弧，因此视图图中的每个顶点i对应于网络中的两个节点（2 i-1，2 i）。对应于视图图中顶点i的每个奇数节点（2 i-1）连接到源节点，类似地，每个偶数节点（2 i）连接到sinknode。对于所述对的所述描述是选择可变的{δi，j}，将较低索引图像的偶数节点与较高索引图像的奇数节点连接。该选择防止网络中的循环形成总而言之，网络|N|= 2 |V| +2个节点和|一|为|3 V|+的|E|弧图2中总结了这些弧连接以及图示示例。边类型连接节点容量Source：（0，2 i−1）i∈ V，0：source[0，F]Sink：（2 i，|V|+1）i ∈ V，|V|+1：sink[0，F]图像：（2 i−1，2 i）i ∈ V[0，degree（i）]成对：（2 i，2 j − 1），e（i，j）∈ E，i = 80% |V|得双曲正弦值. |Es|>= 5 |V|并使用第4节中描述的方法通过有效地搜索适当的流值来获得期望的子图。6.2一般数据集重建我们表明，所提出的框架是通用的，也可以用于重建标准的S-F-M数据集的准确性和效率的一般目标，通过建模图像和对选择成本与众所周知的和常用的S-F-M先验。对于这项任务，我们显示了两个数据集的结果，（i）MvsS基准[25]和（ii）互联网地标[22，12]。这些数据集使用增量[32]和全局SfM [26]管道重建，使用我们的方法选择的完整vGs和vGMvsS基准测试由三个玩具大小的数据集组成，具有地面实况（GT）相机位置。表2a示出了，对于两种sfM方法，所选择的基于VGS的重建与基于全VGS的重建相当选择这些选择的流量参数，以便选择所有顶点（用于GT比较）。对于大规模的互联网地标数据集，我们重建的场景使用选定的vGs和全vGs与全球的SfM管道（通常略低于增量SfM方法的鲁棒性），以比较重建精度w.r.t.基于SFM的增量基线重建面向SfM的13(a) MVS数据集统计数据集V G|V||E|测试选择Nc犯错误犯错误 Terrtsfm巴黎圣母院S 65916970 1.744 6281.41 0.072传真：714 46746- -一种682 1.53 0.089 0.217 1760万神殿S 761 15975 3.721 754 1.06 0.098 0.310 1785F781 139630-775 1.31 0.125 0.309 3601圣彼得电话：+86-10 - 88888888传真：+86-10 - 88888888电话：1155 119977-1111 1.458 0.028 0.496 1367(b) 互联网地标数据集统计表2：针对常规数据资产的系统和恢复策略。 Labels' S '和' F '显示选定和完整的v g s，|V|、|E|-顶点和边缘，N c - #重建的相机，R err、T err和r err -中值旋转、平移和重投影误差，t sel和t sfm -用于v g选择（累积）和s f m重建的运行时间。(in缺乏地面实况）。表2b示出了这些数据集的选择和重建统计。可以看出，与具有全vGs的重构相比，具有所选择的v gs的重构是相当的或更准确的，并且具有所选择的vGs的SfM运行时间显著更短。为了恢复的结构的完整性，期望在子图中具有尽可能多的顶点为了效率，希望选择更少的边，然而太少的边（低顶点度）可能导致许多短特征轨迹和高重投影误差。考虑到这些因素，我们保持|VS|= 90% |V|和|Es|=20 |V|作为流搜索标准。所选择的v_G重建在质量上类似于或优于全v_G重建（在补充材料中示出）。7结论和未来工作我们提出了一种新的和有效的，统一的框架，从初始视图图，可以实现不同的选择目标，适当建模的图像和成对的选择成本选择子图。该机制提供了一种有趣的方式来将数据集和任务特定的挑战与标准的流水线分离，从而提高其通用性。我们证明了这个框架的效用任何一种重新定义方法都可以根据实验室的操作来执行，以实现其可扩展性用加权组合（ci=kαk fk（i））代替手工设计的成本许多已知和设计的先验。这种形式的成本公式将具有足够的表达能力，以满足各种各样的选择目标。问题的建模成本，以满足所需的目标，然后转化为设计新的先验添加到组合，并找到正确的权重为先前的组合。将来，我们希望探索这一方向，以扩展我们的框架。虽然这是不平凡的，但它可以导致搜索/学习新的先验和组合权重的有趣的研究方向。鸣谢我们感谢谷歌印度博士奖学金和印度政府科学技术部的印度数字遗产项目资助这项工作。数据集v G|V||E|增量SfMR错误T错误犯错误全球SfMR错误T错误R错误城堡S3049F 1182.44 0.15 0.382.22 0.22 0.342.21 1.29 1.012.17 7.49 1.14喷泉S1121女性252.90 0.01 0.292.90 0.01 0.722.82 0.29 0.352.82 0.27 0.59赫尔热苏2555F1282.36 0.03 0.502.38 0.02 0.432.38 0.75 1.182.39 0.56 1.7114R. Shah和V.沙里和P J纳拉亚南图7：针对小的模糊数据集的重建（按照表la编号）：（A）指示基于完整的VG的重建，（B）指示基于选定的VG的重建。图8：我们在大型模糊数据集上的重建结果的比较（按照表1a编号）。对于8至11，左下角-具有完整vg的不正确模型，右下角-使用[ 10 ]的重建后流水线正确分割模型的结果，以及顶行-我们的结果（颜色编码以匹配[ 10 ]的分割）。对于12，顶部-完整的v g结果，底部-我们选择的结果。书目[1] A. Chatterjee和V. M.戈文杜高效、稳健的大规模旋转平均。在IEEEICCV会议录中，2013。第1、3条[2] D. Crandall，A. Owens，N. Snavely和D. Huttenlocher大型结构运动离散-连续优化。在Proceedings IEEE CVPR，2011中。第1、3条[3] R. Gherardi，M. Farenzena和A. Fusiello提高层次结构和运动的效率。IEEE CVPR，2010年。1[4] V. M.戈文杜用于全局一致运动估计的李代数平均。IEEE CVPR，2004年。3[5] V. M.戈文杜运动平均的鲁棒性。ACCV，2006年。3[6] R. Hartley和A.齐瑟曼。计算机视觉中的多视图几何。剑桥大学出版社，2003年。八、十[7] M. Havlena，A. Torii，J. Knopp，and T.帕杰拉基于相机三元组的原子3d模型的运动随机结构。IEEE CVPR，2009年。1[8] M. Havlena，A. Torii和T.帕杰拉通过图形优化从运动中获得高效结构。在诉讼ECCV。2010. 3[9] J. Heinly，E.邓恩和J M.弗拉姆从不可区分的几何体恢复正确的重建。在Proceedings 3D Vision（3DV）中，2014年。3[10] J. Heinly，E.邓恩和J M.弗拉姆稀疏三维重建中重复场景结构的校正在ECCV会议中，2014年。二、三、八、十、十一、十二、十四[11] N. Jiang，P. Tan，and L. F.阿昌看到两个没有混淆：高度模糊场景中的动态结构。IEEECVPR，2012年。二三八十一[12] Y. Li，N. Snavely和D. P. Huttenlocher。使用优先化特征匹配的位置识别。在ECCV会议记录中，2010年。12[13] P. Moulon，P. Monasse和R. Marlet相对运动的全局融合，用于从运动中获得鲁棒、准确和可扩展的结构。在IEEE ICCV会议录中，2013。第1、3条[14] C. Olsson和O. 恩奎斯特无序图像集合的运动稳定结构。斯堪的纳维亚图像分析会议（SCIA），2011年。第1、3条[15] R.拉古兰角吴，J. - M. Frahm和S. Lazebnik使用图标场景图的地标图像集合的建模和识别International Journal of Computer Vision，95（3），2011. 3[16] R.罗伯茨，S。辛哈河Szeliski，D. Steedly和R.塞利斯基结构对于具有大的重复结构的场景，从运动IEEE CVPR，2011年。二三八十十一16R. Shah和V.沙里和P J纳拉亚南[17] J. L. Scho¨nbergerandJ. -M. 啊。从存储器中恢复。InProceedings IEEE CVPR，2016.第1、3条[18] R.沙阿，A. Deshpande和P.纳拉亚南多级sfm：从运动重新审视增量结构。在Proceedings 3D Vision（3DV）中，2014年。1[19] R. Shah，V. Srivastava，and P.纳拉亚南运动恢复结构应用的几何感知特征匹配在 ProceedingsIEEEWinterConferenceonApplications of Computer Vision，2015中。3[20] T. Shen，S. Zhu，T.方河，巴西-地Zhang和L.权基于图的运动恢复结构一致性匹配。在Proceedings ECCV，2016中。三、十、十一[21] S.辛哈D. Steedly和R.塞利斯基从运动到结构在ECCV RMLE研讨会上。2010年。第1、3条[22] N. Snavely，S. M. Seitz和R.塞利斯基摄影旅游：在3d中探索照片集。ACM事务处理图表，25（3），2006. 一二三十二[23] N. Snavely，S. M. Seitz和R.塞利斯基从互联网照片集建模世界。国际计算机Vision，80（2），2008. 3[24] N. Snavely，S.M. Seitz和R.塞利斯基从运动中提取有效结构的骨架图IEEE CVPR，2008年。3[25] C. Strecha，W. von Hansen，L. J. V. Gool，P. Fua和U. Thoennessen.高分辨率图像的基准相机校准和多视图立体。IEEE CVPR，2008年。12[26] C. 斯威尼Theia多视图几何库：教程参考。加州大学圣巴巴拉分校，2015.12[27] C. Sweeney，T.Sattler，M.Turk，T.Hollerer和M.波勒菲斯优化运动恢复结构的视图。IEEE ICCV，2015年。3[28] R.托尔多河Gherardi，M. Farenzena和A. Fusiello未校准图像的分层结构和运动恢复。计算机视觉与图像理解，140，2015。第1、3条[29] K. Wilson和N.很聪明SFM的网络原则：用局部上下文消除重复结构的歧义。在IEEE ICCV会议录中，2013。二三八十一[30] K. Wil

下载后可阅读完整内容，剩余1页未读，立即下载