基于运动和外观数字图像中的树结构重建

125 浏览量更新于2023-10-13 收藏 2.03MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

从振动薛天凡*1，吴佳军 *2，张周通2，张成凯2，JoshuaB.Tenenbaum2和William T. 弗里曼1， 21谷歌研究2MIT CSAIL抽象。人类从物体的外观和运动两方面来认识物体的结构;通常，运动有助于解决当我们只观察物体外观时出现的物体结构中的模糊性。然而，存在特定场景，其中外观和空间-时间运动信号都不是信息性的：遮挡的细枝可能看起来是连接的，并且具有几乎相同的运动，尽管它们属于不同的、可能不连接的分支。我们建议通过运动信号的频谱分析来解决这个我们提出了一种新的配方的树结构的基础上，基于物理的链接模型，并验证其有效性的理论分析，数值模拟和实证实验。有了这个配方，我们使用非参数贝叶斯推理重建树结构的光谱振动信号和外观线索。我们的模型表现良好，在识别层次树结构，从现实世界的视频树木和船只。关键词：振动·树状结构·层次贝叶斯模型1介绍在视觉感知中，运动信息通常有助于解决外观歧义。动物可能会用伪装的衣服来隐藏自己，但它们不太可能将自己的运动与背景相匹配，例如在微风中摆动的树叶[6]。在医学成像中，可能很难将血管（或纤维）纯粹从它们的外观中分离出来，但是一旦血管开始振动，这种区别就变得清晰认知科学中的广泛研究也表明，人类，包括幼儿，从外观和运动线索中识别物体[37]。计算机视觉研究人员已经将运动和外观信息相结合，以解决一系列任务[1，34]。Bouman等人提出了基于它们的外观和振动来估计物理对象属性[3]。Wang等人提出了分层运动表示[42]，其已广泛用于对象分割和结构预测[23，38]。在本文中，我们专注于树结构估计。这个问题甚至更具挑战性，因为运动和外观线索都可能无法区分像素* T。Xue和J.吴对这项工作同样作出了贡献2T. 薛，J.Wu，Z.Zhang C.，中国古猿科张，J.B. Tenenebaum，W.T. 弗里曼P1P3t（a）P1P3P2（b）第（1）款1050-5-100 50100帧索引（c）第（1）款0.20.150.10.0500 5 10 15选定频率（d）其他事项（e）输入提取振动估计的树结构Fig. 1. 我们想要推断视频（a）中的树的分层结构。基于单个帧的推断具有固有的模糊性：图（b）显示了一个例子，从外观上很难判断点P1是否连接到P2（橙色曲线）或P3（蓝色曲线）。时域运动信号没有多大帮助，因为这些分支具有几乎相同的运动（c）。我们发现，差异是显著的频域（d），从中我们可以看到P1更有可能连接到P2，因为相似的光谱因此，我们开发了一种算法，推断树结构的基础上振动光谱和外观线索。结果示于（e）中。不相交的分支。我们在图1中展示了一个示例。图1中的三个点{Pi}有两种可能的解释：或者P1和P2，或者P1和P3可以在同一分支上。由于自遮挡，仅从它们的外观很难推断出潜在的连接仅使用时间运动信息来解决这种模糊性也是具有挑战性的：这三个节点的运动由根枝的振动控制，因此它们共享几乎相同的轨迹（图1c）。我们建议将频谱分析来处理这个问题。这受到我们的观察的启发，即不同分支的像素通常在其频率响应的频谱中具有不同的模式，尽管它们具有相似的空间轨迹。如图1d所示，与P1和P2相比，P3在某些频率下具有不同的振幅;直观地和理论上（在第3节中讨论），P3更可能在单独的分支上。我们的树振动公式建立在植物学领域的基于物理学的链接模型的基础上并对其进行了扩展[33]。在这里，我们推导出树结构的一个关键属性：每个分支相对于根的振动是线性时不变（LTI）系统。有了这个属性，我们可以从树的频率响应中推断出树中每个子分支的固有频率，并根据推断出的固有频率对节点进行我们还提供了合理的理由，通过理论分析，数值模拟和实证实验。基于我们的树配方，我们开发了一个分层分组算法来推断树结构，使用频谱运动信号和外观线索。由于树中的每个节点可能连接到不确定数量的孩子，我们的推理算法采用非参数贝叶斯方法。为了进行评估，我们收集了人工和现实世界的树结构对象的视频我们证明，我们的算法在识别树结构，使用外观线索和振动频谱。我们将我们的算法与使用空间运动信号的基线进行了比较;我们还进行了消融术，以记录消融术的最终性能由于树结构在现实生活中广泛存在，我们的模型具有广泛的应用。在这里，我们展示了其中的两个：从阴影中看到形状，以及从视网膜视频中连接血管。P3P1和P1P2P3位移功率谱从振动3我们的贡献是三方面的。我们的主要贡献是表明，微小的，几乎不可见的对象运动可以揭示对象的结构。我们的模型可以解决模糊的树木结构估计使用光谱信息。其次，我们提出了一种新的，基于物理的树配方，我们可以估计每个子分支的固有频率第三，我们设计了一个层次推理算法，使用非参数贝叶斯方法来预测树结构。我们的算法在真实世界的视频上取得了良好的性能。2相关工作结构化预测的动议。计算机视觉的研究人员一直在使用运动信号进行各种任务[1，34，39，47]。特别是对于结构化预测，分层运动表示[42]已经被广泛研究和应用[23，38]。这些论文在时间域中对运动信号进行建模;它们不适用于对象可能仅具有细微运动差异的场景。关于运动的谱分析，Fleet和Jep的开创性工作-son [10]讨论了相位信号如何有助于估计物体速度。Gautama和Van [14]扩展了这项工作，提出了一种基于相位的光流估计方法。Zhou等[48]还讨论了相位信息如何帮助识别对象运动。最近，也有许多关于可视化和放大来自视频的细微运动信号的作品[46，7]，Rubinstein等人。在[35]中进行了彻底的审查。树结构估计的问题已经在计算机视觉中被广泛研究，特别是在医学成像[11，41，40，43]中，主要来自静态图像。在本文中，我们将探讨如何在视频中的运动信号可以帮助结构化预测，除了外观线索。虽然我们目前采用的是简单直观的外观模型，但将更复杂的外观模型纳入我们的方法中是很简单的。树振动建模。树木振动是植物学领域的一个重要研究领域[20，31]。Moore和Maguire [31]通过检查风中树木的固有频率和阻尼比，回顾了概念最近，Jameset al.[20]回顾了使用动态分析方法的树木生物力学我们制定的树木振动的集中质量程序的基础上。相关文献包括树木的弹簧-质量-阻尼器模型，作为单个质量点[30]，或作为代表树干和树枝的耦合质量的复杂系统我们的配方也认为树作为一个系统的耦合质量，但不同的墨菲等人。[33]在只研究单层结构的基础上，探讨了多层的层次树结构。贝叶斯感知理论研究人员已经开发了一般用于人类视觉感知的贝叶斯理论[24，26，32]，特别是用于物体运动感知的贝叶斯理论[4，44]。我们的推理算法从最近的层次贝叶斯模型的对象运动Gershman等人的灵感。[16]，它采用嵌套中国餐馆过程（nCRP）[2]作为对象结构的先验。4T. 薛，J.Wu，Z.Zhang C.，中国古猿科张，J.B. Tenenebaum，W.T. 弗里曼2(a)（b）第（1）款图二、（a）分层波束结构。（b）一个分支的受力分析（一个在（a）中由虚线矩形标记3制剂在这里，我们提出了我们的配方，恢复树结构的时间复杂的光谱顶点。我们首先引入一个基于物理的分层链接模型，将树表示为一组具有一定质量和刚度的梁（图2a）。使用这个模型，我们推导出一组节点振动的常微分方程（ODE）（第3.2节），并证明了一个重要的性质（第3.3节）：在一定的假设下，树的每个子分支都是线性时不变系统贝叶斯推理算法利用该属性进行结构估计（第4.1节和第4.2节）。3.1一种基于物理的链路模型我们使用刚性链接模型来描述树的振动，如图2a所示。在该模型中，树的每个分支i被建模为具有一定质量mi和长度li的刚性梁。在均匀质量假设下，分支的质心在11处。每个分支通过具有刚度k1的扭转弹簧连接到其母分支。我们的模型涉及到更简单的，一层的物理模型从墨菲等人。[33]，他们试图计算所有梁的质量和刚度我们观察到，这是不切实际的，在实际数据中的噪声和遮挡的存在。相反，我们推导出一组非线性常微分方程（ODEs），描述了树的振动和它的结构和物理性质之间的关系。我们用树枝的偏离角{θi}来描述树的振动。如图2b所示，设θi为当树静止时（除重力外没有外力）从树枝到树枝的偏离角，并且设θi为当树振动时从其静止位置的偏离角（θi随时间变化）。为了导出θ i的控制方程，我们首先将牛顿定律应用于一个给定θi的随机变量，其中θi的值为Σi=−ri+c∈Circ+mg，（1）其中rc∈R2是分支c施加在其父分支上的力，Ci是分支i的子分支的集合，g是重力加速度。负号在本章中，我们使用小写字母a表示标量，粗体小写字母a表示向量，大写字母A表示矩阵。我们将矩阵乘积记为Ab，其中A ∈ Rn×m，b ∈ Rm.CΘ^p+Θpp ^我我p我从振动5O我因为我们需要找到新的法律，而新的法律也需要这样做。Branchi的ai∈R2定义为质量的随机中心的加速度。另外，我们还有旋转方程，Σ ΣIiωi=−kiθi+kcθc+ri×xi+rc×xi，（2）c∈Cic∈Ci当存在不确定性的情况下，ω steci是平均加速度，θc是平均加速度角，xi是移动的，ki是它所连接的扭转弹簧的刚度。此外，分支加速度ai与其端点ai〇的加速度相关，通过ai=aio+ωi×xi+ωi×（ωi×xi），（3）式中ai∈R2为结点的加速度.因此，分支i的角速度和角加速度为ωi=θi+ Σp∈Piθpanddωi=θ¨i+Σp∈Piθ？p，（4）其中Pi是分支i的祖先的集合。这些方程不包括虚拟力。所有的量都是参考坐标系下的全局值。最后，将i上的分支加速度（ai和aio）和2上的角加速度ωi替换为i上的Equ，以及i上的n个分支ri之间的角加速度ω i，得到了关于所有偏差角{θi}的常微分方程。Iifi（θ¨）=−kiθi+Σc∈Cikcθc+ri（θ，θ，θ¨）×xi+Σc∈Circ（θ，θ，θ¨）×xi，（5）其中，r_i（θ，θ，θ¨）是θ，θ，θ¨的向量或函数。请参阅我们的补充材料，对其进行详细的定义。3.2节点振动由于正弦和二次项，ODE（等式5）是高度非线性的为了解决这个问题，我们首先在其稳定解附近线性化方程我们假设每个分支i的偏差角θi很小，忽略所有O（θ2）项。在此基础上，求出了一个全局最优解O（θ2）忽略，因为根据能量守恒，势能块的1kθ2是它的kiηeη2的对应值。2 2我们现在可以在上述假设下推导出完全线性系统Mθ¨+Kθ=0，（6）其中M和K是两个矩阵，取决于树的结构及其物理性质，包括惯性矩（I）、质量（m）和刚度（k）所有分支机构。在实践中，从输入视频，更容易测量每个节点的2D移位，而不是每个分支的旋转为了导出来自Eqion6的所有节点的2D移位的ODE，我们没有节点i的我们有Σyi+yi=ljn（θj+θj），（7）j∈Pi6T. 薛，J.Wu，Z.Zhang C.，中国古猿科张，J.B. Tenenebaum，W.T. 弗里曼叶根根根叶叶其中n（θ）=（cosθ， sinθ），lj是分支j的长度（回想一下，Pi是分支i的祖先的集合）。令y是所有节点的2D移位的级联将等式7代入等式6，我们得到Ny¨+Ly=0，（8）其中N和L是取决于M、K、Ij和θj的矩阵。当y=y¨=0时，常数项是可计算的。请参阅我们的补充材料，以进行详细推导。3.3各支行基于二阶ODE，我们可以推断每个子分支的模式，并使用它们使用以下属性将节点分组为分支。性质1（每个子分支是一个LTI系统）想象一个分支在-会产生强迫振动。让yi（t）和yi（t）是根的位移和其叶节点之一。如果位移的根为α1·y1（t）+α2·y2(t) ，其中α1，α2∈R，叶为α1·y1（t）+α2·y2（t）。这是等式8的推论，等式8示出节点的位移满足线性二阶ODE。系统也是时不变的，因为等式8中的所有矩阵不随时间改变。我们的工作的关键观察是，我们可以推断出每个子分支的自由振动模式，就好像该子分支与树的其余部分断开设S是子分支中的节点的集合;设Yi（η）是该分支中第i个节点的位移的时间谱（i∈S），其中η是频率指数;设Y根为根位移的时间谱。因为每个子分支是LTI系统，所以子分支的频率响应是Yi（η）Yi（η）=， ηη。（九）Y根（η）众所周知，当没有阻尼时，振荡系统的固有频率与其共振频率一致[12，第4章]。在我们的例子中，这表明子分支的固有频率与该分支的频率响应的模式相同。作为说明，图3a示出了具有两个子分支（Y2- 4和Y2 - 4）的树。Y5−7）。所有节点具有相似的功率谱，因为它们的振动由根部（Y1）的振动主导为了区分两个子分支的频谱，我们计算每个节点的频率响应，即根的频谱与每个分支的频谱之间的比率。如图3b所示，两个分支的频率响应之间存在明显差异每个频率响应的模式也与每个子分支的自由振动模式相匹配，就好像它们与根部分离一样（见图3c和d）。然后，我们可以根据节点的频谱响应将其分组到不同的子分支中，因为每个子分支的固有频率取决于其频率。在阻尼较小的情况下，频率响应模态与自由振动模态之间的差异也较小。从振动7234(a) 整个树(b) 频率响应(c) 仅左子树567(d) 仅右子树图3.第三章。合成树的频谱分析。直接计算每个节点的振动的功率谱无助于推断树结构，因为所有节点具有相似的功率谱（a）。通过将每个节点的频谱除以根节点的频谱，我们获得每个节点的频率响应。我们现在清楚地看到两个子树（b）之间的差异。每个频率响应的模式也匹配每个子树（c）和（d）的自由振动的模式。固有的物理性质，如质量和刚度。实际上，频率响应的模式在存在噪声和阻尼的情况下不是鲁棒的测量因此，我们根据节点的归一化功率谱和相位，在4.1节中描述的外观信息的帮助下，对节点进行4算法我们现在介绍我们的结构估计算法的基础上，树公式。我们的算法有两个主要组成部分：从视觉输入中提取运动和外观线索的识别模块，以及预测树结构的推理模块。4.1提取运动和外观线索我们使用自下而上的识别算法从具有给定兴趣点集（图4b）的输入视频（图议案给定一个输入视频，我们首先手动标记第一帧中的所有节点，然后使用光流随时间跟踪它们有许多跟踪算法可以提取稀疏关键点的轨迹[18，19，28，36]，但我们选择计算密集运动场有两个原因。首先，大多数振动是小的，并且已知光流在以子像素精度捕获小运动时表现良好其次，稀疏跟踪算法，如KLT跟踪器[28]，可能会遇到孔径问题，因为大多数分支仅包含一维局部结构。另一方面，密集光流2345678T. 薛，J.Wu，Z.Zhang C.，中国古猿科张，J.B. Tenenebaum，W.T. 弗里曼(I)输入(II)振动(IV)树结构估计(a)视频(b)关键点(c)光谱（安培）(d)光谱（相位）(e)轮廓(f)闭合(g)地板填充(III)外观(h)过完全连通性(i)上下级关系见图4。概述我们的框架。我们拍摄一段视频（a）和一组关键点（b）作为输入（I）。我们使用关键点的归一化振幅（c）和相位（d）作为我们的振动信号（II）;我们还通过几个中间步骤（第4.1节）获得外观线索（III）。最后，我们应用我们的推理算法（第4.2节）进行树结构估计。算法聚合来自其他位置的信息，因此它对孔径问题更鲁棒。具体地，我们首先计算从序列[27]中的第一帧到帧t之一的密集流场。然后我们得到每个节点的轨迹通过内插从密集运动场的序列。我们进一步对每个节点的轨迹独立地应用傅里叶变换以获得其复谱Y（图4-II），并从五阶谱包络中提取其模式[13]。我们使用这些模式的归一化振幅（图4c）和相位（图4d）进行推断，如第4.2节所述。外观.我们使用过完备连接矩阵作为我们的外观线索。如图4-III所示，我们通过以下步骤计算矩阵：获得等值线图、计算每个兴趣点的闭包、从所有闭包泛洪填充等值线图、以及将边缘添加到交叉点。给定输入视频的第一帧，我们首先使用阈值为0.5的Canny边缘检测器然后，对于每个兴趣点i，我们考虑到i的距离不大于ri的所有轮廓像素Si。我们搜索最小的ri，使得如果我们将i连接到Si中的所有像素，则每两个相邻线之间的角度不大于30◦。我们称Si为点i的闭包（图4f）。然后，我们应用最短路径算法来获得所有节点的连通性图。Our_gor_it_h_m是Dij_k_s_t_a的算法[ 8]的变体，其中存在连接到并集中的像素的假设起始点。所有闭包的成本为0。如果两个8路相邻像素都在等高线图上，则它们之间的成本为0，否则为1。然后，该算法实质上是同时扩展所有闭包当它完成时，我们连接两个关键点，如果它们对应的闭包在扩展后相邻（图4g）。为了平衡每个闭包的扩展速率，我们使用元组（ci，di）作为优先级队列中任意像素i的条目，其中主键ci是传统从振动9算法聚类（Y，r）Dat a：NodeswithcomplexspetraY={Yi}anddthrot et t1计算这棵树2对于每个节点ido3Yi←Yi./ Yr4端5基于外观和频率的6Let{Sj}j= l，···，k等于所有k个计算单元对于j=l，···，k为8选择子根rj9Callcluster（YSj，rj）re cursively算法1：我们的层次聚类算法458 910 116723地面(a) 深度0(b) 深度1(c) 深度2图五、说明我们的分层聚类算法。详见第4.2节。表示图形上从i到原点的距离的术语，二级关键字为di 是i到其闭包中心的切比雪夫（L∞）距离最后，在2D图像中观察到的连接点可能是一个实际的分叉，也可能只是两个断开的重叠分支。为了处理这种情况，对于所有有4个或更多邻居的点，我们在每对邻居之间添加一条边，其角度不小于135◦。这导致了一个过完备的连接矩阵E（图4h），我们将其用作我们的外观线索。4.2推理以玩具为例。我们首先从一个层次化推理算法的高级概述开始，以及一个具有三个层次结构的玩具树（图5）。如算法1所示，给定根，我们的算法首先计算其余节点的自由振动（步骤I），将它们分组为几个簇（步骤II），然后递归地为每个簇找到树结构（步骤III）。在这个以v1为根的玩具树中，算法将其他节点分为两个簇：（v2，v4，v5）和（v3，v6，v7，. . . ，v11），如图5b所示。对于每个子树，该算法递归地将其自身应用于更精细级别的树结构。在右分支中，我们得到两个二级子树（v6，v8，v9）和（v7，v10，v11）。第一步：计算自由振动。我们首先计算给定根的基于等式9，我们将每个叶节点的复谱注意，在特定频率下，根的复谱可能接近于零。因此，直接划分可能会放大噪声。为了解决这个问题，我们计算1458 910 1162731地面458 910 1162731地面10T. 薛，J.Wu，Z.Zhang C.，中国古猿科张，J.B. Tenenebaum，W.T. 弗里曼RRRRREachnodeifteremoviaYi·Yi/.|Yr|2Σ+2得双曲余切值.Y*是Y r的复共轭，控制噪声水平。这与Weinner过滤器[45]相似。当= 0时，我们有正常除法Yi·Y*|Yr|2Yi·Y*=-Yr·Y*Yi.（十）Yr第二步：节点分组。我们将节点分组为集群{Sj}，假设每个集群中的节点共享相似的振动模式（复频率）和外观线索。每个节点有一个未知数量的孩子，我们使用中国餐馆过程（CRP）先验[2]在树结构上设zi是节点i被分配到的集群的索引，并且设Z ={zi}是所有节点的分配。分配的联合概率为P（Z|E，Y）CRP（Z）·Pm（Y|Z）·Pa（E|Z）、（11）其中PCRP（·）是CRPPrior，Pm（·）是类似于lihood的基元，并且Pa（·）是在应用程序上存储的类似物。运动项：我们使用频谱的两个统计量：归一化振幅Yn= |Yi|f|Yi|2且ph为eYp= angle（Yi）。我们有很多问题我logP （Y|Z）=Σi−σ−2<$Ynn2 −2p p2（十二）Mnpini− Czi2− σpYi − Czi2。Ck和Ck是聚类k中节点的平均归一化幅度和相位。外观术语：期望同一子分支中的节点彼此连接并连接到根。为此，我们将外观项定义为log Pa（E|Z）=Σzi=zjα·1（i，j|Z，E）+Σβ·1（i，r|Z，E），（13）我其中，1（i，j）是指示符函数，指示在i（i，j）之间是否存在路径。给定当前分配Z和估计的连通性矩阵E（参见4.1节），计算节点i和j给定等式11中的联合概率，我们在每个分配zi上运行吉布斯采样[15] 20次迭代。步骤III：递归。如玩具示例（图5）所示，对于每个聚类Sj，我们的算法选择欧氏空间中最接近根r的节点作为子根rj。然后递归地推断Sj的子树结构。对于桌面CPU上的50个顶点的树，整个推理算法需要3 -5秒。5评价现在，我们将介绍如何使用模拟来验证我们的配方（第3节），并在人造和真实树木的视频上显示定性和定量结果5.1仿真基于第3.1节中描述的公式，我们通过使用欧拉方法[9]求解方程5来实现树如4.1节所示，常微分方程的解析形式非常复杂。因此，我们没有消除所有冗余变量，包括分支的加速度（ai和ai 〇）、分支之间的力（ri）和每个分支的角速度（ωi）。相反，我们直接数值求解方程1和2同时，为了提高Euler方法在数值误差下的稳定性，我们强制系统具有常数从振动11θ1θt(a) 模式1（b）模式2（c）模式3θ22频率(a) 模式1（b）模式2（c）模式3见图6。振型左边的三条曲线示出了主干和两个分支的功率谱。从振动中提取的三个振型如右图所示为每个时间段的数据处理提供总能量。如果系统的能量在更新期间发生变化，则我们重新调整每个分支的动能和势能，以确保系统的总能量恒定。这使得我们的模拟鲁棒性和稳定性。详细推导见补充资料图6示出了具有三个振型（右）的模拟树（左）的振动模式在这里，我们手动指定树的结构和每个分支的物理属性，包括质量，刚度和长度，并数值求解每个分支的旋转角度。树干和两个树枝的功率谱（固有频率）的模式匹配树的三个振型，这是与第3节的理论是一致的。5.2真实、正常速度视频数据我们录制人造树和真树的视频对于人造树，我们在室内实验室环境中拍摄了3个视频，其中风由风扇产生我们拍摄了8个户外真实树木的视频。所有视频均由佳能EOS 6D数码单反相机以每秒24帧的速度拍摄，分辨率为1920×1080。方法. 我们比较我们的完整模型，它使外观和振动线索联合使用（外观+运动），与一个简化的变体，它只使用外观信息，但在推理过程中忽略所有的运动信号。我们还比较了三种不同的方法从时空运动信号的层次结构恢复。– 外观+流动/跟踪：我们在我们的算法中的空间-时间的功能，由光流或KLT跟踪器恢复的运动。– 分层运动分割：我们使用流行的分层视频分割算法[17]来获得图像片段及其结构。然后，我们从段层次结构中导出树结构。结果图7显示我们的算法在真实视频上运行良好。底行中的结果表明，我们的算法可以处理具有挑战性的情况。使用运动信号，它正确地恢复被遮挡的树枝的结构，这是无法区分的纯视觉外观。对于定量评估，我们手动标记每个节点的父节点，并将其用作基础事实。我们使用两个指标。在表1中，我们评估了不同的方法（a）父母被正确恢复的节点的百分比和（b）最小编辑距离-需要被移位以使预测树和地面实况相同的最小边缘我们的算法实现了主干分支1分支2θ2θ1θt功率谱θ12T. 薛，J.Wu，Z.Zhang C.，中国古猿科张，J.B. Tenenebaum，W.T. 弗里曼抽样框架估计抽样框架估计R4 R4 R6R3图7.第一次会议。真实视频上的估计树结构。A1真正的树在底部，我们展示了外观不足以推断正确结构的情况。使用振动信号，我们的算法在这些情况下工作得很好度量方法人造真树高速视频A v g .A1 A2 A3 R1 R2 R3 R4 R5 R6 R7 R8 H1 H2 H3 H4 H5 H6MoSeg333773506584565668707447574647435156.3出现403190675983706671898555566266616965.7Acc.（%）A+流量433292796983857584959464586969727673.5A+轨道3846887963838483 88899367646676717673.8我们5445100 81 76 94 9583 88 9794 6969 7277 747079.3MoSeg261672522816201381520212422171517.4出现202131219553094816161616161613.7编辑Dis. A+流量191327135312111613181112889.5A+轨道24102101664128471315121010810.1我们14120812206416101296987.0表1. 通过正确恢复其父节点的节点的百分比（顶部）以及重建与地面实况之间的编辑距离（底部）评估的结果。在大多数情况下，我们的方法优于替代品总体表现良好。包括运动线索一致地提高了对所有类型的视频的推断的准确性，并且空间特征显著地优于原始运动信号。5.3真实的高速视频实验设置。为了理解和分析运动，我们使用Edgertronic高速摄像机拍摄了树木的高速视频。我们捕获了1个正常速度视频（30FPS）和5个帧速率从60到500FPS变化的高速视频，每个高速视频对于每个视频，我们手动标记大约100个兴趣点及其连接。直观地，根分支应该具有较高的刚度和较低的固有频率。因此，low-frame-ratevidedeos必须根据受试者的年龄提供更多的信息A1A2R1R2R3R4R5R6R7R8从振动1360 FPS60 FPS200 FPS 200 FPSP1P3P2P4500 FPS500 FPS功率谱频率Frequency(a)(b)（c）第（1）款图8. 在具有不同帧速率的视频上评估算法。（a）和（b）示出了以不同帧速率捕获的输入视频中的选定节点的功率谱，并且（c）示出了估计的树结构。更多详情请参见第5.2结构，其固有频率低，和高帧率的视频应该提供更多的快速振动薄结构的信息。评价为了评估，我们首先在树的两个主要分支上挑选两个点（图8c中的P1和P2在60 FPS时，这两个节点的功率谱在很宽的频率范围内是不同的;在500 FPS时，它们仅在较低频率处不同，因为主要分支的固有频率较低。然后，我们在树的两个小分支上选择两个点（图8c中的P3和P4现在，在60 FPS和200 FPS视频中，它们的光谱是相似的，并且模式的差异仅在500 FPS时变得显著。图8c示出了当输入为500FPS时，右上角的低帧视频（60或100FPS）的估计误差不再存在，这表明高速视频更适合于估计精细结构。这些结果与我们的理论是一致的。表1中的H1至H6分别指以30、60、100、200、400、500FPS捕获的视频。6应用我们的模型具有广泛的应用在推断树形结构在现实生活中的场景。为了证明这一点，我们展示了两个应用程序：从阴影中看到物体结构，从视网膜视频中推断血管。阴影中的形状。在像视频监控这样的情况下，通常唯一可用的数据是对象的投影的视频，而不是对象本身。例如，我们可以在视频中看到树木的阴影，但看不到树木本身。在这些情况下，重建物体的实际形状将是非常重要的。我们的算法很好地处理了这些情况。在图7中的八个真实视频中，R2和R3是树影的视频。我们的算法成功地重建了底层的树结构，如图7和表1所示。从视网膜视频的船只。我们的模型可以促进生物医学研究。我们将我们的模型应用于来自OcuScience LLC的视网膜视频。如图9a-b所示，我们的算法表现良好，重建了连接每秒100500 FPSP3P1P460 FPSP2输入200 FPS功率谱14T. 薛，J.Wu，Z.Zhang C.，中国古猿科张，J.B. Tenenebaum，W.T. 弗里曼(a)（b）（c）（d）见图9。我们在视网膜录像上的结果。(a)输入视频中的一帧。(b)我们的模型重建血管的结构，尽管低视频质量。（c-d）关于全自动结构推断的结果，其中（c）示出了估计的对象骨架，并且(d)显示了由我们的模型推断的对象结构尽管视频质量有限。与A+Flow（7）和A+Track（6）相比，它实现了更小的编辑距离（4）。完全自动恢复。虽然我们选择将关键点作为输入，为用户提供额外的灵活性并提高预测准确性，但遵循文献[40]中的惯例，我们的系统可以轻松扩展为全自动。在这里，我们提供了一个额外的实验上的视网膜视频。我们首先应用Mannis等人的分割方法。[29]以获得血管的分割然后，我们采用经典的骨架算法从李等人。[25]（图9c），并使用所获得的骨架的端点和连接点作为我们模型的输入关键点如图9d所示，我们的系统在没有手动标签的情况下工作良好。7讨论在本文中，我们已经证明，振动信号在频谱域中，除了外观线索，可以帮助解决树结构估计的模糊性我们设计了一种新的配方树基于物理的链接模型，从中我们提取的振动信号的物理特性，并从理论和实验上验证它们。我们还提出了一个层次推理算法，使用非参数贝叶斯方法来推断树结构。该算法在真实世界的视频上运行良好。我们的推导做了四个假设：被动运动、小振动、无阻尼和已知根。而真正的树往往满足前两个，他们不具有零阻尼（阻尼比范围为1.2%至15.4% [22]）。在这些情况下，我们的算法仍然成功地从振动中恢复了它们的几何形状。当根是未知的，我们的方法可以发现多个子树从一个虚拟根匀速运动谱。另一方面，我们的模型在显著违反假设时表现不太好（例如，大振动或不正确的根部）。我们把我们的工作看作是对谱知识如何帮助结构化推理的初步探索，并期待着它在计算机科学以外的领域的潜在应用，例如纤维结构估计鸣谢：这项工作得到了NSF #1231216、 #1212849和#1447476、ONRMURI N 00014 -16-1-2007、丰田研究所、壳牌研究公司和Facebook的支持。我们感谢张秀明的有益讨论。从振动15引用1. Bascle，B.，Blake，A.，齐瑟曼，A.：运动去模糊和超分辨率图像序列。In：ECCV（1996）2. Blei，D.M.，Gri Etths，T.L.，Jordan，M.I.：嵌套中餐厅过程与主题层次的贝叶斯非参数推理JACM57（2），7（2010）3. Bouman，K.L.，Xiao，B.，Battaglia，P.弗里曼，W.T.：估计材料视频中的织物特性In：ICCV（2013）4. Braddick，O.：视觉运动处理中的分割与整合。神经科学趋势16（7），2635. 坎尼，J：边缘检测的计算方法IEEE TPAMI8（6），679（1986年）6. Davies，M.N.，绿色，P.R.：鸟类的感知和运动控制：一种生态方法。《施普林格科学商业媒体》（SpringerScience7. 戴维斯，A.，Bouman，K.L.，Chen，J.G.，Rubinstein，M.，Durand，F.，弗里曼，W.T.：目视振动测定法：从视频中的小运动估计材料属性。参见：CVPR（2015）8. Dijkstra，E.W.：关于图的两个问题的注记。Numerische mathemik1（1），2699. 法洛，S.J.：偏微分方程为科学家和工程师。快递03 The Dog（1993）10. 弗利特DJ Jepson，A.D.：从局部相位信息计算分量图像速度。IJCV5（1），7711.弗雷泽女士Remagnino，P.，Hoppe，A.，Uyyanonvara，B.，Rudnicka，A.R.，欧文C.G. Barman，S.A.：视网膜影像血管分割方法研究综述。 Computer methods andprograms in biomedicine 108（1），407 -433（2012）12. 法语，A.：振动和波。纽约州纽约市13. Furoh，T.，Fukumori，T.，Nakayama，M.，Nishiura，T.：用二阶梅尔倒谱系数和说话语音起始部分的谱包络检测朗伯语音。The Journal of the Acoustical Societyof America133（5），324614. 乔达摩，T.，Van Hulle，M.：一种基于相位的方法来估计使用空间滤波的光流场 IEEE TNN 13（5），1127 -1136（2002）15. Geman，S.，Geman，D.：随机松弛、吉布斯分布与影像之贝叶斯复原。IEEETPAMI6（6），72116. Ger shman，S. J. Tennbaum，J. B、 Jkel，F. ：显示高分辨率视频流-是的。 Vision Research 126，232 -241（2016）17. Grundmann，M.，Kwatra，V.，Han，M.，埃萨岛：高效的基于层次图的视频分割。在：CVPR（2010）18. Hare，S.，Golodetz，S.，Sa Bagari，A.，Vineet，V.，郑女士Hicks，S.L. Torr，P.H.：Struck：使用内核的结构化输出跟踪。IEEE TPAMI38（10），2096-2109（2016）19. Henriques，J.F.，卡塞洛河Martins，P.巴蒂斯塔，J.：使用内核化相关滤波器的高速跟踪。IEEE TPAMI37（3），58320. James，K.R.，Dahle，GA，Grabosky，J.，Kane，B.，Detter，A.：树木生物力学文献综述：动力学Journal of Arboriculture and Urban Forestry 40，1-15（2014）21. James，K.R.，Haritos，N.，Ades，P.K.：树木在动荷载作用下的机械稳定性。American Journal of Botany93（10），152222. James，K.，Haritos，N.：树枝和潮湿的树木在风中。在：澳大利亚结构与材料力学会议（2014）16T. 薛，J.Wu，Z.Zhang C.，中国古猿科张，J.B. Tenenebaum，W.T. 弗里曼23. Jepson，A.D.弗利特DJ布莱克，M.J.：具有遮挡和紧凑空间支持的分层运动表示。In：ECCV（2002）24. 华盛顿的克尼尔Richards，W.：感知是贝叶斯推理。剑桥大学出版社（1996）25. 李TC等：利用三维中轴细化算法建立骨骼模型。CVGIP56（6），46226. 李T.S.芒福德，D.：视觉皮层中的层级推理JosÃA20（7），1434-1448（2003）27. Liu，C.：超出像素：探索运动分析的新表示和应用。博士02 The Dog（2009）28. 卢卡斯，B.D. Kanade，T.：一种迭代图像配准技术及其在立体视觉中的应用。03The Dog（1981）29. Maninis，K. K.，彭特-图瑟特，J.， Ar bel'aez，P.，万戈洛湖：加深理解。电影MicCAI（2016）30. 米勒，洛杉矶：非线性刚度植物的结构动力学和共振。Journal of TheoreticalBiology234（4），51131. Moore，J.R.Maguire，D.A.：树木的自然摇摆频率和阻尼比概念，回顾和综合以前的研究。Trees 18（2），195 -203（2004）32. Moreno-Bote河华盛顿的克尼尔Pouget，A.：视觉感知中的贝叶斯抽样。PNAS108（30），1249133. Murphy，K.D. Rudnicki，M.：一个基于物理的树木振动链模型。 Amer-ican Journal of Botany99（12），1918-1929（2012）34. Pathak，D.， Gir shick，R.，多拉尔，P.，达瑞尔，T.， Hariha ra n，B. ：通过观察物体的移动来获得感觉在：CVPR（2017）35. 鲁宾斯坦，M.：视频中时间

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

基于运动和外观数字图像中的树结构重建

基于结构和颜色信息的图像修复算法

基于树结构进行决策的算法

基于决策树的手写数字识别

基于决策树的手写数字识别的应用研究matlab

图像的霍夫曼编码树结构

c++开发中什么样的业务会常用树结构

数字图像给出哈夫曼树，求它的码长

树结构属于非线性结构树结构中的结点具有一对多的逻辑关系是正确的吗

在Java中，如何方便的存储树结构

js有一个id组成的数组arr，获取一个数组树结构中id一样的节点，组成一个新的数组树结构，arr中的元素必定是数组树结构中的id

数据结构与算法b中树及其应用的实验分析

基于matlab-guide的数字图像处理之监督分类算法代码

sql Server树结构

confluence页面树结构创建

为什么树结构是环结构的？

用java写一个数字图像识别

基于Bayes、决策树和SVM的图像分类

threejs层级模型、树结构例子

java递归树结构查询

rust 怎么实现树结构

最新资源