基于BowtieNet和基于SLAM的实时人体分割与人体AR系统

194 浏览量更新于2024-01-24 收藏 2.01MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

引文：赵晓梅，唐福林，吴怡红。通过BowtieNet和基于SLAM的人类AR系统进行实时人体分割。虚拟现实智能硬件，2019，1（5）：511-524DOI：10.1016/j.vrih.2019.08.002虚拟现实智能硬件2019年第5期·文章·基于BowtieNet的实时人体分割和基于SLAM的人体AR系统XiaoMeiZHAO1，2，FuLinTanG1，2，YiHongWU1，2*1. 中国科学院自动化研究所模式识别国家重点实验室，北京1001902. 中国科学院大学，北京100049*通讯作者，yhwu@nlpr.ia.ac.cn投稿时间：2019年5月14日修订日期：2019年8月5日接受日期：2019年8月13日国家自然科学基金项目（61836015，61421004，61572499）。通常，难以从单个RGB相机获得非刚性移动对象的精确姿态和深度以创建增强现实（AR）。在这项研究中，我们建立了一个增强现实系统，从一个单一的RGB摄像头的非刚性移动的人准确计算姿势和深度，其中两个关键任务是分割和单目同时定位和映射（SLAM）。大多数现有的单目SLAM系统都是针对静态场景设计的，而在这种AR系统中，人体总是运动的和非刚性的。方法为了使SLAM系统适用于运动的人体，我们首先在每帧分割的人体的刚性部分。分割后的运动身体部位可以看作是一个静止的物体，每个运动身体部位与摄像机之间的相对运动可以看作是摄像机的运动。然后可以应用为静态场景设计的典型SLAM系统。在这个AR系统的分割步骤中，我们首先采用了提出的BowtieNet，它在SegNet的编码器和解码器之间添加了DeepLab的atrous空间金字塔池（ASPP）来分割原始帧中的人，然后我们使用颜色信息从分割的人区域中提取人脸。结果基于人体分割结果和单目SLAM，该系统可以改变视频背景，并添加一个虚拟对象的人。结论在人体图像分割数据集上的实验表明，BowtieNet具有最先进的人体图像分割性能和足够的实时分割速度。视频实验表明，该增强现实系统可以鲁棒地添加一个虚拟对象的人，并能准确地改变视频背景。增强现实;运动目标;重建与跟踪;摄像机姿态;人体分割1介绍增强现实（AR）是一种可以将虚拟物体融合到真实图像或视频中的技术。为了使虚拟物体看起来像真实物体，AR系统需要重建3D模型并计算每帧的相机姿势。同时定位与地图构建（SLAM）技术可以同时计算摄像机的位姿和重建三维模型。因此，SLAM为AR提供了基础。在本文中，我们建立了一个增强现实系统，可以添加虚拟物体的刚性人体部分，www.vr-ih.com虚拟现实智能硬件2019年第5期改变视频背景。目前，大多数可以在人类头部添加虚拟配件的应用程序都是基于跟踪关键点和应用2D贴纸。在这些应用程序中，用户的现实感很差。与上述应用程序不同，我们采用基于SLAM的AR系统在人头上添加虚拟对象。几个比较示例如图1所示。图1美图（https：//mt. meipai.com/phone/）（第一排）和我们的AR系统（第二排）。美图通过跟踪关键点和应用2D贴纸来添加虚拟帽子。我们的AR系统基于SLAM技术。具体地，3D虚拟帽子的位置由重建的3D面部的位置确定。每帧中虚拟帽子的投影图像由计算出的摄像机姿态决定。大多数现有的SLAM系统[1- 3]都是针对静态和刚性场景设计的，而在我们的系统中，人体是非刚性的并且总是在移动。因此，这些SLAM系统[1- 3]不适合我们的任务。Park等人[4]Ren et al.[5]提出了3D对象在线重建和跟踪的方法。然而，他们的方法需要RGB-D图像。Feng等人[6]提出了一种在线移动对象重建和跟踪方法（OBRAT），该方法只需要RGB图像。然而，该方法[6]仅适用于运动的刚性对象，并且在其分割步骤中使用了简单的基于颜色直方图的传统方法，快速局部核密度估计（FLKDE）。近年来，基于深度学习的图像分割方法发展迅速[7- 10]。它们显然比传统方法具有更好的性能。因此，在我们的系统中，采用了基于深度学习的分割网络。基于深度学习的图像分割方法曾经使用区域分类实现[11，12]。然而，这些方法运行缓慢，并且不能端到端地训练。相比之下，全卷积网络（FCN）[7]可以端到端训练，并直接输出与输入大小相同的密集分割结果。由于其优异的性能，基于模糊神经网络的方法已迅速成为图像分割领域的主流。到目前为止，已经提出了许多优秀的基于FCS的方法，如SegNet[8]，DeepLab[10]，U-Net[9]等。SegNet[8]和U-Net[9]是编码器-解码器网络，具有优雅的对称结构。它们通常在对象边界周围具有更高的精度。DeepLab[10]没有解码器结构。该算法采用无网格卷积来扩大感受野，采用无网格空间金字塔池（ASPP）来融合多尺度特征。因此，DeepLab在分割多尺度对象方面表现出更好的性能。为了整合编码器-解码器网络和DeepLab的优势，我们添加了512XiaomeiZHAOetal：通过BowtieNetaSLAM-baseddhummARsystematal-tim e hummataSegNet的编码器和解码器之间的DeepLab。我们使用SegNet而不是U-Net，因为SegNet更快。我们将我们的分割网络称为BowtieNet，因为它的编码器-ASPP-解码器结构看起来像一个蝴蝶结。最近提出的DeepLab v3+[13]还结合了空间金字塔池和编码器-解码器模型。我们的实验比较表明，BowtieNet比DeepLab v3+在人类边界周围具有更高的准确性，因为它的上采样步骤更详细。在所提出的AR系统的分割步骤中，BowtieNet由人类图像分割数据集训练。然后，在处理视频时，经过训练的BowtieNet用于分割每帧中的人类。在获得分割的人之后，可以使用颜色信息和光流来提取人的不同部分。基于人体分割的结果，所提出的增强现实系统可以改变视频背景和添加虚拟对象。总之，本研究的贡献是：(1) 我们为人类构建了一个新颖的AR系统，只需一个RGB摄像头，就可以在改变视频背景的同时为人类添加虚拟对象。(2) 我们采用了基于深度学习的分割方法和光流法来分割人体并跟踪其刚性部位。每个提取的刚性人体部分可以被看作是一个静态的对象，和人体部分之间的相对运动可以被认为是相机运动。然后可以使用单目SLAM系统。(3) 我们构建了用于分割的BowtieNet，它在SegNet的编码器和解码器之间添加了DeepLab的ASPP。2方法通常，在没有先验知识的情况下，难以从单个RGB相机获得非刚性对象的精确姿态和深度以创建AR。然而，我们可以通过精确计算姿势和深度，从单个RGB相机为非刚性人类构建AR系统，其中两个关键任务是分割和单目SLAM。幸运的是，人体是一个与关节相连的链条结构。两个连续关节之间的部分可以被认为是前刚性关节。通过所提出的增强现实系统，虚拟对象可以添加到人体的刚性部分，并可以改变视频背景的同时。所提出的AR系统的流程图在图2中使用人类头部示出。如图2所示，整个系统包含四个部分：分割部分、重建部分、跟踪部分和投影部分。分割部分去除背景并产生人和面部的图像。基于所提取的人的图像，可以生成具有新背景的新帧。基于提取的人脸图像，重建和跟踪的实现。重建部分使用关键帧重建3D人脸模型。然后，可以将虚拟帽子的3D模型（例如圣诞帽（如图2所示））添加到3D面部模型。跟踪部分用于预测每帧图像的摄像机姿态。最后，但并非最不重要的是，投影部分根据跟踪部分提供的相机姿态将虚拟对象投影到具有新背景的新帧上。在我们的系统中，第一帧的相机坐标系被用作世界坐标系。接下来，我们将详细描述系统的每个部分。2.1分割我们使用基于CNN的图像分割网络BowtieNet对人体进行分割。在每个视频帧中，人位于小区域内。因此，没有必要从整个帧中分割人。在我们的实验中，我们对第一帧的整个图像区域进行分割，然后513虚拟现实智能硬件2019年第5期图2所提出的AR系统，其中（a）是原始帧;（b）是提取的人的图像;（c）是（d）示出了重建的3D人脸模型、虚拟帽子模型和相机（绿框）之间的关系;（e）是具有新背景的新帧;（f）是具有虚拟帽子和新背景的新帧。仅分割其他帧中的感兴趣区域（ROI）。通过使用这种策略，我们成功地减少了分割的时间消耗分割处理步骤如表1所示表1视频的分割处理步骤视频的分割处理步骤开始：(1) 在第一帧图像的整个图像区域中分割出人体。视频还没有结束：(2) 捕获新帧。(3) 扩展前一帧中分割结果的边界框，并将其用作当前帧中的分割ROI。如果前一帧中没有人，则使用整个当前帧作为分割ROI。(4) 使用BowtieNet分割ROI。(5) 根据RO I的位置和ROI的细分结果生成当前框架的细分结果。端BowtieNet是通过结合编码器-解码器网络和DeepLab的优势构建的[10]。受益于编码器-解码器结构，SegNet[8]和U-Net[9]等网络通常在对象边界周围具有更好的性能。相比之下，DeepLab由于采用了ASPP，因此对于分割不同尺度的对象通常更鲁棒。BowtieNet在其编码器和解码器之间添加了ASPP，以结合这两种网络的优点。在比较了典型的编解码器网络SegNet[8]和U-Net[9]之后，我们发现SegNet具有更轻的解码器结构和更快的速度。因此，BowtieNet的编码器和解码器是参考SegNet[8]构建的。最近提出的DeepLab v3+[13]还结合了空间金字塔池和编码器-解码器模型。然而，DeepLab v3+仅使用两个上采样步骤和一个跳过连接来恢复特征图的规模，而拟议的BowtieNet使用三个上采样步骤和三个跳过连接来恢复特征图的规模。我们的实验结果表明，BowtieNet在人类边界周围的准确性比DeepLab v3+更高BowtieNet的架构如图3所示。如图3所示，BowtieNet可以分为三个部分：编码器、ASPP和解码器。编码器设计基于VGG-16，其中特征图的分辨率随着池化层数量的增加而变小。为了防止特征图变得太小，我们参考DeepLab进行了一些更改：最后两个池化层的步幅是514XiaomeiZHAOetal：通过BowtieNetaSLAM-baseddhummARsystematal-tim e hummata图3拟议的BowtieNet的架构。从2变为1，并且在最后一个卷积块中应用atrous卷积层。我们防止特征图变得太小，部分原因是从较小的特征图中恢复空间信息更加困难，还因为如果特征图太小，ASPP的某些分支将退化为具有1×1滤波器的简单卷积层[14]。Atrous卷积层通过在非零滤波器抽头之间插入孔来对普通卷积滤波器进行上采样[10]。在atrous卷积的帮助下，当我们将池层的步长从2更改为1时，感受野的大小不会减少。ASPP被添加在编码器之后。我们使用与[10]中类似的ASPP架构。在[10]的ASPP中，输出通道的数量等于分段类的数量。然而，在我们的ASPP中，输出通道的数量设置为256，以保留更多的功能。ASPP的不同分支有不同的Atrous率。因此，不同的分支具有不同大小的感受野，可以在不同的尺度上提取特征。因此，ASPP的利用增加了BowtieNet在各种尺度下分割人类时的鲁棒性。在BowtieNet解码器中，特征图根据编码器中使用的最大池化索引进行上采样，类似于SegNet。这种上采样方法称为unpooling。它对特征图进行上采样，同时恢复空间信息。与U-Net中使用的解码器网络相比，U-Net使用反卷积层对特征图进行上采样，并通过特征图跳过连接来恢复空间信息，由unpooling层组成的解码器网络包含更少的参数，速度更快。值得一提的是，尽管所提出的BowtieNet是基于SegNet构建的，但BowtieNet获得精确对象边界的能力甚至比SegNet更好。这是因为SegNet中使用的编码器的输出步幅等于32，而BowtieNet中使用的编码器的输出步幅等于8. 较小的编码器输出步幅降低了恢复空间信息的难度在每一帧中，人类被上述基于CNN的网络分割。然后，从分割出的人体区域中，根据颜色信息分割出人脸。对于其他人体部位，可以通过骨架提取和光流跟踪来实现分割。2.2重建重建部分被设计为重建分割的身体部位的3D模型它被放在一个515E=∑ρ（d（xi，K [R|（i））（1）[R|t]的范我虚拟现实智能硬件2019年第5期与其他部分不同的线程，并且由关键帧而不是所有帧执行。因此，即使重建运行缓慢，它仍然可以及时更新其3D模型。根据不确定性度量Q[6]选择关键帧。3D模型由前两个关键帧初始化。然后，当输入新的关键帧时，3D模型被更新。在初始化过程中，从第一个关键帧中提取Shi-Tomasi特征点[15]。然后，应用经修订的Lucas-Kanade光学流量跟踪器[6]，利用3D辅助信息跟踪这些特征点。最后，基于第一关键帧中的特征点及其在第二关键帧中的对应特征点，通过三角重建过程[16]构建每个分割的刚性人体部位的稀疏3D模型。在初始化之后，当输入新的关键帧时，也首先提取Shi-Tomasi特征点。然后选择当前三维模型的新特征点，并对其进行跟踪，以在最近的关键帧中找到其对应的特征点。接下来，匹配的特征点对用于重建，其在3D模型中生成新的3D点。在上述过程之后，应用光束法平差进行优化。2.3跟踪跟踪部分用于预测每帧的摄像机姿态。假设三维空间中有一点坐标为X的世界成像过程为x=K[R|t]X，其中K包含内部参数摄像头，可以事先校准。[R|t]包含相机的外部参数。它反映了相机的旋转角度和平移。[R|t]是我们要计算的相机姿态。如果我们有一系列3D点X i，i=1，2，3，. ，N，以及它们在图像x i中的对应点，i=1，2，3，.. ，N，其中N表示3D点的总数，[R|t]可以通过最小化误差函数E[6]来计算：|t]=minE，其中Ni=1在上述等式中，d（xi，K[R|t]X i）计算真实投影X i和重投影K[R]之间的距离|3D点的t]X。ρ（*）是鲁棒Tukey M估计量[17]。根据上面的描述，如果我们有一系列点对（Xi，xi），我们可以估计相机姿态[R|t]。现在，下一个问题是找到点对（Xi，Xi）。找到点对（Xi，xi）开始于从重建的3D模型中选择3D点候选者Xi。然后，修改的Lucas-Kanade跟踪器被应用于搜索当前帧中的每个Xi的Xi。如果它未能找到xi，则它移除3D点候选者Xi。选择3D点候选X i遵循两个规则：3D点候选应当在当前帧中可见;并且应当优先选择在附近关键帧中也可见的3D点。2.4投影现在，我们已经通过重建获得了3D模型，并通过跟踪获得了相机的姿态。可以将诸如圣诞帽之类的虚拟对象的3D模型添加到重建的3D模型。然后，虚拟对象可以通过相机投影函数投影到具有新背景的新帧上：|t]X，其中X表示准备投影的3D点的坐标，K包含相机的内部参数，[R|t]是由跟踪部分预测的相机姿态，并且x是3D点X的投影结果。516XiaomeiZHAOetal：通过BowtieNetaSLAM-baseddhummARsystematal-tim e hummata3实验人的头部是近似刚性物体的一个很好的例子。在本节中，在人的头部上测试所提出的AR系统。同时，系统还可以改变视频背景。改变背景的任务是基于所提出的基于CNN的分割网络BowtieNet提供的人类分割结果来实现的。添加虚拟帽子的任务是基于第2节中描述的移动对象重建和跟踪系统来实现的。在下面的小节中，我们首先展示了我们在Baidu Person数据集[18- 20]上的实验，这是一个人类图像分割数据集，以证明所提出的BowtieNet的性能。然后，我们展示了我们的视频实验结果，在人头上添加圣诞帽并改变背景。我们的实验在Caffe[21]下实现，使用Nvidia Titan X Pascal GPU和IntelE5-2460 CPU。3.1在人体图像分割数据集上的实验在我们的系统中，我们提出了BowtieNet，它在编码器和解码器之间添加了ASPP，以分割每帧中的人类。BowtieNet是在Baidu Person数据集上训练的。在下面的小节中，我们给出了这个数据集的实验细节。3.1.1数据集和评价方法百度Person数据集包含5387张训练图像和1316张测试图像。测试图像的真实情况没有公布，也没有测试网站。因此，我们只使用了5387张训练图像来训练和测试我们的模型。我们将5387张训练图像随机分为训练、验证和测试子集，分别包含3000、1000和1387张图像。只有3000张训练图像用于训练，没有额外的训练数据集。不同的网络的性能进行了评估，使用交集超过联合（IOU）。设P表示预测结果，G表示地面真实值。IOU的计算方法是IOU=|PG||P ∪ G|哪里|P G|表示P和G的相交面积，并且|P G|表示P和G的并集面积。3.1.2培训详情（二）我们所有的训练和测试图像都被调整为256×256像素。在训练期间，学习率被设置为0.001。训练在50000次迭代后结束。每10000次迭代大约花费2- 3 h。动量为0.9。权重衰减设置为0.005。批量设定为6。为了增加训练数据集，可以使用随机镜像、0.5到1.5之间的随机旋转和-10和10度被采用。此外，在训练期间，应用了骰子损失[22]。使用验证子集监测培训过程。3.1.3实验结果及分析在本小节中，我们将介绍所提出的BowtieNet的性能评估，并将其与许多其他分割网络进行比较。不同网络的评估结果如表2所示。随后，我们首先将BowtieNet与Pixel-by-Pixel[18]，VGG-seg-net[19]和DCAN[20]进行比较，这些都是在Baidu Person数据集上训练和测试的。他们随机选择了500张图像作为验证数据集，并使用剩余的4887张图像作为训练数据集。VGG-seg-net[19]还使用了数千个额外的训练图像。显然，与Pixel-by-Pixel、VGG-seg-net和DCAN相比，我们使用了更少的训练图像和更多的测试图像。在这种情况下，517虚拟现实智能硬件2019年第5期BowtieNet仍然实现了更好的分割精度。然后，我们将BowtieNet与许多其他最先进的细分网络进行了比较，例如SegNet，DeepLab和U-Net。为了公平比较，我们在百度Person数据集上对这些网络进行了微调，并使用Dice损失。在这些模型中，DeepLab v3+是在TensorFlow下实现的，其他模型是在Caffe下实现的。在对DeepLab v3+进行微调时，我们继续使用其作者提供的默认参数和数据增强方法。在微调期间，对于其他模型，我们使用了与第3.1.2节所示相同的参数和数据增强方法。在测试子集上进行分段的一些示例如表2Baidu Person数据集图 4. 从表 2 和图 4 中，我们可以看到BowtieNet 的速度足够快，可以实时运行，并且具有最高的准确性。从图4中，我们可以看到BowtieNet具有最准确的边界。下面，我们将BowtieNet与其他网络进行详细比较。(1)BowtieNetvs. SegNet。相比DCAN[20]SegNet[8][10]第九届中国国际纺织品展览会[13]第13话：我的世界，我的世界，我的世界90.8990.1291.5590.8592.6692.8393.64-90.0091.3790.8792.6492.5393.42-49.543.736.422.234.539.1使用SegNet，BowtieNet在其编码器和解码器之间具有ASPP结构，这改善了感受野的大小，并提高了在各种尺度下分割对象时的鲁棒性。此外，与SegNet相比，BowtieNet的编码器的输出步幅更小。这使得BowtieNet能够更轻松地恢复图像细节。因此，在边界周围，BowtieNet的分割精度高于SegNet。(2) BowtieNet vs. DeepLab v2-VGG.与DeepLab v2-VGG相比，BowtieNet具有额外的解码器结构，有助于重新获得空间信息。因此，BowtieNet在边界附近的性能优于DeepLab v2-VGG。(3) Bowtienet vs. U-Net.与U-Net相比，BowtieNet具有更轻的解码器结构和更小的池化步长。因此，BowtieNet速度更快，边界更准确。(4) BowtieNet vs. DeepLab v2-ResNet. DeepLab v2-ResNet有更深的层次，可以提取更高层次的特征。BowtieNet具有解码器结构，可以获得更精确的边界。在我们的实验数据集中，主要前景是人类。这是一个比语义分割容易得多的任务。在此条件下，能够获得更精确边界的网络具有更高的分割精度。因此，在我们的任务中，BowtieNet比DeepLab v2-ResNet更准确。(5) BowtieNet vs. DeepLab v3+. DeepLab v3+还结合了空间金字塔池和解码器。但是，它使用两个步骤对特征图进行上采样，并且仅添加一次低级特征。相比之下，BowtieNet使用3个步骤对特征图进行上采样，并在每个步骤中恢复空间信息。因此，BowtieNet可以获得比DeepLab v3+更精确的边界。3.2视频实验在本节中，我们将介绍使用普通RGB相机捕获视频。每帧的大小为640×480像素。如第2.1节所述，在分割过程中，只有ROI被送入CNN分割网络进行加速。当前帧中的ROI是前一帧分割结果的扩展边界框。分割前将所有ROI的大小调整为256×256像素。BowtieNet输出人体分割结果，基于此视频背景可以518方法平均IOU（%）确认测试速度（fps）[18]第十八话86.7086.830.033VGG-seg-net[19]83.57-1000XiaomeiZHAOetal：通过BowtieNetaSLAM-baseddhummARsystematal-tim e hummata图4测试子集上的一些分割示例。从上到下：原始图像，地面实况，SegNet，DeepLab v2-VGG，U-Net，DeepLabv2-ResNet，DeepLab v3+和BowtieNet的分割结果。被改变在得到人脸分割结果后，利用颜色信息可以很容易地提取出人脸。提取的人脸图像，然后用于重建和跟踪。基于重建的3D人脸模型和计算的相机姿态，虚拟圣诞帽3D模型被添加到具有新背景的新图像中。在图5中，我们展示了我们的一些实验结果，包括BowtieNet提供的人体分割结果，面部和圣诞帽3D模型和相机姿势（绿色框），最后是具有新背景和虚拟圣诞帽的新帧。从图5所示的实验示例中，我们可以看到我们的系统在更改视频背景和添加虚拟圣诞帽方面表现良好。特别地，在图5的前三个示例中，人类头部显然具有不同的角度。在最后一列所示的相应的新生成的帧中，圣诞帽的投影结果明显不同。这表明，虚拟圣诞帽可以与人的头部和项目旋转519虚拟现实智能硬件2019年第5期图5视频中的实验示例。从左至右：原始帧、BowtieNet的分割结果、面部和圣诞帽3D模型和相机姿势（绿框）、具有新背景的新帧和虚拟圣诞帽。像真的帽子一样把不同的面都装进新的镜框里。此外，为了显示分割部分和跟踪部分的鲁棒性，我们在图5中显示了具有不同人类手势的其他示例。实验结果表明，当人做较大运动时，分割仍能输出准确的结果，跟踪仍能准确跟踪人脸。为了进一步证明我们的AR系统的鲁棒性，图6中显示了一些更具挑战性的示例。在第一行示例中，在人类快速移动时捕获帧。视频520XiaomeiZHAOetal：通过BowtieNetaSLAM-baseddhummARsystematal-tim e hummata包含明显的模糊和抖动。即使如此，实验结果表明，所提出的AR系统可以准确地跟踪人脸。在第二行示例中，人脸具有明显不同的角度。实验结果表明，虚拟圣诞帽可以随人的头部旋转。在第三行示例中，人脸的一部分被手覆盖或移出帧。在这些条件下，所提出的AR系统仍然可以准确和自然地添加虚拟帽子。图6 AR系统的一些更具挑战性的示例。在第一行的示例中，出现明显的运动模糊。在第二行的示例中，出现了大范围的旋转。在第三行的示例中，出现严重的闭塞。在这三行示例中使用了不同的虚拟背景。图7显示了我们的AR系统在光线强度变化和相机移动时的性能。很明显，光强度从左到右逐渐减小。此外，很明显，每帧的背景都与其他帧不同，这表明相机不是静态的。图7的第二行中显示的具有新背景和虚拟帽子的新帧表明，我们的AR系统对照明和相机移动的变化具有鲁棒性。图7移动摄像机和光强度变化的一些示例。在第一行中，显示原始帧。在第二行中，示出了具有新背景和虚拟帽子的新帧。在图8中，显示了我们的AR系统的更多示例。在该图的第一行中，不同种类的虚拟帽子，例如草帽和棒球帽，被戴在人头上。在这幅图的第二排和第三排，圣诞帽被戴在不同人的头上，他们使用不同的手势，定位在离相机不同的距离，以不同的速度移动，穿着不同颜色的衣服。521虚拟现实智能硬件2019年第5期图8 AR系统的更多示例。在第一排，不同的虚拟帽子戴在人头上。在第二行和第三行中，显示了不同人员的示例。不同的人使用不同的手势，与相机的距离不同，移动速度不同，穿着不同颜色的衣服。在我们的增强现实系统中，分割的运动身体部分可以被视为一个静态的对象，每个运动身体部分和相机之间的相对运动可以被认为是相机的运动。因此，跟踪运动身体部位等同于计算相对相机姿态。如第2.3节所述，通过最小化误差函数来估计相机姿态，该误差函数由相当大量的所选高质量3D和2D匹配点对计算。如果大多数匹配点对是正确的，则估计的相机姿态是正确的。我们的跟踪系统可以容忍一定程度的错误匹配。因此，我们的跟踪系统是稳定和鲁棒的。从图5、图6、图7和图8所示的示例中，我们可以看到，当人类做出不同的手势、位于距相机不同的距离处、以不同的速度移动、穿着不同颜色的衣服等时，即使环境受到光照变化的影响并且相机正在移动，虚拟帽子也可以正确地戴在人类头上。这表明，我们的跟踪系统可以始终提供稳定和准确的相机姿态，我们的跟踪系统的鲁棒性是相当高的。4结论和今后的工作在这项研究中，我们建立了一个新的AR系统，非刚性的人，只使用单目摄像头，可以添加一个3D虚拟对象上的一个近似刚性的人的一部分，同时改变视频背景。目前，大多数应用程序通过应用2D贴纸在人脸上添加虚拟配件。与这些应用程序相比，我们的系统提供了更好的真实感。AR系统通常基于SLAM构建。然而，目前大多数SLAM系统是为静态场景或刚性物体设计的，而在我们的系统中，我们使用BowtieNet和光流法分割来重建和跟踪运动的人体部位。实验结果表明，BowtieNet算法具有较好的分割性能，并且能够满足实时分割的要求。此外，视频上的实验表明，所提出的AR系统可以鲁棒地添加一个虚拟的帽子在人的头上，并准确地改变视频背景。在本研究中，我们只添加了一个虚拟的帽子。添加虚拟帽子不需要精确定位面部关键点在未来，我们将尝试准确地定位3D关键点上，522XiaomeiZHAOetal：通过BowtieNetaSLAM-baseddhummARsystematal-tim e hummata在重建的三维人脸模型中添加人脸，以便添加各种附加的虚拟配件，如眼镜、耳环、口罩等。引用1放大图片作者：Klein G，Murray D.小型AR机器人的并行跟踪和映射。2007年第6届IEEE和ACM混合和增强现实国际研讨会论文集。IEEE Computer Society，2007，1-10 DOI：10.1109/ismar.2007.45388522[10]杨文军，王文军. ORB-SLAM：一个多功能和精确的单目SLAM系统。IEEE Transactions on Robotics，2015，31（5）：1147DOI：10.1109/tro.2015.24636713放大图片作者：J. ORB-SLAM 2：用于单眼、立体和RGB-D相机的开源SLAM系统。IEEE Transactions onRobotics，2017，33（5）：1255DOI：10.1109/tro.2017.27051034Park Y，Lepetit V，Woo W.使用RGB-D相机进行无纹理对象跟踪和在线训练。2011年第10届IEEE混合与增强现实国际研讨会。美国纽约，IEEE，2011 DOI：10.1109/ismar.2011.61628795杨文伟，李晓梅，李晓梅. STAR 3D：使用RGB- D数据同时跟踪和重建3D对象。2013年IEEE计算机视觉国际会议。澳大利亚悉尼。美国纽约，IEEE，2013 DOI：10.1109/iccv.2013.1976冯永军，吴永华，范丽霞。用于3D交互的在线对象重建和跟踪。2012 IEEE International Conference onMultimedia and Expo。墨尔本，澳大利亚，IEEE，2012，711-716DOI：10.1109/icme.2012.1447放大图片作者：Michael J.用于语义分割的完全卷积网络。IEEE Transactions on Pattern Analysis and MachineIntelligence，2017，39（4）：640DOI：10.1109/tpami.2016.25726838放大图片作者：Kendall A. SegNet：用于图像分割的深度卷积编码器-解码器架构。IEEE Transactions on PatternAnalysis and Machine Intelligence，2017，39（12）：2481-2495 DOI：10.1109/tpami.2016.26446159杨伟，王伟. U-net：Convolutional Networks for Biomedical Image Segmentation// Lecture Notes in Computer Science.Cham：Springer International Publishing，2015，234DOI：10.1007/978-3-319-24574-4_2810[10]陈立春，帕潘德里欧G，科金诺斯I，墨菲K，尤耶A L. DeepLab：使用深度卷积网络，atrous卷积和完全连接的CRF进行语义图像分割。IEEE Transactions on Pattern Analysis and Machine Intelligence，2018，40（4）：834DOI：10.1109/tpami.2017.269918411Girshick R ， Donahue J ， Darrell T ， Malik J. Rich feature hierarchies for accurate object detection and semanticsegmentation. 2014年IEEE计算机视觉和模式识别会议。Columbus，OH，USA，IEEE，2014，580DOI：10.1109/cvpr.2014.8112放大图片作者：Mostajabi M，Yadollahpour P，Shakhnarovich G.具有缩小功能的前馈语义分割。2015年IEEE计算机视觉和模式识别会议（CVPR）。Boston，MA，USA，IEEE，2015，3376-3385 DOI：10.1109/cvpr.2015.729895913陈良昌，朱永坤，帕潘德里欧，施罗夫，亚当.使用atrous可分离卷积进行语义图像分割的编码器-解码器//Computer Vision-ECCV 2018。Cham：Springer International Publishing，2018，833-851 DOI：10.1007/978-3-030-01234-2_4914陈力成，帕潘德里欧，施罗夫，亚当.重新思考用于语义图像分割的atrous卷积。2017，arXiv预印本arXiv：1706.0558715Jianbo S，Tomasi C.很好的跟踪功能在：IEEE计算机协会计算机会议论文集523虚拟现实智能硬件2019年第5期视觉和模式识别。Seattle，WA，1994，593-600 DOI：10.1109/cvpr.1994.32379416哈特利·R，齐瑟曼·A.计算机视觉中的多视图几何。剑桥大学出版社，2003年17Huber P.J. Robust Statistics.施普林格柏林海德堡，2011年18吴志，黄毅，余毅，王丽，谭涛.卷积网络学习的早期分层上下文用于图像分割。第22届模式识别国际会议论文集。瑞典斯德哥尔摩，2014年，1538-1543DOI：10.1109/icpr.2014.27319宋春芳，黄永智，王正英，王玲.使用深度卷积神经网络进行1000 fps的人体分割。第三届IAPR亚洲模式识别会议论文集。吉隆坡，马来西亚，2015，474-478 DOI：10.1109/acpr.2015.748654820吴华，朱伟，李文.使用深度轮廓感知网络进行人体分割。在：2018年计算和人工智能国际会议论文集。棉兰，印度尼西亚，2018，98-103 DOI：10.1145/3194452.319447121[10]杨文，杨文. 咖啡：卷积用于快速特征发现的架构。第22届ACM多媒体国际会议论文集。奥兰多，佛罗里达州，美国，ACM，2014年，675DOI：10.1145/2647868.265488922[10]杨文军，王文军. V-net：用于体积医学图像分割的全卷积神经网络。2016年第四届3D视觉国际会议（3DV）Stanford，CA，2016，565-571DOI：10.1109/3DV.2016.79524

下载后可阅读完整内容，剩余1页未读，立即下载