2020年虚拟现实智能硬件二维定位交互仿射变换

127 浏览量更新于2024-01-24 收藏 2.02MB PDF 举报

二维定位

智能硬件

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

虚拟现实智能硬件2020年12月第6引文：Mohammad Mahmudul ALAM，S. M. Mahbubur Rahman基于指尖二维定位的虚拟三维物体仿射变换。虚拟现实智能硬件，2020，2（6）：534-555DOI：10.1016/j.vrih.2020.10.001·文章·基于指尖二维定位的虚拟三维物体仿射变换MohammanddMahmudulALAM，S. M. MahbuburRAHMAN*孟加拉国工程技术大学电气和电子工程系，达卡1000，孟加拉国*通讯作者，mahbubur@ mart.buet.ac.bd投稿时间：2020年8月17日修订日期：2020年10月23日接受日期：2020年10月27日摘要背景在虚拟现实（VR）环境中与虚拟3D对象交互使用在可穿戴2D相机中捕获的手指的姿势在现实生活中具有新兴的应用。方法本文提出了一种两级卷积神经网络的方法，一个用于手的检测，另一个用于指尖。VR环境的一个目的是通过使用拇指和食指的手势来变换具有仿射参数的虚拟3D对象。结果以评估所提出的系统、一个现有的和另一个开发的以自我为中心的指尖数据库的性能被采用，使得学习涉及在现实生活中常见的大的变化。实验结果表明，所提出的指尖检测系统优于现有系统的检测精度。结论该系统在虚拟现实环境中的交互性能在估计误差和地面真实值与估计仿射参数之间的相关性方面高于现有系统。仿射变换;指尖检测;手检测;人机交互;虚拟现实1介绍增强现实（AR），虚拟现实（VR）和混合现实（MR）研究领域的最新趋势已经转向融合现实和虚拟世界以生成新的环境和可视化，其中物理对象几乎瞬间与虚拟对象交互[1- 4]。随着智能手机等现代设备处理能力的逐步提高，基于虚拟现实的应用程序正在成为这些设备的重要组成部分。已经表明，与虚拟对象的基于指尖的交互易于使用，并且比鼠标更令人满意，即使鼠标需要相对较少的任务完成时间[5]。然而，包括Oculus和Microsoft HoloLens在内的现有专用VR和MR设备对于普通使用来说都很昂贵。因此，一个负担得起的和通用的交互系统可能是一个很好的解决方案，以达到广大用户。这样的系统将在自我中心视觉中使用具有可穿戴2D彩色相机的徒手手势来建立与用户的交互。2096-5796/©版权所有2020北京中科学报出版有限公司Elsevier B. V.代表KeAi Communization Co. Ltd.提供的出版服务。这是CC BY-NC-ND许可证下的开放获取文章（http：//creativecommons.org/licenses/by/4.0/）。www.vr-ih.comMohammad Mahmudul ALAM et al：使用指尖的2D定位的虚拟3D对象的仿射变换535真实世界和虚拟世界之间的互动。由于手势在许多情况下在视觉通信中起着至关重要的作用，因此使用可穿戴相机的手的手指的交互系统将引起极大的兴趣。然而，使用可穿戴2D彩色相机在现实生活环境中识别手指手势和移动是一个挑战。基于Kinect传感器的深度相机可以很好地检测手和手指标志[6- 8]。但是，当使用常规的2D彩色相机检测指尖时，挑战进一步增加，这是一种廉价的选择。传统上，存在基于图像处理和机器学习的方法来解决使用2D相机检测指尖的问题。图像处理方法直接对图像执行操作以提取信息，而机器学习方法从数据中迭代地学习参数。基于图像处理的技术[6，9-12]具有背景、手形和颜色的依赖性，并且在复杂环境中往往会失败。另一方面，基于机器学习的方法比基于图像处理的技术性能更好[13]。然而，现有的基于机器学习的技术在存在手指的真实运动的情况下也容易出现检测错误[14- 18]。例如，如果两个手指非常接近，这些方法通常无法检测到它们的位置。特别是，它们的相对距离携带了重要的基于手势的信息，需要保留这些信息以实现可交互的VR环境。本文通过提出一种基于卷积神经网络（CNN）的方法来解决上述问题，该方法可以检测指尖，而不太依赖于手的形状或颜色或环境背景。所提出的系统是鲁棒的，以本地化的指尖，可以跟踪，甚至接近的指尖在自然运动的手和手指，这是理想的任何VR应用程序。具体而言，提出了一种两阶段CNN用于手和指尖的检测。在第一阶段，网络学习手的检测。该网络定位手并预测图像中有手的概率。如果检测到的手概率超过给定阈值，则从图像中裁剪其相关部分以供进一步处理。之后，第二个网络学习从手的这个裁剪部分定位拇指和食指指尖。最后，通过设计交互式VR环境，使用检测到的指尖来控制虚拟对象并与之交互。利用拇指和食指指尖的手势并通过跟踪手，演示了VR环境中虚拟3D对象的缩放，旋转，平移以及一般仿射变换的变化。此外，不同的虚拟环境中创建显示所提出的系统与现有系统的性能比较，不同的参与者的帮助。实验结果表明，该系统优于现有的系统在指尖坐标的估计误差和地面真值和估计仿射参数之间的相关性。在详细介绍所提出的基于指尖的自主交互式VR系统的方法之前，在下面的小节中，依次概述了历史定位、相关工作、分析范围和具体贡献。1.1历史定位在VR环境中使用手进行虚拟对象操作和交互的最早作品之一在[19，20]中提出。这些方法仅限于抓取和选择虚拟对象。 2004年，Tomozoe et al. 提出了一种将可移动性属性附加到每个虚拟对象的VR交互方法[21]。同样，Kiyokawa和Takemura提出了虚拟物体定位和保持[22]。在这些最初的方法中，使用特殊的传感器、标记或手套来定位手的位置。然而，随着现代计算机的处理能力的逐步发展，基于图像处理的手和536虚拟现实智能硬件2020年12月第6用于虚拟对象交互的指尖检测变得流行[23- 30]。近年来，由于基于深度学习的方法和低成本GPU的兴起，预计与这种基于学习的手和指尖检测方法的虚拟对象交互将呈上升趋势，例如Alam和Rahman[31]提出的方法。1.2相关作品基于指尖的交互式虚拟现实系统的一般方法是首先定位手和指尖，然后通过使用检测到的指尖与虚拟对象建立交互。例如，Lee和Hollerer提出了一个交互式AR系统，其中手参与了标记的角色[23]。该方法利用基于曲率的手自适应分割算法检测指尖。该方法只考虑虚拟物体在手掌上的平移变换。Rani等人提出了一种2D虚拟对象的位置控制，其中通过使用图像处理技术（如图像阈值处理、轮廓提取和手势检测）来检测手[24]。同样，Bai等人开发了一种在3D空间中操纵虚拟对象的技术，用于通过使用手指手势在AR设备中单独缩放，旋转和平移[25]。Song等人开发了一种基于指尖的MR界面，用于玩游戏，其中使用手指的形状检测进行指尖跟踪[26]。Ong和Wang提出了一种增强装配系统，使用3D自然徒手交互系统在AR环境中执行虚拟对象的旋转和平移变换[27]。Le和Kim提出了一种基于手势检测的框架，用于在增强环境中学习对象的3D几何形状，其中他们结合了缩放，旋转和平移变换来控制对象[28]。Weichel等人介绍了一种基于MR的系统，用于使用手势进行自设计制造，其中用户可以通过与对象交互来塑造虚拟对象[29]。Lee等人采用了一种机器人方法，使用从捏手套、手势和振动触觉反馈获得的多种手部感觉来选择和抓握虚拟对象，以提供自然交互[30]。1.3分析范围在实践中，手作为与虚拟环境交互的关键部件。因此，现有文献集中于首先检测手和指尖，然后使用检测结果与虚拟对象进行交互[31，32]。研究表明，基于图像处理技术的手和指尖检测方法对背景、手的形状和颜色具有依赖性。相反，使用机器学习方法的指尖检测在通常具有复杂背景的不同环境中是鲁棒的，该复杂背景很少依赖于照明变化以及手的形状和颜色。因此，为了实现鲁棒的VR交互系统，仍然存在结合诸如CNN的机器学习技术来检测指尖的范围。存在一种使用复杂硬件在虚拟环境中进行交互的方法，例如使用Leap Motion控制器或Microsoft Kinect深度传感器。但这些设备对大多数用户来说都很昂贵，而且很难作为便携式设备集成到智能手机中。因此，需要开发使用单个2D可穿戴相机的基于指尖的VR交互系统。在与虚拟对象的交互方面，大多数现有的基于2D相机的VR交互系统考虑虚拟对象的选择、平移或缩放。因此，它是值得进行广义仿射变换的虚拟3D对象与指尖互动，使用基于CNN的机器学习算法与CCD相机的帮助。537Mohammad Mahmudul ALAM et al：使用指尖的2D定位的虚拟3D对象的仿射变换=h h h hi= 1j= 1k= 1N2Mi= 1j= 1k= 1吉吉吉吉1.4具体贡献本文提出了一种新的基于CNN的指尖检测方法，开发了一个VR交互系统，其中指尖的运动驱动虚拟对象的仿射变换。本文的具体贡献如下：(1) 开发基于CNN的2D图像序列中拇指和食指指尖的自动检测，以获得VR环境中虚拟对象的仿射变换。(2) 使用两个数据库，现有的和新开发的以自我为中心的指尖数据库，后者是公开发布的建议基于CNN的手和指尖检测系统的性能评估。(3) 评估所提出的基于指尖的VR交互系统的广义仿射变换（e。例如，在一个实施例中，缩放、旋转和平移）。本文的结构如下。在第2节中，详细介绍了拟议的系统。第3节描述了虚拟现实环境中指尖检测和交互的实验、比较和结果。最后，在第4节中给出了结论。2该方法在所提出的系统中检测指尖，以建立指尖和VR环境中的虚拟3D对象之间的交互。提出了一种级联两级CNN结构用于指尖检测系统。在这种架构中，在第一阶段使用对象检测算法来识别手。在第二阶段中，从手的裁剪部分检测指尖。最后，使用指尖的坐标位置来控制虚拟3D对象。在接下来的小节中，首先描述了手检测系统，然后描述了指尖检测系统，最后介绍了虚拟环境中的交互。2.1手的检测手检测系统是使用流行的实时对象检测和分类算法学习的，名为You Only Look Once（YOLO）[33]。该算法将整个图像划分为N×N个单元格，并预测每个单元格的类别标签。位于对象中心的分区单元负责检测对象。每个单元预测五个参数。这些参数在安全性或可扩展性方面影响了在h x 1时，在hx1和Y1，并且两者都可以被定义为Hx2和 Y2。参考值，输出的每个网格单元都是由下式给出的五个元素的矢量或表达式：别墅（1）c x1y1x2y2所提出的系统的目的是采用用于检测单个对象的算法，即，手该算法通过采用Darknet-19架构进行训练[33]。为了优化网络，建议的损失函数由下式给出：L1（H，H）=1 ∑0lnH[0]+（1-H）×ln（1-H [ 0]）+N N MN N M（二）2∑H[0]ijk× {H[1：4]ijk-H[1：4]ijk}538虚拟现实智能硬件2020年12月第6t t ii其中，H和H是手的地面真值和预测向量，N和M分别表示网格大小和批次大小。这里，使用i= 1，2，n，N和j= 1，2，n，N对每个网格求和，使用k= 1，2，n，M对批次求和。2.2指尖检测在第一阶段中检测到的手被裁剪并在尺寸上归一化，然后被馈送到CNN的第二阶段。该阶段估计剪切图像中指尖的坐标位置。在手的指尖中，仅检测拇指和食指。让指尖检测模型预测由下式给出的四个元素的向量：F=fxtfytfxiFYI中国（3）其中fx、fy、fx和fy是拇指和食指指尖的相应坐标位置针对特征学习，四种不同的CNN架构，即，VGG-16[34]、InceptionV 3[35]、Xception[36]和MobileNetV 2[37]都被采用。在每种情况下，特征学习阶段的输出被平坦化为向量。此外，两个全连接层（FC）背靠背添加在输出级，以更好地检测指尖。这些FC中的每一个后面都是整流线性单元（ReLU）激活层和丢弃层。在该阶段结束时，添加FC，使得特征向量大小减小到与F的大小相同。最后，使用S形激活函数，使得指尖的坐标点保持在裁剪的手图像内。指尖检测模型直接从输入图像回归拇指和食指指尖坐标位置。为优化指尖检测模型而定义的均方误差（MSE）损失函数由下式给出：L2（F，F））=1 ∑P∑M（ij）-F （ij）2002年（4）PM i = 1 j= 1其中，F和F分别表示指尖的地面真值和预测坐标，P和M分别表示向量F的长度和批量大小。首先，使用j= 1，2，n，M获取批次的平均值，然后使用i= 1，2，n，P获取每个元素的平均值。的概述所提出的指尖检测系统如图1所示。为了简洁起见，激活函数和dropout层未在该图中示出。图1是指尖检测系统的框图表示。在输出图像中，检测到的手被示出在蓝色边界框中，并且检测到的拇指和食指指尖位置分别使用绿色和红色填充的圆圈被示出。2.3训练和优化常用的自适应矩估计（ADAM）优化器被用来优化网络检测手和指尖。该优化器使用损失函数梯度的一阶和二阶矩的移动平均值，由[38]Mohammad Mahmudul ALAM et al：使用指尖的2D定位的虚拟3D对象的仿射变换539v（fxt-fxi）2 +（fyt-fyi）2公司简不11Dw不sx00m=β m+（1-β）dL（5）vt=β2vt-1+（1-β2）dLq2dwt（六）、其中q（q∈ 1，2）和β1和β1（0β1，β21）是控制移动平均值衰减率的两个超参数，t代表特定迭代。最后，对模型的权值进行更新由下式给出wt= wt-1 -η mt（7）其中，η（η> 0）是学习率，并且η（η> 0）是用于避免零除法误差的无穷小数。2.4VR环境与交互首先设计了一个基于Vuforia的交互系统，然后在此环境中传递拇指和食指指尖的坐标位置，并将其与指尖检测系统相结合。建议的VR环境需要标记的帮助，即。例如，与虚拟对象交互的图像目标。使用特征匹配将相机中捕获的图像与给定的标记图像进行比较，以定位和跟踪虚拟3D对象。为了在VR环境中建立与虚拟对象的交互，真实对象，即，手，需要放在相机和图像目标之间。随后，将手指尖的坐标位置转移到虚拟环境中，以便对虚拟对象进行仿射变换。这种变换可以通过在仿射参数和物体坐标之间执行矩阵运算来实现。2.4.1尺度变换令尺度变换矩阵S被定义为[39]S=0sy 00 0sz（八）其中sx、sy和sz是沿x、y和z轴的缩放变换量。对于虚拟对象的缩放变换，指尖之间的距离被映射到沿所有三个轴的缩放值。首先，计算拇指和食指指尖之间的距离，然后，距离使用分段线性函数映射尺度变换。两个指尖之间的欧几里得距离D估计为：D=（9）为了在VR交互中获得更好的体验，即，为了消除人与人之间的差异，设置指尖距离的最小和最大阈值。使用分段线性函数映射D与虚拟3D对象的尺度变换量s（s∈sx，sy，sz）之间的关系。设τu和τl分别为对应于尺度变换极限λu和λl的指尖距离的上限和下限。那么分段线性函数可以是表示为s（ s∈ sx， sy， sz）=λu，D>τub × D+ c，τl≤ D≤ τuλl，D τl<（十）t-1虚拟现实智能硬件2020年12月第6540cosβ cosγ-fcxz其中b和c表示线性函数中间部分的斜率和垂直轴截距，λu-λlτu-τlλlτu-λuτlτu-τlλl和λu以及τl和τu的值取决于用户，可以在实验期间设置2.4.2旋转变换沿着三个轴Rx、Ry和Rz的旋转变换矩阵可以定义为[39]（十一）（十二）Rx（αx）=1 0 00 cosαx-sinαx0 sinαxcosαx（十三）Ry（βy）=Rz（γz）=cosβy0 sinβy0 1 0-sinβy0cosβycosγz-sinγz0sinγzcosγz00 0 1（十四）（十五）其中αx、βy和γz是绕x、y和z轴的旋转量。作为整体，完整的旋转变换矩阵R可以表示为：R=Rx（αx）Ry（βy）Rz（γz）n.Z-cosαxsinγz+sinαxsinβycosγzcosαx cosγz +sinαsinγ+osαxsinβycosγ-sinαx cosγz +π（十六）高斯βysinγzsinαxsinβysinγzcosαxsinβysinγsinβsinαcosβcosαcosβx为了使虚拟对象围绕任何给定的轴旋转，可以使用由拇指和食指指尖与3D真实世界的轴的连接线产生的角度θ。然而，由于使用2D相机进行指尖检测，因此围绕z轴的旋转角度可以计算为：θ（θ∈γ）=-tan-1fxt-fxiF（十七）zYTYI换句话说，然后将计算出的角度直接映射为γz，以围绕z旋转虚拟对象轴线2.4.3平移变换具有沿三个轴的平移量tx、ty和tz的平移变换矩阵T可以定义为[39]Tx TxTT=我的天TZ TZ TZ（十八）这是为了使用2D相机，可以实现沿x和y轴的平移tx和ty的量。在这种情况下，拇指和食指指尖的归一化中心被用于虚拟对象的平移。与比例变换类似，每个轴的平移量使用线性变换分别映射在最小和最大单位tmin和tmax如果拇指和食指指尖的归一化质心是CX和CY，则变换量t可以定义为：B=C=yMohammad Mahmudul ALAM et al：使用指尖的2D定位的虚拟3D对象的仿射变换541t（t∈tx，ty）=（tmax-tmin）×c（c∈cx，cy）+tmin（19）这里，tmin和tmax的值取决于用户，可以在实验期间设置。2.4.4仿射变换最后，仿射变换可以通过将虚拟对象的3D位置矩阵V与缩放变换矩阵S和旋转变换矩阵R相乘，并求和到平移变换矩阵T来实现，其由[39]V'= RV+ T（20）其中V'是仿射变换之后虚拟对象的新3D位置矩阵。使用2D相机的虚拟对象的整体仿射变换的框图如图2所示。在算法1中给出了虚拟环境中对象的仿射变换的指尖检测系统的逐步过程。图2使用指尖的2D定位的虚拟对象的仿射变换的整个系统的框图。3实验和结果为了验证所提出的基于指尖的虚拟现实交互系统，进行了实验。在本节中，首先介绍数据集的特征。然后给出了训练的数据扩充过程。接下来，手和指尖检测模型的性能评估。最后，所提出的系统与现有系统的比较和评价的指尖检测系统的情况下，虚拟3D对象的缩放，旋转和平移变换。实验在具有8GB内存的Intel Core i5 4590和具有4GB内存的Nvidia GTX 1050 Ti GPU以及Logitech C270720p HD网络摄像头的计算机上进行。手和指尖检测、虚拟环境和预训练模型的代码在这里公开发布：https://github.com/MahmudulAlam/Fingertip-Mixed-Reality。3.1数据集华南理工大学自我中心手势（SCUT-Ego-Gesture）数据库[16]首先用于实验，该实验具有在自我中心视觉中捕获的16种不同类型的手势。其中，考虑SingleEight手势，因为手图像的该手势仅包括拇指和食指。这个SingleEight手势数据集包含3380个RGB手部图像，只有拇指和食指。手的地面真值是一个边界框（由左上和右下坐标定义），指尖的地面真值是指尖质心的坐标所述参考标准数据虚拟现实智能硬件2020年12月第6542算法1虚拟物体1导入经过训练的手部检测权重2导入训练的指尖检测权重3初始化4号摄像头5而True则6从照相机7捕获图像8如果没有捕获图像，则9打破1011边界框=使用手检测器1213ifhand is present == True然后14（hx 1，hy 1），（hx 2，hy 2）= top-lef t andbottom-r i tcoordinateof thebound in box15cropped imag e = imag e[hy1：hy2，hx1：hx2]1617[181920（height，width，channel）=裁剪图像形状调整裁剪图像大小128 × 128fxt，fyt，fxi，fyi]=确定手指尖端位置#将指尖位置转换为真实图像fx= fx×宽度+ hx21t t122fyt =fyt ×height+hy123fxi =fxi ×width+hx124FYI =fyi ×height+hy12526根据等式（9）计算距离D27根据公式（10）计算s28根据式（17）计算θ29根据公式（19）计算t30使用等式（20）SingleEight 数据集由数据库开发人员提供，即， SCUT-Ego- Gesture 数据库的作者[16] 。虽然SingleEight手势数据集具有不同比例、背景、颜色和大小的手指图像，但数据集缺乏手指的自然运动。因此，开发了具有1000个手部图像的数据集，其中包括拇指和食指的自然运动。该数据集被称为Thumb Index 1000（TI1K）。总体而言，TI1K数据集包含1000张左右手分辨率为640 × 480的图像，但每张图像只有一只手。手的地面真值边界框和TI1K数据集的拇指和食指指尖的质心的坐标由本文的作者手动注释和标记。为了准备训练、验证和测试数据，每个数据集被分成三个部分，然后分别组合以创建通用数据集。此外，所有的验证和测试图像被水平翻转，以合成生成对侧手的图像。数据集的总大小以及训练、验证和测试中使用的图像数量见表1。两个数据集的图像之间的视觉比较如图3所示。在这张图中，TI1K和SingleEight数据集在自然运动方面的差异很明显。ThumbIndex 1000（TI1K）数据集是开源的，并与注释一起发布，可在此处获得：https://github.com/MahmudulAlam/TI1K-Dataset.3.2数据增强为了降低训练数据集过拟合的风险，在训练会话中生成了人工数据。除了原始图像的水平翻转外，我们还实现了实时数据Mohammad Mahmudul ALAM et al：使用指尖的2D定位的虚拟3D对象的仿射变换543表1通用数据集单八TI1K通用训练集25808003380验证集400 + 400（翻转）100 + 100（翻转）1000测试集400 + 400（翻转）100 + 100（翻转）1000总418012005380图3两个数据集的手指图像之间的视觉比较， [16]第16话和你一起 (a)SingleEight的直手指没有拇指和食指的运动。在TI1K数据集的图像中可以看到拇指和食指随着自然运动而变化的距离，其示例如（b），（c）和（d）所示。增强过程。在该过程中，通过应用随机平移、旋转、缩放、剪切、光照变化、裁剪、垂直翻转、加性高斯噪声和加性脉冲噪声来生成新的训练数据集。已在批处理的每个时期中随机生成图像的增强集合。通过这种方式，训练模型是从巨大的数据集中学习的，以确保每个模型的泛化。3.3手部检测模型YOLO算法用于使用表1中给出的数据集来训练手部检测模型。首先，将原始输入图像调整为（224× 224）并划分为（7 × 7）个网格，即，这里N= 7。位于对象中心的网格单元，即。例如，手负责检测手。每个细胞预测五个参数。因此，手部检测模型的最终输出张量的大小为（7 × 7 × 5）。该算法通过采用Darknet-19架构[33]进行训练，其中在最后一层中采用sigmoid激活函数进行归一化输出。该模型被训练了200个epoch，批量大小为32，学习率为10- 5，后来逐步降低到10- 7，以获得更好的收敛性。3.4指尖检测模型提出的基于CNN的指尖检测模型使用大小为（128 × 128）的裁剪和调整大小的手部图像以及拇指和食指指尖的相应地面真实位置进行训练。该模型的输出是长度为4的向量F，其中包含指尖的x和y坐标。对于特征学习，四种不同的CNN架构：VGG-16[34]，InceptionV 3[35]，Xception[36]和MobileNetV2[37]用于实验。为了实现所提出的CNN模型的最终输出大小为4，每个特征学习阶段的输出被平坦化为向量。FC层的输出向量大小被选择为1024，并且丢弃率被选择为0.5。指尖检测模型被训练总共30个时期，其中学习率最初被选择为10- 5，并且随后在逐步过程中降低到10- 7以实现更好的收敛。图4显示了拟议的指尖检测模型中四种特征学习CNN架构的损失函数的收敛性。在该图中，示出了训练和验证阶段的学习曲线，其中实线指示训练阶段，虚拟现实智能硬件2020年12月第6544j= 1图4指尖检测模型的四种特征学习架构的损失函数曲线。固体线表示训练损失，虚线表示验证损失。虚线表示验证阶段。从该图的训练和验证曲线可以观察到，VGG-16模型是四种类型中最好的。3.5手和指尖检测在1000幅图像的测试数据集上对所提出的指尖检测系统的性能进行了评估。首先，对使用YOLO算法的手检测系统进行了测试。在该算法中，每个图像被划分成一个网格的细胞，然后预测每个细胞的置信水平pc。因此，需要一个置信阈值。由于输出的二进制表示，置信度阈值选择为50%。为了确定预测的边界框的手与地面实况的手的接近度，边界框的交并（IOU）是计算为的gt 公司简介的gt 公司简介（二十一）其中Agt和Apr分别是地面实况和预测边界框的面积如果IOU分数超过50%，则认为是正确的预测。因此，手检测系统的精度A由下式确定：# images where（pc>50%IOU>50%）#images in test set&（二十二）表2示出了针对个体数据集和通用数据集的所提出的手检测系统的准确度和平均执行时间。从该表中可以看出，所提出的手检测系统的准确度高于92%。拇指和食指指尖的坐标使用所提出的CNN模型预测，表2拟议手动检测系统在准确性和平均执行时间单八TI1K通用地面实况8002001000估计749172921精度执行时间百分之九十三点六百分之八十六20.22毫秒百分之九十二点一使用检测到的手。地面实况与地面实况之间的坐标的平均绝对误差（MAE）以像素（px）为单位的指尖的预测位置被估计为1NE = N∑|Fj-F j|（二十三）其中N表示检测到的手的总数，和Fj表示地面实况，IOU=A=Mohammad Mahmudul ALAM et al：使用指尖的2D定位的虚拟3D对象的仿射变换545第j只手的指尖的预测坐标。这里，使用j= 1，2，N，N来取检测到的手的平均值。表3显示了两种不同分辨率（640 × 480）和（320 × 240）下指尖估计坐标的MAE，用于所提出的指尖检测模型中使用的四个特征学习网络。此外，还报告了每个特征学习网络的指尖检测的平均执行时间。由于图像总是被转换为（128 × 128）的大小用于指尖检测，因此每个网络的执行时间与输入图像的分辨率无关。从表3中可以看出，对于VGG-16架构，拇指和食指指尖之间的距离的MAE最小。从表中给出的结果还可以推断，MAE随着输入图像分辨率的降低而降低。由于VGG-16网络架构性能最好，因此在本文的其余部分中，将仅报告VGG-16架构的指尖检测结果。换句话说，在特征学习阶段中具有VGG-16网络的基于CNN的指尖检测系统将被称为所提出的方法。表3不同fea的指尖坐标位置预测的MAE性能指标真实学习模式CNN特征学习分辨率像素（px）Mae执行时间（ms）—|（px）f fxxtt||（px）FyFyt t||（px）fx fx我我||（px）FyFy我我|（px）|(px)VGG-16640 × 4804.54624.45254.26615.43286.402212.60320 × 2402.26462.38412.08982.69373.1085InceptionV3640 × 4807.07987.40937.15136.52479.860528.42320 × 2403.47813.87573.41753.31354.9152Xception640 × 48013.286615.217914.710415.691425.557219.80320 × 2406.37697.64427.1347.534912.5132MobileNetV2640 × 4807.05587.40557.48587.635510.560411.76320 × 2403.39063.79963.62583.73395.12693.6与现有系统的将所提出的指尖检测系统与两个现有的基于CNN的指尖检测系统进行比较，即DeepFinger[14]和“双目标指尖检测”（DTFD）[18]。在下面的小节中，首先在2D图像的测试集上进行指尖检测的性能比较，然后评估所检测的指尖与VR环境中的对象的交互的性能。3.6.1预测坐标位置为了对指尖检测系统进行公平的判断，即DeepFinger[14]，DTFD[18]和所提出的方法在相同的训练数据集上实现。在比较这些算法时，YOLO被用于所有三个系统的手检测的第一阶段。在表4中报告了测试数据集上的结果，即每帧的MAE和执行时间，以预测三种方法的坐标位置。从该表中可以看出，与其他方法相比，所提出的指尖检测方法提供了少20%-25%然而，它需要大约10ms以上的时间比其他方法，因为所提出的方法在其模型中使用了更多的参数，以减少MAE误差。即使所提出的方法需要比其他方法更高的执行时间，它仍然远远低于最低实时要求33.33ms虚拟现实智能硬件2020年12月第6546表4指尖坐标位置预测的性能指标，以比较拟议的和现有的 ing方法方法可训练参数Mae执行时间（ms）—|（px）f fxxtt||（px）FyFyt t||（px）fx fx我我||（px）FyFy我我|（px）|(px)该方法24,158,0204.54624.45254.26615.43286.402212.60DeepFinger1,519,90818.048317.845814.170514.795226.14252.84DTFD568,13221.566420.840316.119414.846630.352.22(30 FPS视频）。因此，所提出的方法优于现有的两种方法的大幅度的MAE在相当数量的计算时间为代价。3.6.2VR环境为了评估使用检测到的指尖进行交互的性能，使用Unity平台中不同参与者的手实现了许多虚拟3D对象的仿射变换。在实验中，确保手具有不同的视图、大小、形状和手指的皮肤颜色。例如，评估参与者的左手和右手两者的交互的性能。在实验中，显示了12名参与者的代表性结果。其中，4名受试者评价了尺度变换的性能，4名评价了旋转变换，4名评价了平移变换。换句话说，这些主体在参与方面是相互排斥的。根据受试者对缩放、旋转或平移变换的偏好，他们被指示在摄像机前做特定的手指手势，并被告知将手保持在记录用于客观评估的帧内。对于每种类型的变换，每个参与者使用四个虚拟对象之一，即直升机，地球，船和树。这些虚拟3D对象的视图如图5所示。这里要注意的是，直升机的机翼有旋转运动，其余部分是静止的。图5虚拟环境中的实验3D对象视图。这些物体是（a）直升机，（b）地球，(c)（1）船;（2）树。参与者的手的动作是使用CCD摄像机捕捉的，帧速率为10 fps，分辨率为640×480。手的边界框的地面真值坐标和参与者的视频的每个帧中的拇指和食指指尖的质心的坐标由本文的作者手动注释和标记。使用指尖的基础真值坐标，使用（9）、（10）、（17）和（19）计算仿射参数的基础真值。所提出的系统预测的拇指和食指的指尖的坐标的视频剪辑的每一帧为5s。根据预测的坐标，计算指尖之间的欧几里得距离D、在框架的垂直轴和指尖的接合线之间产生的角度θ以及接合线的中心坐标（Cx，cy）。使用D的值，根据在（10）中给出的分段线性函数来计算虚拟3D对象的沿x、y和z轴的尺度量s。角度θ被直接用作γz用于绕z轴旋转，并且中心坐标（Cx，cy）被用于沿x和y轴平移虚拟对象。在（10）中给出的线性函数的阈值τ1和τu被选择为100像素和180像素，Mohammad Mahmudul ALAM et al：使用指尖的2D定位的虚拟3D对象的仿射变换547通过考虑在实验中指尖之间的距离的平均值是140个像素，分别计算了两个像素。在实验中，选取阈值λl和λu分别为0.05和0.20进行尺度变换。在旋转变换的情况下，虚拟对象根据下式围绕z轴旋转：θ在-180° C至180° C范围内。对于平移变换，cx用于沿x轴平移对象，并且tmax和tmin分别被选择为1和-1类似地，cy用于沿y轴平移对象，并且tmax和tmin分别被选择为0.5和-0.5表5、6和7分别示出了仿射参数（即，虚拟3D对象的缩放、旋转和平移参数）的变化的预测值和地面真值之间的MAE和皮尔逊相关系数方面的交互性能。 MAE和相关系数是根据使用提出的方法、DeepFinger[14]和DTFD[18]为视频帧预测的指尖坐标估计的。在这些表中，每个参与者的地面真值的仿射参数的变化以平均值μ（μ∈μs，μγ，μt）和标准差σ（σ∈σs，σγ，σt）报告。表5由于使用指尖参与者对象手系统MaePDPsD-D|s—s̂|（联合国）编号：01直升机左该方法4.26701.22e-030.99850.99850.0719 - 0.0719 -0.0719DeepFinger14.02562.09e-030.99080.9955σs：0.0470DTFD11.72375.69e-030.98060.9909编号：02地球左该方法8.79881.16e-030.99670.99760.1369-DeepFinger62.83132.42e-020.9150.9208σs：0.0722DTFD29.78898.91e-030.97160.9432编号：03船权该方法20.13741.20e-020.98220.96480.0989 - 0.0989 -0.0989DeepFinger26.5763.59e-020.91390.76040.0570DTFD24.77943.08e-020.92180.8609编号：04树权该方法8.56414.97e-040.99580.99980.1439-DeepFinger24.40222.74e-030.97420.9928σs：0.0682DTFD18.18084.08e-030.97270.9893表6 根据MAE和旋转变化引起的相关系数的相互作用的性能度量 3D虚拟物体的使用指尖参与者对象手系统Maeγz-γz（度）Pγz编号：05µγ：-13.7225σγ：14.5027ID：06µγ：-18.7532σγ：22.4175ID：07µγ：17.6527σγ：7.4468ID：0827.5098σγ：12.0430Ω直升机地球船树左左权权建议的方法DeepFingerDTFD建议的方法DeepFingerDTFD建议的方法DeepFingerDTFD该方法DeepFingerDTFD4.88705.25818.91713.47829.33078.49617.561817.243515.03435.576323.938916.59580.99070.93230.85380.99090.92210.87780.7187-0.0900-0.56690.85520.11590.1222虚拟现实智能硬件2020年12月第6548γ表7由于使用指尖参与者对象手系统MaePt yPtXty-ty（单位）tx-tx（单位）编号：09直升机左该方法0.00860.00810.99930.9906µt：-0.1286- 0.0158单位DeepFinger0.07070.01890.99120.9808σt：0.0817 0.2943单位DTFD0.14770.02020.99030.9636编号：10地球左该方法0.01210.00910.99930.9776µt：-0.0641 0.1821单位DeepFinger0.08230.02060.99140

下载后可阅读完整内容，剩余1页未读，立即下载