没有合适的资源?快使用搜索试试~ 我知道了~
引文:Abhishek MUKHOPADHYAY,G S Rajshekar REDDY,KamalPreet Singh SALUJA,Subhankar Ghosh,AnasolPEGREA-RIOS,Gokul GOPAL,Pradipta BISWAS.基于虚拟现实的办公空间数字孪生模型,具有社交距离测量功能。虚拟现实智能硬件,2022,4(1):55-75DOI:10.1016/j.vrih.2022.01.004虚拟现实智能硬件2022年12月4日第1·文章·具有社交距离测量功能的办公空间的基于虚拟现实的数字孪生模型AbhishekMUKHOPADHYAY1,GSRajshekarREDDY1,KamalPreetSinghSALUJA1,SubhankarGHOSH1,AnasolPESTA-RIOS2,GokulGOPAL2,PradiptaBISWAS1*1. 印度科学研究所,印度2. 英国BT Plc*通讯作者,pradipta@iisc.ac.in接收时间:2021年5月16日修订日期:2021年9月2日接受日期:2021年9月21日摘要背景社会距离是减少SARS-CoV-2病毒传播的有效方法。许多学生和研究人员已经尝试使用计算机视觉技术来自动检测摄像头视野中的人,并帮助加强社交距离。然而,由于一些国家目前的封锁措施,使用大规模数据集验证计算机视觉系统是一个挑战。方法本文提出了一种新方法,用于生成定制数据集并使用虚拟现实(VR)技术验证基于深度学习的计算机视觉模型。使用VR,我们对现有办公空间的数字孪生模型(DT)进行了建模,并使用它来创建不同姿势,着装和位置的个人数据集。为了测试所提出的解决方案,我们实现了一个卷积神经网络(CNN)模型,用于在有限大小的真实人类数据集和模拟的人形数据集中检测人。结果我们在真实和合成数据集中检测到的人数准确率均超过90%,并且实际距离和测量距离显著相关(r=0.99)。最后,我们使用了基于非线性层和热图的数据可视化技术来解释CNN的故障模式。结论通过测量个体之间的社会距离,提出了一种新的应用DTs,以提高工作场所的安全。使用我们提出的管道以及用于可视化环境和人类行为方面的共享空间的DT保护了个人的隐私并改善了这种监控系统的延迟,因为只有提取的信息才被流式传输。虚拟环境;数字孪生;三维可视化;卷积神经网络;目标检测;社会距离1引言COVID-19疫情已被视为第二次世界大战以来最严重的人类灾难之一。这一流行病在不同地理区域以不同的速度蔓延,2096-5796/©版权所有2022北京中科学报出版有限公司Elsevier B. V.代表KeAi Communization Co. Ltd.提供的出版服务。这是CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by/4.0/)。www.vr-ih.com虚拟现实智能硬件2022年12月4日第1以适应“新常态”。社交距离无疑是减缓疾病在工作场所和购物中心等其他拥挤场所传播的有效策略。然而,由于无知和人类活动的性质等各种因素,实施社会距离往往具有挑战性。随着受影响地区的办公室和购物中心逐渐重新开放,一种自动测量和提醒偏离社交距离的方法可能是阻止疾病传播的有效方法。社交距离可以使用计算机视觉技术通过检测摄像机视野内个人的存在来自动测量。大多数现代计算机视觉系统基于机器学习技术运行,这反过来又取决于适当的训练和测试数据集。尽管自动驾驶汽车和面部图像等数据集过多,但在目前情况下,为社交距离测量系统生成适当的数据集仍然是一项挑战,因为许多办公室、购物中心和公共场所要么关闭,要么在人员减少的情况下运营。然而,随着越来越多的人开始返回工作场所,用于准确检测和计算室内场所的最佳人数的自动系统对于加速恢复正常活动具有重要价值。对于这种方法,在室外环境中训练的系统可能不如在室内环境中训练的系统工作得好,在室内环境中,诸如背景颜色、照明甚至人员的姿势等变量将不同。按照类似的逻辑,我们必须考虑到,即使是在一个特定的室内环境中训练的系统,在另一个室内环境中也可能无法很好地工作。在这种情况下,我们提出了一个数字双胞胎(DT)的工作空间,通过互动和沉浸式虚拟现实(VR)的经验。用户可以在虚拟和远程空间中移动,就像他们在现实世界中一样。使用DT作为可视化媒介的好处是多方面的。首先,DT提供了可用于VR的交互式和直观的虚拟体验。用户可以像在现实世界中一样在虚拟环境中导航。第二,与直接的视频馈送相比,虚拟环境通过抽象的人形人物来保护居住者的隐私。在虚拟世界中,在记录真实世界馈送的相同位置模拟虚拟摄像机。然后,我们将二维质心坐标映射到虚拟相机的馈送上。此外,通过光线投射操作,二维坐标被映射到虚拟世界的三维坐标,因此,实时模拟人的运动。此外,为了帮助我们调试系统的性能,我们使用数据可视化技术来解释复杂机器学习系统的工作原理,例如卷积神经网络(CNN)。作为本研究的主要贡献,使用VR数字孪生模型验证了合成数据生成系统。虽然早期的研究对交通数据集或机器人控制采取了类似的方法,但我们验证了VR DT用于检测办公室内的人员。本文的其余部分组织如下。第2节介绍了基于VR的工作空间模拟器的文献调查,特别是在COVID-19和不同的人体检测系统的背景下。 随后的部分介绍了一个案例研究,用于开发基于VR的模拟器,使用合成数据集训练CNN,并使用适当的数据可视化技术解释CNN在真实和合成数据集上的操作。最后几节突出了该系统的效用和增值,并提出了一些结论性意见。2相关工作2.1数字双胞胎第一个数字孪生子的实现可以追溯到NASA的阿波罗计划[1],其中实时任务是56Abhishek MUKHOPADHYAY等人:具有社交距离测量功能的基于虚拟现实的办公空间数字孪生模型用于复制10万英里外的机组人员所面临的问题场景。NASA[1]在2012年正式定义了DT的定义,它是一个集成的多物理场、多尺度和概率仿真,用于建造一个飞行器或系统,使用最好的可用物理模型、传感器更新、舰队历史和其他可用数据来反映其相应的飞行双胞胎的情况。Tao等人强调了工业DT中最先进的方法[2],根据这些方法,DT已在三个关键应用领域实施:(1)产品设计,(2)生产,以及(3)生物学和健康管理(PHM),其中大部分主要集中在(3)。Khajavi通过复制前立面的一部分来探索DT在智能建筑场景中的使用[3]。通过将不同的黄色阴影分配给从传感器接收的相应勒克斯值来可视化立面。由于其各种可能性和好处,出现了若干商业解决办法。一个例子是Azure Digital Twins(ADT)[4],这是一种基于云的服务,旨在通过提供软件即服务解决方案来实现DT部署的民主化。Steelcase是一家以工作空间设计而闻名的公司,它使用ADT开发了一个空间感知传感器网络[5]。通过实施一套无线红外传感器,他们生成了关于他们的空间如何被利用的分析,这反过来又被用来提高可靠性和效率。ICONICS[6]还利用ADT创建物理空间的虚拟表示,以提高能源效率,优化空间使用并降低成本。2.2COVID-19中的数字孪生通过实时传感器数据和准确的模拟,DT可以在减少COVID-19传播方面发挥至关重要的作用。Milne等人对澳大利亚的一个城市进行了建模,以了解社交距离的有效性,并报告说,这种距离是使流行曲线变平的重要因素[7]。阿尔托大学、芬兰气象研究所、芬兰VTT技术研究中心和赫尔辛基大学组成的一个联合体[8]通过模拟室内空间的可能情况来研究病毒的传播。他们研究了各种情况,比如一个人在杂货店的过道上咳嗽。在Sharma的一篇博客文章中,作者得出结论,传统的工作场所模式在管理社交距离方面是无效的。此外,Unity Technologies[10]构建了一个开源模拟器概念,用于在虚拟的三维杂货店环境中可视化COVID-19的传播。包括谷歌和亚马逊在内的大型行业参与者也试图在室内和室外空间轻松实现社交距离。谷歌发布了一个名为SODAR的网络应用程序,它使用WebXR技术来帮助员工保持必要的距离。它的工作原理是在用户行走时围绕用户画一个2米的圆圈,如果有其他人进入这个圆圈,它会提醒用户。亚马逊还开发了一个类似镜子的工具,帮助员工观察办公室工作空间中的物理距离。增强现实和机器学习技术被应用于向员工提供视觉反馈。 它描绘了一个人在进入任何其他人的6英尺范围内时处于一个红色圆圈内。2.3人物检测行人或人物检测是计算机视觉领域的一个关键研究领域。它在自动驾驶汽车、视频监控和机器人技术中有应用。在行人/人检测研究的早期阶段,人们使用Haar小波特征[13-15]或基于组件的行人检测[14,16,17]。随着计算能力的提高,研究人员已经开始使用基于梯度的表示[17-20]和基于可变形部分的模型(deformable part-based model,简称deformable model)及其变体[19,21,22]。Hosang等人首先使用CNN进行行人检测[23]。尽管快速和更快的RCNN方法在一般目标检测方面表现良好,但由于特征图的分辨率较低,它们无法检测较小的行人Zhang等人57虚拟现实智能硬件2022年12月4日第1通过使用提升森林技术的特征融合解决了这个问题[24]。此外,Cao等人引入了统一的多层通道特征(MCF),在CNN的每一层中集成了手工特征(HOG+LUV)[25]。Tian等人还使用语义分割优化了行人检测任务,以改善硬阴性检测[26]。为了克服照明和照明中的遮挡和变化问题,Xu等人提出了一种跨模态学习框架,该框架具有来自RGB和热成像相机的输入图像[27]。Wang等人还通过提出一个边界框损失函数来解决遮挡问题,称为排斥损失函数[28]。2.4CNN的可视化虽然基于CNN的对象识别已经取得了令人印象深刻的性能,但使用CNN面临着使用黑匣子的挑战。在CNN的不同层中学习的特征很难理解,除非我们可以可视化它们是如何工作的。可解释人工智能(XAI)似乎克服了这些问题,提供了透明的模型(白盒),允许人类了解人工智能决策是如何做出的;因此,它们不仅依赖于数据,而且可以通过人类观察来改进[29]。关于CNN可视化技术应用的简短文献调查可以在其他地方找到[30]。2.5总结过去的研究主要集中在工业场景中使用DT[2]。尽管有关于双胞胎使用的文献,但只有Nikolakis等人专注于使用昂贵的深度相机绘制个人的位置和姿势[31]。合成数据也被证明是生成注释数据集的成功替代方案,在大流行期间尤其重要。此外,我们推断,现有的国家最先进的对象检测模型无法检测到人类的准确度,因为他们在一般的对象检测。已经提出了许多方法来克服这种限制。在本研究中,我们将使用后续章节中详细介绍的方法来解决这些限制。3我们所提出的方法一个统一的建模方法DT尚未开发。根据Tao等人的观点[2],一个通用的框架是至关重要的。作者还概述了在对孪生模型建模时应该解决的五个维度:物理部分、虚拟部分、数据、它们的连接和服务建模。我们与英国电信合作,为他们在印度班加罗尔的办公室工作空间创建了一个DT。我们使用Unity 3D的建模、物理模拟和渲染功能构建了一个12人会议室及其周围区域的三维(3D)表示。物理和虚拟世界通过套接字连接。具体来说,我们绘制了空间的天气属性,例如使用DHT-11传感器测量的温度和湿度。此外,通过光线投射操作,二维坐标被映射到虚拟世界的三维坐标,因此模拟人的运动。为了确保双胞胎在数据生成方面尽可能具有照片级真实感,我们采用了Unity的光线跟踪工具[32],而不是传统的光栅化渲染器。光线跟踪是一种渲染技术,涉及跟踪从场景中的虚拟对象反弹的单个光线。具体来说,我们使用Unity的路径跟踪算法[33],样本数为4096,也就是说,该算法跟踪4096条光线,需要4096帧来生成单个图像。因此,如果模拟以30 fps运行,则生成单个图像将花费大约2.3分钟。为了自动化该过程并增加数据集的多样性,我们使用了58Abhishek MUKHOPADHYAY等人:具有社交距离测量功能的基于虚拟现实的办公空间数字孪生模型团结我们能够使用感知包及其内置的随机发生器生成高逼真度的射线跟踪合成数据集,这些数据集是坐着或站着的人形生物。通过利用这个随机发生器,人形的姿态,即位置和方向,改变根据一个随机种子与每次迭代。通过在固定的z轴上随机化姿势,我们也能够确保类人机器人不会相互冲突。3.1计划的物理设置在计划部署中,每个会议室都有一套天气监测传感器和摄像头(图1)。来自传感器和摄像机的数据在本地计算机上收集和处理。处理涉及通过低通滤波从传感器读数中消除噪声,并使用CNN计算每个会议室内的人数。处理后的数据通过网络接口发送到配备高端图形处理单元(GPU)的中央计算机。基于VR的DT将部署在这台机器上,并通过实时传感器馈送进行更新。实现的演示视频可以在 https : //youtube/XGYvDnwbyhM 找 到 , 网 络 版 本 可 以 在 www.example.com 找 到http://cambum.net/BT/BTWebGL/。图1基于VR的DT的计划设置。图1显示了DT实施的计划部署示意图,从摄像头和物联网传感器(温度和湿度)收集实时数据。之前为智能制造能力部署了类似的设置[34]。3.2通过人员检测该系统被设计成使得系统输入设备(即,传感器和摄像机)需要在物理办公空间内实现。然而,鉴于目前印度许多地区大部分办公场所仍因疫情而关闭的情况,该系统无法部署在指定的办公场所。即使在办公空间重新开放后,也需要很长时间才能生成适当的数据来验证CNN的人员检测。因此,我们计划使用基于VR的数字孪生模型生成合成数据,以验证基于CNN的人员检测模型。我们选择YOLOv3作为我们的59虚拟现实智能硬件2022年12月4日第1基于以下研究的人员检测模型:(1) YOLOv3的性能在准确性和延迟方面与Faster RCNN,Mask RCNN,SSD和RetinaNet进行了比较,发现YOLOv3优于其他模型[35,36]。(2) Redmon等人还报告说,当他们用艺术品图像微调模型并在合成数据集上测试时,YOLO的表现优于其他模型[37]。最后,我们测量了每对人形机器人之间的距离,并计算了这个测量值与虚拟环境中实际距离的相关性。我们在第5节中详细描述了YOLOv3的训练、验证和距离测量。3.3通过可视化进行为了了解CNN的性能,我们研究了两种不同类型的CNN可视化技术。(1) 第一种类型是根据Zeiler和Fergus[38]可视化CNN模型的中间层。这种可视化技术对于理解连续的convnet层如何转换其输入非常有用。它还让我们了解了CNN模型不同层的不同滤波器从输入图像中提取的特征类型。(2) 第二种是基于Grad-CAM的可视化[39],旨在了解图像的哪个部分在预测人物类别时具有最大关联。为了获得对应于特定类别的类别区分定位图,我们用最后一个卷积层的特征图计算梯度。将这些梯度进行全局平均合并,以获得与该类对应的权重,然后是激活图的加权组合;最后,我们应用了ReLU函数。因此,我们获得了一个粗略的热图,其大小与CNN模型最后一个卷积层中的特征图相同。在最后一步中,我们将粗热图的大小调整为输入图像的大小,并重叠输入图像。因此,基于Grad-CAM的热图可以帮助我们可视化图像的哪个部分与感兴趣的类别具有最大的关联。我们将这两种技术应用于合成生成的图像和真实图像,以确定在提取用于预测图像中的人的特征方面是否存在任何差异。在下面的部分中,我们将描述我们开发基于VR的数字孪生模型的方法,并使用它来训练和详细解释CNN的功能。4VR模拟器开发4.1建模准确的虚拟双胞胎的构建需要关于对象的几何尺寸和物理特性的精确信息。此外,有不止一种方法来实现这样的双胞胎。建筑信息建模(BIM)[40]是AEC行业中使用的一种不断增长的技术,通过以3D方式描绘建筑属性来推进基础设施的规划和设计。BIM已在之前的几项研究中使用[41,42],以及在商业服务中使用,如Tridify[43],PiXYZ[44]和Unity Reflect[45],以加快将BIM文件导入Unity等游戏引擎的过程。另一种技术,由西门子专利[46]强调,是使用深度扫描仪来生成房间的点云图,然后将点云数据与相应的对象进行匹配但由于60Abhishek MUKHOPADHYAY等人:具有社交距离测量功能的基于虚拟现实的办公空间数字孪生模型鉴于COVID-19疫情后实施的即时封城及社交距离措施,上述技术并不可行,亦无法妥为安排。因此,我们手动建模的办公室工作空间的一部分,我们的方法的建筑图纸的帮助。我们从一个可以容纳12人的会议室开始,然后继续到周围的区域。我们使用Probuilder[47]和ProGrids[48]进行建模和快速原型制作。工作区家具的3D模型是从网上市场TurboSquid[49]和Sketchfab[50]购买的,并相应地放置在环境中。4.2真实感绘制通过使用标准数码相机拍摄的多张照片,我们能够确定组成会议室的不同材料,我们的目标是通过基于物理的渲染(PBR)在孪生模型中复制这些材料。PBR材料[51]能够对现实生活中的材料特性进行物理模拟,使它们准确地反射光的流动,从而实现照相现实主义。PBR材质需要多个参数,例如反射、金属和平滑度属性,以及法线、高度、漫反射和遮挡贴图。在我们的双胞胎中用于墙壁和地板垫的相应纹理贴图是从Freepbr.com获得的。全局照明(GI)是决定双胞胎与真实物体相似程度的最重要因素之一。GI通过从曲面反弹灯光来促进真实灯光渲染;也就是说,它考虑场景中的间接灯光。我们为我们的环境采用了Baked GI,这需要预先计算照明和生成光照贴图纹理,因此在运行时计算成本较低。它的对应物Realtime GI涉及在运行时计算光线,并在GPU上放置大量负载。此外,反射探头被放置在环境中,以模拟反射并增强照片真实感。最后,Unity的后处理工具用于实现抗锯齿、环境光遮挡、颜色分级和自动曝光。最终结果如图2所示。图2使用Unity进行烘焙全局照明和后期处理渲染的数字孪生模型。为了更流畅的处理,我们通过删除一些不必要的多边形来优化孪生模型,例如椅子和桌子下面托盘中的高度调节器。低聚人形模型被放置在环境中的人检测模型的识别。他们的行为是使用NavMeshAgents of Unity驱动的[52]。在这里,智能体通过从烘焙的NavMesh获得的空间推理来避开场景中的彼此和其他障碍物。我们还通过使用Unity的路径跟踪算法在虚拟环境中启用了光线跟踪渲染。在这种情况下,基于物理的渲染是一类虚拟材质,它模仿真实世界材质的物理属性。最后,我们比较了光栅化渲染和光线跟踪的性能。61虚拟现实智能硬件2022年12月4日第14.3交互式仪表板我们在基于VR的工作空间模拟器中配置了交互式仪表板,显示实时传感器数据,如温度和湿度,以及部署地点有关冠状病毒大流行的最新统计数据。传感器通过各自的无线模块与VR机器连接。这些无线模块使用点对点连接,以1 Hz的频率使用UDP协议与VR机器进行通信。从温度和湿度传感器获得的数据显示为单独的圆形条(图3c)。当用户在佩戴HTC Vive Pro Eye耳机时使用眼睛凝视时,或使用手动控制器选择表盘时,瞬时值将转换为时间序列值,从而提供详细视图(图3b)。如果值超过预定义的阈值,则圆形条的颜色会发生变化(图3c)。传感器读数的任何突然变化也会立即通过视觉和触觉反馈反映出来。触觉反馈通过手控制器产生。实时传感器数据值可以进一步用于做出关于空调或维持办公室工作空间的室温的决定。图3VR办公空间模型此外,仪表板显示从COVID-19-India API(https://api. covid19india. org/)。仪表板显示实际工作空间所在区域内的活动案例数。数据显示为圆形条(图3a),描绘了迄今为止的活动病例数。当用户使用眼睛凝视时,最新阶段的详细统计数据[53]显示为条形图(图3b)。4.4将CNN连接到VR环境物理实现涉及在单独的计算机中处理实时视频,并将在实时视频馈送中检测到的人数发送到VR设置。然而,在现阶段,62Abhishek MUKHOPADHYAY等人:具有社交距离测量功能的基于虚拟现实的办公空间数字孪生模型考虑到之前提到的COVID-19的限制,我们通过实时流协议(RTSP)连接连接了CNN模型,用于检测VR环境中的人形机器人,将Unity相机的游戏视图流传输到CNN,在CNN中进行人员检测过程(如第5.1节所述)。一旦获得了人员检测结果,我们就使用相应的置信度分数来过滤我们的预测。我们选择置信度得分大于0.6的人,如果找到这样的人,我们将通过UDP连接将结果流回Unity。目前,Unity中没有内置选项来流式传输其相机视图;因此,我们使用FFmpeg模块和RTSP服务器构建了一个自定义解决方案。实现这些功能是为了通过RTSP连接流式传输Unity视图。由于CNN的处理速度与Unity的流速度不同,我们考虑将RTSP缓冲区的最新样本传递给CNN。我们在真实和虚拟世界中录制的视频上测试了人物检测模型。该模型处理每个帧,并在帧中检测到人/类人时进行定位(图4)。通过注释人周围的边界框来实现定位。图4显示了每个人都用一个标有数字的边界框进行了注释。图4通过人物检测模型检测到的人形机器人,并使用边界框进行注释。在这里,如果违反了社交距离,边界框就会变成红色,否则就会变成绿色。一旦Unity接收到对象结果,我们就会在虚拟环境中添加或删除类人机器人。数字人形模型由90多个不同的链接/关节和140度组成,类似于人体的许多生物力学模型[54]。我们使用Mixamo[55]的运动捕捉数据来自动装配人形机器人的骨架(基本骨架装备),以反映逼真的人类姿势。4.5与类似方法的EscelEye 数据集[56]应用了一种类似于我们使用基于VR 的自动驾驶汽车合成数据集的方法。UnrealROX[57]是另一个建立在虚幻引擎上的工具,用于生成逼真的合成数据集,但更多地针对机器人视觉的研究。该工具侧重于模拟广泛的室内机器人活动,包括对象交互和姿势。我们将这个想法扩展到不同的用例,并将系统的准确性与真实数据集进行了比较。63虚拟现实智能硬件2022年12月4日第1生成合成数据集的不同方法使用可变自动编码器(VAE)[58-60]和生成对抗网络(GAN)[61]。我们还使用相同的设置比较了我们的方法。我们通过GAN实现运行真实图像。GAN由一个生成器组成,它试图欺骗另一个网络,即学习区分真实和虚假图像的网络。我们使用了一个版本的GAN,称为SinGAN[62],这是一个无条件的生成模型,可以在单个图像上训练。该模型使用多尺度对抗训练来学习图像块的内部分布[63-66],并可以生成不同尺度的相似图像。该模型类似于GAN模型,除了训练样本是输入图像的补丁而不是一组图像,并且网络由不同尺度的GAN金字塔组成。正如SinGAN研究的作者所声称的那样,它可能会在更粗的尺度上产生不切实际和扭曲的结果。尽管如此,我们仍然能够在更精细的尺度上生成逼真的假图像,这些图像与真实图像无法区分。在更精细的尺度上,生成器学习的补丁分布比在更粗糙的尺度上更小,在更小的尺度上给出更好的结果,并保留图像的全局结构(图5)。图5(a)原始输入图像(b)来自单个图像的n=6、n=11和n=25的随机样本。没有现有的基于VAE的算法可以获取单个图像并根据需要合成尽可能多的假图像。如果我们有足够的数据集,VAE可以捕获分布并从同一分布生成更多数据。传统的GAN存在不收敛[70]和模式崩溃[71]的问题,研究人员已经随着时间的推移进行了改进。虽然SinGAN模型可以合成更多类似于原始图像的难以区分的假图像,如图5所示,但与基于VR的DT相比,它提供的定制较少。如前所述,在DT中,我们可以很容易地改变图像数据集中人的数量、衣服颜色和姿势,同时保持背景和环境光不变。虽然VAE可以检测Frey面孔的相机旋转和情感[72],但VAE和GAN都不能在图像中添加多个对象或人,同时保持一些特征不变并改变其他特征。5人员检测的准确性比较5.1模型制备我们使用迁移学习技术来微调模型,其中包含从Open Images Dataset下载的个人数据集[73]。该数据集包含真实图像和艺术品图像。我们总共使用了2022张图像,其中“人”标签显示单个或多个人。我们将完整的数据集分为80: 2064Abhishek MUKHOPADHYAY等人:具有社交距离测量功能的基于虚拟现实的办公空间数字孪生模型用于训练和验证的比率。我们通过将注释文件转换为xml格式来准备数据集。现有的注释文件是Darknet格式的,这是用于YOLO训练的实际后端。我们使用“Keras”后端使用模型训练模型。该模型训练了200个epoch,批量大小为4。我们使用NVIDIA GeForce RTX 2070 GPU来训练模型并对图像进行性能测试。最后,我们在真实和合成图像序列上测试了我们的训练模型。5.2数据准备为了在真实图像和合成图像上测试该模型,我们在物理世界(图6d)和虚拟环境(图6d)中录制了短视频。在物理世界视频中,我们记录了多种情况,例如在用于VR建模的同一办公空间中遮挡人员和变化的照明条件(图6c)。在虚拟环境视频中,我们将环境光和房间设置记录为恒定参数,并将以下参数记录为独立参数:(1)改变帧中的人形机器人的数量(一到四个人形机器人),(2)人形机器人的姿势(坐着和站着),以及(3)遮挡人形机器人(是或否)。我们测试了总共9000张图像,分为三类:真实图像,没有光线跟踪生成的合成图像,以及通过光线跟踪生成的合成图像。由于光线跟踪是计算密集型的,我们考虑了没有光线跟踪的合成图像,在实际实现中,我们可能需要根据GPU的可用性部署没有光线跟踪的DT。我们使用以下公式计算模型的准确度:准确度=ΔTP+TNΔ/(TP+FP+FN+ TN),其中TP、TN、FP和FN分别表示真阳性、真阴性、假阳性和假阴性。图6训练和测试数据样本:(a)具有真实人物图像的训练数据,(b)具有艺术品图像的训练数据,(c)对合成世界图像的测试,其中获得假阴性结果,以及(d)对真实世界图像的测试结果,其中尽管仅存在三个人,但检测到四个人,获得假阳性结果。5.3结果我们发现真实图像的总体准确度为96.044%(标准误差为0.186),不使用光线跟踪的合成图像为96.981%(标准误差为0.126),使用光线跟踪的合成图像为94.25%(标准误差为0.974)。我们分析了准确性,以确定CNN的性能在真实图像和合成图像之间是否存在显著差异。我们分别列出了所有条件(不同人数、姿势和遮挡)的准确度,发现除了一个人被遮挡外,所有条件的四分位数范围均为零,真实图像和合成图像的中位数、第一和第三四分位数均为100%(表1,括号中的数字表示四分位数范围)。表2列出了所有条件下的图像比例,准确度小于100%。由于样本的偏态,我们没有进行标准的ANOVA和中位数检验。65∑i ipi= 1 (m-n)2虚拟现实智能硬件2022年12月4日第1表1不同条件条件真实图像合成图像合成图像表2准确度低于100%条件真实图像合成图像合成图像注:* 七种情况之间的统计学显著差异。5.4距离测量Bertoni等人使用3D距离对户外环境中的人的轮廓进行了研究[74]。在这项研究中,我们测量了室内环境中人与人之间的距离。我们首先将摄像机固定在虚拟环境中房间的特定高度。然后,我们使用Unity工具以像素为单位记录在每帧中检测到的每对人形机器人之间的距离。我们使用经过训练的模型为每个人形机器人生成一组边界框和一个唯一的ID。为了测量检测到的人形机器人之间的距离,我们根据Punn的研究[36]使用道路监控摄像头记录的视频由YOLO生成的边界框参考计算人形机器人之间的距离。我们计算了通过VE记录的帧中每个框的边界框和相应的质心。边界框显示为红色或绿色,相应的质心显示为黄色,如图4所示。我们使用(1)并通过应用p×p矩阵计算质心之间的成对欧几里得距离,其中p表示在任何情况下检测到的人数。d(m,n)=66(一)无光线跟踪光线追踪一人站立无遮挡100(0)100(0)100(0)一人站立,遮挡100(0)100(0)100(0)一人坐无遮挡100(0)100(0)100(0)一个人坐在闭塞100(0)100(0)100(0)两人站立,无遮挡100(0)100(0)100(0)两个人站着,相互遮挡100(0)100(0)100(0)两个人坐着,没有遮挡100(0)100(0)100(0)两个人坐在一起一百(二十五)100(0)100(43.75)三人站立,无遮挡100(0)100(0)一百无光线跟踪光线追踪一人站立,无遮挡 *3.280.000.00一人站立,遮挡0.000.000.00一人坐无遮挡 *0.009.480.00一人坐在闭塞 *0.360.0010两人站立,无遮挡0.000.000.00两个人站着,相互遮挡18.2518.9710两个人坐着,没有遮挡0.001.830.00两个人坐在一起 *37.590.3340三人站立无遮挡 *15.691.0030三个人站着,相互遮挡22.6329.6230三人无遮挡坐姿 *11.310.000.00三人坐在一起 *44.8920.6360Abhishek MUKHOPADHYAY等人:具有社交距离测量功能的基于虚拟现实的办公空间数字孪生模型这里,p是二维空间,m和n是二维空间中的两个质心。最后,我们测量了该测量值与通过虚拟环境测量的距离的相关性,其相关系数为r=0.99,p0.01(图7)。图7从虚拟环境和通过CNN测量的距离的散点图。5.5讨论我们使用VR DT在真实和合成生成的图像中比较了代表性CNN模型的性能,并注意到,对于100%的第一,第二和第三四分位数,人员,遮挡和姿势数量的不同组合的准确度的四分位数范围为零。当一个或多个人被遮挡时,准确度低于100%的图像数量最多,并且真实图像和合成图像相似。我们观察到一些情况下(例如,两个坐着的人与闭塞),其中的准确性在真实图像上是相对低于合成图像。这可能是由于不受控制的照明、人的衣服和背景之间的相似颜色对比以及其他因素。三种情况下的准确度差异小于2%,这对实际使用没有显著影响。计算出的与合成图像的距离在真实距离下与0.99的系数相关。我们发现了三种情况(两个人坐着闭塞,三个人站着没有闭塞,三个人坐着和没有闭塞),其中真实图像的准确性相对低于合成图像没有光线跟踪。我们观察到,尽管该模型能够在现实世界中的这种条件下检测到人,但假阳性率较高。这可能是由于现实世界中不受控制的环境照明条件以及图像中衣服颜色和背景之间难以区分的相似性。6通过可视化进行在上一节中,我们提到当一个或多个人被部分遮挡时,YOLO的准确率最低。为了理解这一结果,我们使用了中间层可视化技术和Grad-CAM技术来解释人员检测模型的性能。Grad-CAM计算预测类上最后一个卷积层中特征图的每个像素值[39]。它不需要与边界框回归相关的任何信息,边界框回归通常用于定位图像中的对象。由于YOLO模型不允许从间断层读取数据,因此我们使用了一个使用ILSVRC ImageNet数据集预训练的VGG16分类模型。我们通过组合五个不同的类来准备我们的数据集(即。例如,飞机、自行车、汽车、摩托车和脸)下载的图像67虚拟现实智能硬件2022年12月4日第1来自Kaggle,Google Image,Caltech Face Image Dataset和Georgia Tech Face Database。我们使用总共3513张图像训练模型,这些图像分为训练和验证数据集(80: 20),共100个时期。为了理解CNN模型如何对输入图像进行分类,我们需要了解我们的模型如何通过查看其中间层的输出来查看输入图像我们可视化了在以下活动中执行:不支持所有页的卷积、不支持所有页的卷积、不支持所有页的卷积,以及4 2 4训练模型的第n个卷积层。为了可视化Grad-CAM方法生成的热图,我们使用了预训练的VGG 16模型。虽然这个预训练的模型不包括任何人类,但它具有与衣服相关的不同类(例如,T恤和牛仔裤),其与图像中的个体的定位相关。我们生成了一个对应于T恤和牛仔裤类的热图,以识别图像中的人。我们可视化了CNN在真实和合成生成的图像中进行人物预测的性能。我们从上面提到的两种类型的图像的层生成CNN的输出,以了解CNN是以不同的方式还是以相同的方式处理合成生成的图像和真实图像。我们发现,模型的前几个卷积层提取了对象的基本特征(边缘和轮廓),并保留了输入图像的最大信息(图8b和图9b)。随着我们在模型中的深入发现,激活变得不那么直观(图8 c-8 e和9 c-9 e)。该模型开始提取抽象特征(e。例如,在一个实施例中,基于块的特征,诸如图8中的人形物体或图10中的人的身体部位的纹理)。在更深层次的网络分辨率下,特征图开始减少,而空间信息增加。如果我们观察所有四个特征图输出(图8 c-8 e和图9 c-9 e),很明显,在每个转换模型中,背景或任何不相关的信息都被消除了,与对象类别相关的有用信息被细化了。图8(a)输入图像(合成生成图像中的人形物体)。红色框表示YOLO检测到一个人。(b)第三卷积层激活的第28通道,(c)第七卷积层激活的第28通道,(d)第十卷积层激活的第28通道,以及(e)第十三卷积层激活的第510通道(请注意,该图最好以其数字形式查看)。我们还可视化了类激活的热图,以了解对象的哪个部分允许模型正确分类对象。在这种情况下,类激活图指示图像的哪个部分对应于对象的类。在图10中,我们显示了真实世界图像中合成生成图像的热图(图10a-10 c)。我们发现不同的身体区域68Abhishek MUKHOPADHYAY等人:具有社交距离测量功能的基于虚拟现实的办公空间数字孪生模型图9(a)输入测试图像(真实世界图像中的人),(b)第三卷积层的激活的第28通道,(c)第七卷积层的激活的第28通道,(d)第十卷积层的激活的第28通道,以及(e)第13卷积层的激活的第510通道(请注意,该图最好以其电子形式查看)。图10三种不同情况下基于Grad-CAM的热图,其中YOLOv 3的性能在准确性方面有所不同(如红色边界框所示)。(a)YOLOv3未能检测到部分遮挡的人,(b)YOLO检测到所有个体,以及(c)YOLOv3检测到具有不同姿势和不同颜色衣服的所有个体。激活,其中棕色对应于最高梯度分数,青色对应于最低梯度分数。基于热图的可视化帮助我们识别图像中导致假阳性或假阴性结果的部分。为了了解不同的独立变量如何影响CNN的性能,我们测试了具有不同参数的合成图像。我们从一个被遮挡的人的图像开始,YOLOv3无法检测到个人,准确率下降到50%(图10a)。我们发现,遮挡使得模型难以从部分遮挡的人获得足够的信息并实现定位,尽管它可以为完全可见的站立人的全身区域生成热图(图10a)。我们用不同的图像进行了第二次检查,其中YOLOv3能够检测到所有人(图10b)。当我们仔细观察热图区域时,我们发现边界框区域和热图区域之间有很强的关联。虽然这张图像中的女性人形生物被弱分类,但热图覆盖了所有三个人在图像中可见的最大上身部分。如前所述,棕色对应于最高梯度分数,青色对应于最低梯度分数。我们用第三张图片测试了热图,69虚拟现实智能硬件2022年12月4日第1人形人物穿着不同的颜色(绿色和白色)并以不同的姿势定位(即,一个人坐着,另一个人站着)。Grad-CAM热图提供了关于这两个不同个体的位置的强烈视觉提示(图10 c)。这些结果证实了我们的想法,即使用这种可视化技术来分析CNN模型的故障模式,并采取纠正措施,例如增加摄像机的视野和位置,以记录类人机器人的正面全景,或者在这种情况下,提高模型的准确性。7一般性讨论7.1总结在本文中,提出了一种新的方法,通过在沉浸式环境中生成的定制合成视频来验证CNN的准确性。一个案例研究表明,这种实现在物理办公空
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功