没有合适的资源?快使用搜索试试~ 我知道了~
2330≈你可以通过盯着空白的墙壁Prafull Sharma1Miika Aittala1,2Yoav Y. Schechner 3AntonioTorralba1Gr e goryW. Wornell1WilliamT. Freeman1Fre´ doDurand11MIT2 NVIDIA3以色列理工摘要我们提出了一种被动的非视线方法,该方法从未知房间中的空白墙壁的观察推断人的数量或人的活动我们的技术分析了复杂的难以察觉的变化,间接照明在视频中的墙壁,揭示了一个信号,是相关的,与运动在一个场景的隐藏部分。我们使用该信号来分类零个、一个或两个移动的人,或者隐藏场景中的人的活动 我们使用从20个不同场景收集的数据训练两个卷积神经网络,并在看不见的测试环境和实时在线设置中实现了94%的准确率。与其他被动非视线方法不同,该技术不依赖于已知的遮挡器或可控光源,并且推广到未知房间而无需重新校准。我们分析了我们的方法与真实和合成数据的泛化和鲁棒性,并研究了场景参数对信号质量的影响。11. 介绍考虑一种情况,其中一个人想要恢复关于未知房间中的隐藏场景的信息,而不直接向外窥视内部。从外面盯着房间的空白墙壁,肉眼可能什么也看不见,但墙壁反射出隐藏场景的极其微弱但有意义我们表明,通过分析的空白墙的视频,我们可以推断一个人的活动信息或分类的人在一个隐藏的区域的场景,没有事先校准或环境的知识。这种非视线(NLOS)方法的实时原位使用对于搜索和救援操作、执法、应急响应、老年人跌倒检测以及智能车辆隐藏行人的检测是至关重要的[6,29]。NLOS成像技术先前已经探索了使用主动和被动方法两者的相关成像设置1代码、数据和视频可从wallcamera.csail.mit.edu获得。图1:来自灯的光采取无限多个路径到达左侧的墙壁。人在房间里的运动改变了墙壁和场景其他部分之间的相互可见性,这引起了在墙壁上观察到的光图案的微妙变化。请注意,没有直接的阴影,因为人不包括连接左墙和灯的直接路径耗氧物质主动方法使用闪光灯、投影仪、激光、WiFi信号或声音与环境交互,以提取关于隐藏场景的信息[1,3,10,12,16,17]。20、23、24、28、42]。去除对探测设备的要求,被动方法仅使用相机,而不控制照明条件或以任何方式与环境交互。现有的被动方法通常利用已知的遮挡器,诸如可见的角落或隐藏的台扇,其充当意外成像装置[4,5,7,32,34,35,38,39,40,45]。在这样的工作中,遮挡器为光传输提供结构,使得能够从观察到的间接照明重建人类可读图像和隐藏场景中的运动轨迹相比之下,我们不依赖于感兴趣的场景(人)和所观察到的空白墙壁之间的遮挡物。相反,我们利用人、房间和潜在的第二人之间的间接照明的复杂时间变化。我们使用一个视频的空白的墙壁,并表明,基于学习的方法是能够恢复信息的形成有关的隐藏场景。具体来说,我们恶魔-2331- -对移动中的人的数量(0、1和2之间)和活动进行自动分类 图1示出了发生在具有多个光源、物体和人的典型的不受控制的房间环境中的光传输[21左侧墙壁上看似无特征的照明实际上是沿着场景中不同路径反射的光的复杂混合物主要成分是来自光源本身的直接照明,但是一小部分是由从隐藏场景中的对象反弹的光贡献的,并且还有来自已经反弹多次的光的投射到墙上的灯光图案取决于隐藏场景中几何体和材质的相互可见性在场景中移动的人影响光路,产生新的相互反射并阻挡其他贡献,这导致到达墙壁的光的微妙的时间变化。在典型的视频成像设置中,与成像噪声相比,随时间变化的照明的幅度极低:在我们的测量中,通常为20 dB到低至35 dB。这些变化的空间特性也是难以理解的,因为它们取决于场景、照明和人的相对位置尽管有极低的信号电平和高噪声在观察到的墙壁视频中,我们通过将视频投影到2D表示中来提取概括隐藏场景中的基本运动的信号(第4节)。我们使用视频的这种2D表示来训练卷积神经网络以执行两个任务:将人的活动分类为行走,跳跃,挥手,蹲伏和无活动(所有对象都是静态的),并推断隐藏场景中是否存在零,一个或两个人(第5节)。我们的模型在20个不同的场景上训练,准确率达到94。4%的人和93。在5个看不见的场景的测试集上,活动识别率为7%。我们的方法可以实时工作,几乎没有延迟,无需任何场景特定的校准。我们进一步研究了使用理论框架和设置的合成模型(第6节)的场景和人体运动的属性对这项任务的影响。2. 相关工作积极的方法。许多主动方法在NLOS设置中使用时间分辨检测器以用于形状预测[2,3,18,17,22,25,30,44,31,28]、跟踪[2,9,13,33,24]、跟踪[2,9,13,25,26]、跟踪[ 2,9,13,27]、跟踪[ 2,9,13,28 ]、跟踪[ 2,9,14,29]、跟踪[2,15,29]。43] 和个人识别[8]。Adib等人已经使用WiFi信号来推断墙壁后面的人的形状并且预测隐藏场景中的人的手的3D轨迹[1,3]。WiFi信号也被用来预测隐藏场景中的人数[12]。用脉冲激光阵列和单光子阵列探测器收集的NLOS数据已被用于具有neu.ral networks [8]. Metzler等人使用脉冲激光和时间分辨探测器来预测隐藏物体的形状和轨迹[28]。皮秒激光和SPAD探测器最近已被用于恢复隐藏场景中物体的反照率和形状[30]。一些主动方法还通过使用稳态强度源(无时间分辨数据)和常规相机与环境交互来执行类似的NLOS任务[10,11,14,23,27,36]。 Klein等人提出使用激光指示器和指向空白墙壁的摄像机跟踪隐藏场景中的对象的方法[23]。其他方法使用投影仪和常规相机来执行隐藏场景中的对象的3D定位和识别[10]。主动方法可以恢复关于隐藏场景中的活动的有用信息这使得很难在实验室环境之外部署它们。被动的方法。许多被动技术依赖于外部遮挡器来形成感兴趣场景的偶然图像最近的被动方法可以从单张照片中恢复具有已知形状的遮挡物的位置和其背后隐藏场景中的平面图像[32]。其他作品从场景和观察平面之间的已知形状的遮挡物投射的阴影中恢复光场[5],或者在给定复杂的遮挡观察场景的情况下恢复隐藏场景的视频[4]。Tancik等人通过观察平坦地板和地板上的柱子,提出了一个用于重建房间隐藏部分的每场景VAE模型[40]。另一项工作展示了用于已知场景几何形状和受控照明条件(闪光灯)的定位、识别和隐藏场景重建的数据驱动方法[39]。上述方法限于实验室,因为它们假设关于场景几何形状、照明条件或场景中的对象的我们提出了一种方法,恢复有用的信息,在约束较少的环境。Bouman等人[7]使用角落遮挡器通过利用角落附近的地面上投射的微弱半影来恢复隐藏场景的1D角投影。1D角投影的可视化允许人类解释器预测人数或猜测他们的活动。Torralba和Freeman还利用遮挡物形成偶然的相机[41],从针孔或pinspeck遮挡物中显示2D图像。这两种方法都在实验室外操作,但需要在环境中使用静态遮挡器我们的方法消除了对环境中遮挡物的需要对人数及其活动的估计将自动返回。2332×观察平面相机隐藏场景(a)(b)第(1)款图2:(a)两个人在隐藏场景中行走的可能场景的设置,其中相机从房间外部观察墙壁。(b)摄像机在我们的一个场景中观察真实场景中的墙壁。3. 成像设置我们在房间外使用摄像头记录房间内空白墙壁的视频,同时人们在隐藏的场景中移动(图2)。观察墙上的每个点都直接接收来自光源的光,并在多次反弹后接收来自房间中不同对象的光,如图1所示。在典型的室内照明条件下,所观察到的墙壁对于肉眼而言将呈现静态,即使在隐藏场景中可能存在活动。这是由于直接来自光源的环境光和来自静态对象的反射然而,从房间中移动的物体上反射的光对观察到的墙壁有微妙的影响。隐藏场景中的人的移动阻挡并反射隐藏场景内的间接光的部分,导致在墙壁上观察到的光的图案的小的时间变化。变化取决于各种未知因素,诸如隐藏对象和光源的类似的活动可以在不同的房间中引起非常不同的模式由于人与房间尺寸相比很小,因此与环境相比,他们的贡献非常小入射光打在墙上-4. 信号提取与处理我们的方法首先从原始输入视频中提取细微的运动信号,然后将其进一步投影到2D时空图表示中,然后将其用作分类的输入。4.1. 信号提取如第3节所讨论的,墙壁的记录视频由时间上不变的环境光主导,其幅度模糊了来自移动的人的细微动态信号。我们大概要把这个骗局-帧0帧5帧10帧15帧20(c)来自放大视频图3:(a)看似静态的输入视频的代表性帧。(b)在减去平均帧之后的放大的残余视频的帧揭示了由人的运动引起的照度的微弱变化(c)一系列帧显示了这些特征的运动。通过计算视频的时间平均值并从每个帧中减去它来稳定光,如先前关于意外针孔的工作所建议的那样[41]。注意,像素现在也可以具有负值。所得到的视频揭示了由人的运动引起的照明图案的时间变化。与原始像素值相比,残差信号的幅度通常非常小,并且通常远低于视频的噪声水平。为了减少噪声,我们对视频进行了16倍的空间下采样(每个维度4我们将生成的视频线性缩放到RGB值的全范围,方法是将其乘以50倍,并添加一个中间灰度的基本级别以使负值可见。此过程会产生放大的视频,如图3所示。我们鼓励读者观看补充材料中的视频。我们还发现,放大视频中的感兴趣信号有时会被长距离周期性强度摆动所压倒,我们将其归因于AC频率(60Hz)下为了消除这种影响,在均值相减之后,我们计算每个帧的中值(随时间的全局1D强度曲线),并将每个像素在任何处理之前,我们将输入图像转换到对数空间,以均衡场景的亮区和暗区之间的变化幅度。在观察到的视频中的外部对象的情况下,我们裁剪到空白壁的区域。4.2. 分类的时空图为了进一步提高信噪比并降低维数以辅助学习过程,我们对(a)观察图像(b)平均减影放大图像2333××× ×××0人1 人2 人图4:零、一和两个人情况的水平时空图的示例。空间-时间图为每个类别展示了不同的视觉特征,从而能够使用卷积神经网络进行分类。没有活动走路蹲着挥手跳跃图5:用于活动识别的水平和垂直时空图的示例请访问wallcamera.csail.mit.edu观看实时演示视频。数据沿着视频的适当空间维度。对输入数据求平均导致约45 dB的噪声降低,同时保留相关的运动信号;信噪比分析见6.5节。例如,在人们沿着观察平面的宽度移动的情况下,我们对垂直轴上的视频图像进行平均,以获得捕获运动的基本空间维度的2D表示(空间时间)。这将使视频(WH不3)到一个空间的时间图尺寸W T3。似-在动作识别中,我们还沿观察平面的高度产生时空图,该图捕捉了诸如蹲下和跳跃的垂直运动。我们通过裁剪最亮和最暗像素的2%来标准化所有时空图的强度和对比度以丢弃离群值并归一化到范围[0,1]。Bouman等人提出了一种生成时空图的相关方法。[7]的文件。他们的图显示了与人的运动相对应的不同的视觉可解释的轨迹,而我们的时空图由于不存在已知的遮挡物而显得错综复杂。图4显示了隐藏场景中移动的零个、一个和两个人的请注意,这三个类的时空图展示了类特定的视觉特征。零人时空图显示除了噪声之外几乎没有变化。一个人的图显示模糊的单一轨迹,而两个人的情况下的时空图两个人的图中的另一个显著特征是当两个人彼此交叉时,图上出现这种效果在图4中是明显的。当一个人遮住另一个人时,墙壁强度的这种突然变化就会出现,有效地使场景在短暂的时刻类似于一个人的场景。在图5中,我们显示了活动识别任务中使用的水平和垂直时空图的示例。我们可以观察到与每个维度相对应的不同特征例如,对于行走,信号主要在水平轴上变化,而对于其他活动,在两个方向上都有信号,这在相应的时空图中是可见的对于蹲伏,时空图的初始部分显示出类似于步行的特征,在跳跃中,在水平和垂直时空图中都存在信号,在两个方向上都有快速重复运动。无活动类别与如针对对人数进行分类所描述的零人情况相同。幅度不足的运动例如在同一地点的小跳跃,可以导致与无活动场景类似的此外,仅仅通过视觉观察这些时空图,很容易混淆挥手和跳跃5. 分类方法由于各种场景的时空图捕获了空间维度中的基本运动,因此该表示适合于学习使用卷积神经网络模型对场景进行分类。我们使用时空图来解决两个任务,(i)对隐藏场景中的人数进行分类和(ii)活动识别。在本节中,我们描述卷积神经网络。时间水平垂直水平垂直场景2空间场景12334×××××网络架构来完成这些任务。5.1. 分类人数我们想要在隐藏场景中移动的零个、一个或两个人之间进行分类。我们使用水平空间-时间图(在垂直维度上平均的视频),因为它捕获人沿着墙壁的水平维度的运动网络的输入是维度为64 256 3的RGB空间-时间图,空间分辨率为64像素,时间步长为256。网络的输入被标准化为零均值和单位标准差。我们的神经网络由5个卷积下采样块组成,然后是随时间推移的最大池化,以及输出预测的两个完全连接的层卷积层提取空间-时间特征,并逐渐将特征图的大小降低到具有64个特征通道的113的空间分辨率。这是13个当地时间点的时空特征摘要池化操作产生单个64通道特征向量,其将来自不同时间实例的局部发现聚合成联合统计。这些由最后两个层解码成预测类。5.2. 活动识别我们试图将五种活动进行分类:行走、跳跃、行走后蹲下、挥手,没有活动。由于这些活动沿水平和垂直方向具有不同的节奏签名,因此我们使用水平和垂直时空图,每个维度为64 - 256 - 3,用于分类任务。CNN架构与用于该方法可以用于对人数进行分类,除了它包含分别处理两个输入空间-时间图的两个卷积分支。来自两个分支的特征向量在池化层之后连接,然后是完全连接的层以预测活动。5.3. 实现细节我们使用交叉熵损失的分类任务。两个网络都使用leaky-ReLU非线性[26],最大池化用于下采样,批量归一化层用于稳定和正则化[19]。为了提高模型的泛化能力,我们在训练过程中进行了几次数据增强。有关架构和培训的详细信息,请参阅补充文件。6. 结果和分析我们分析了在训练集中不存在的场景上评估的每个模型的分类准确度。我们制定了一个简化的理论模型来研究作为场景参数的函数的信噪比(SNR)的行为,并估计经验SNR我们的数据此外,我们使用一个可控的合成二维数据生成设置来研究一个与。两个分类精度不同的相对运动的两个人。6.1. 数据收集我们在办公室、会议室和公共休息室等内部空间收集了每个任务30个场景的数据集。该数据集被分为20个、5个和5个场景的训练集、验证集和测试集,以研究模型在新的不可见场景上的泛化该数据集由每个任务总共12小时的视频组成,在所有类别中平均分配。使用PointGrey Grasshopper 3相机以16位格式以每秒15帧记录空白壁的所有视频。受试者距离观察到的墙2-5米。我们确保受试者不会在墙上投下任何肉眼可见的直接阴影没有放置额外的灯来照亮场景或增加从受试者反射的信号。基于给定环境中的环境光来调整曝光参数。人数的分类。受试者被指示偶尔改变他们的步行速度和轨迹。在两个人的场景中,受试者旨在独立运动,但偶尔以锁步或其他相互协调的模式运动。活动识别任务。每个活动由隐藏场景中的一个人执行,如在其他活动识别数据集中所做的那样[37]。与人数分类任务类似,受试者被要求改变他们的行走速度和轨迹对于跳跃任务,受试者在隐藏场景的不同位置改变频率,并随机改变位置。当收集蹲下的数据时,受试者从步行开始,然后在一段时间后蹲下我们相信这个活动是最接近走路时跌倒的模拟。对于挥手活动类,受试者在站立时随机移动他们的手,并以随机间隔切换他们在隐藏场景中的位置。6.2. 分类结果这些网络是在来自单独一组测试场景的看不见的数据上进行评估的,其中随机提取了256帧(17秒)片段。我们实现了94.4%的准确率在分类的人数和93.7%的活动识别任务。为了验证模型对较短的视频片段也有用,我们使用64帧和128帧输入额外训练和测试了模型,这导致了适度的准确性损失(参见表1)。剩余的分析是用256框架模型完成的。6.3. 实时应用我们将我们的训练模型打包成实时系统,用于现场部署。估计均值帧2335任务帧火车Val测试64百分之八十六点八百分之八十二点四百分之七十九点四分类人数12825692.9%百分之九十六点四百分之九十点八百分之九十五点八88.3%94.4%6491.5%百分之九十点八百分之八十八活动识别12894.6%百分之九十一点四百分之九十点八256百分之九十六点三94.4%百分之九十三点七表1:对人数和活动识别任务进行分类的准确性用于活动识别的人员计数器012照亮现场的电视其他困难的场景是人的衣服和背景的对比度低、主体到所观察的墙壁的距离高以及两个人的步调一致的运动的条件图6显示了两个任务的混淆矩阵,以揭示模型在各个类上的性能为了对人数进行分类,我们观察到该模型对于零人情况是最准确的,因为它是最简单的类。我们的模型有时会在一个人和两个人的类别之间进行错误分类,在两个人的类别上具有更好的准确性。在视觉检查时空图和地面实况时,我们观察到错误分类的一个人样本共享低对比度信号(例如,该人离所观察的墙很远,或者穿着与背景墙颜色匹配的衣服)。在错误分类的两个人样本中,我们观察到两个人步调一致的趋势,导致视觉上的差异。0 1 2预测标签(一)蹲手跳无人行走预测标签(b)第(1)款类似于一个人的时空图。这些趋势可以在图7所示的样本中看到。这两个观察激发了关于这些影响的分析图6:测试集上的混淆矩阵,该测试集包括用于两个任务的5个看不见的测试场景,(a)对人数进行分类和(b)活动识别任务。1人2人图7:预测为另一类的一个和两个人类的误分类样本图我们保持在会话期间观察到的所有帧的平均值。估计的平均值在前10秒内稳定为有用的估计值。我们的系统输出新的预测每秒15次,基于最近帧的17秒窗口。我们使用Nvidia RTX 2080 Max-Q GPU在6核笔记本电脑上运行它。我们的模型推广到新的场景时,使用实时系统进行测试。我们还发现,尽管训练数据中没有任何户外配置,但该系统在10个户外场景中运行良好。室外设置类似于图2,除了没有墙隐藏未知区域,但相机只观察到空白的墙。照明来自太阳或路灯。我们的模型是强大的小时间光照波动所造成的太阳和云的运动的位置变化。请参阅实时演示的补充视频。6.4. 限制我们的模型的性能在非常低的光照条件下受到影响,并且在不规则的光照变化下,例如1.000.00 0.000.010.880.110.00 0.050.95真实标签真实标签克劳奇0.970.000.000.00 0.03手0.000.990.000.00 0.01跳0.060.050.860.02 0.01没有一0.050.030.060.870.00走0.010.000.000.000.992336×Σ∈≈Σp −s我们在6.5和6.6小节中介绍了这些属性。对于活动识别任务(参见图6b),跳跃和无活动之间的最高误分类误差可以归因于其中受试者以高频率跳跃并且沿着两个空间维度移动较少的样本这样的运动在水平或垂直时空图中都不会产生有意义的信号。6.5. 信噪比分析为了了解场景参数对信号质量的影响,我们推导出一个简化的数学模型,在理想条件下我们的主要结果在此给出;推导参见补充文件然后,我们将此分析与在我们的真实世界数据中观察到的SNR相估计信号功率。考虑一个理想化的场景,我们正在观察反照率(颜色)的漫反射墙α,被静态和恒定颜色的环境包围,其中入射辐射率为Ls(即,当拍摄周围场景时照相机将记录的强度)。人在距离d处面向墙壁,占据面积A=wh(如投影在墙壁上)。设人的光辉为Lp。然后可以使用渲染方程[21]计算在墙上记录的辐射率在补充文献中,我们导出在减去平均值之后的观测到的辐射率信号的期望功率为αA√q2P(L L),(1)πd2其中q[0,1]是人靠近墙壁的时间的分数。2337信号功率原始输入视频预测斜率D1:1.7mD2:2.45mD3:SNR(dB)- -(五))2数据集中场景的信号和噪声3010不同照明配置的不同距离的102020403030504040605012勒克斯7045 lux照明强度125勒克斯501.7米2.45米3.2米3.95米到观察墙的0 510152025 30图9:经验SNR作为照明强度场景ID(按SNR排序)图8:我们数据集中的估计信号和噪声功率。这些值对应于全分辨率帧。信噪比是信号分贝和噪声分贝之间的差值,范围约为−5至−35dB。估计噪声功率。在观察辐射率αLs(平均观察颜色)主题距离虚线的斜率示出了基于等式2的依赖性的近似理论预测。真实数据中的SNR。 视频V(具有随时间的零均值)可 以 被 视 为 信 号 ( S ) 和 噪 声 ( N ) 视 频 之 和 ,V=S+N。在补充文件中,我们表明功率(即方差)的每个组件在我们的数据可以可以估计为VarN≈1Var(V-T(V))和VarS≈(1)一般情况下,其分布为正态分布。VarV−1Var(V− T2,其中T是运算符,ancekαLs.k的值取决于相机曝光[15]这是一个很好的例子,因为它是一个很好的选择此外,当s个像素被平均为1时(例如,当图像被下采样或投影到时空图中时),方差减小到kαLs/s。信噪比。信 号 的功率与噪声的方差(以分贝为单位)之比为Σ√Σ2√将视频在时间上移位一帧。在图8中,我们绘制了所有训练和测试数据集的这些估计的信号和噪声功率。我们显示了与原始全帧分辨率相对应的噪声水平。在所有数据集中,噪声明显强于真实数据中的信噪比范围为5至35 dB,这与数学模型的预测大致一致。将视频下采样和折叠到时空图对应于将s=30,000像素平均到图中的每个像素中,10log10一qαsL s(C−1)πd2k、(二)产生大约45dB的噪声降低。除了我们的数据集之外,我们还捕获了数据控制物体到被观察墙壁的距离和光强度。其中C=Lp/Ls是颜色从人和环境中反射出来在这个公式中,我们可以识别SNR和场景参数之间的各种关系如所预期的,占据较大面积的对象生成更强的信号。SNR与人的距离具有很强的逆相关性,使得难以区分视频和时空图中的远处的人。个人和背景之间的低对比度(例如白色背景下的白色衣服)也会导致低SNR,低光照条件和各种墙壁表面材料也会导致低SNR。通过增加相机增益来使观察到的信号变亮的尝试被噪声水平的成比例提升所可以通过在与信号的空间锐度的折衷下沿着轴下采样来对多个像素上的图像求平均来改善SNR在合理值范围内随机采样场景参数,我们的模型预测平均SNR为-20 dB,标准差为10 dB。房间里的一切。 我们进行了所有的活动与一个单一的一个人在看不见的房间在4个距离(1.7,2.45,3.2,和3.95米)和3种照明强度(12、45和125勒克斯)。我们收集了4种活动(行走、挥手、蹲伏和跳跃)的数据,每种活动、照明和距离的组合至少有3个分段。图9绘制了作为距离和光配置的函数的SNR曲线的斜率与近似理论预测一致图的轻微发散是由于1/d2项是方程2中的近似值,忽略了由于多次反弹而导致的全局照明效果。这种效应在像我们房间这样的小封闭空间中可能特别重要。详情请参阅补充文件。6.6. 基于合成数据的人体运动分析对于人的数量的分类,性能也强烈地取决于人的相对运动。在以下条件下试验分类精度L1:125勒克斯L2:45勒克斯预测斜率SNR(dB)DB2338所有相位值0.5120.125 1相对振幅(一)1.00.80.60.40.20.0受试者相同频率的准确度1.00.80.60.40.20.00.125 1相对振幅(b)第(1)款(图10 d);看起来在运动之间具有对比度比简单地具有大的运动更有价值事实上,即使是相对幅度较小的运动似乎也足以进行良好的分类。图10b分析了当两个人以相同频率移动但其相对相位和幅度变化时的特殊情况。正如预期的那样,当人以锁步方式移动时,即,分类精度较低。当相位差很小时。当运动具有相等的幅度,即相同时,实现最低的精度。相反,反相等幅相对频率变化范围内的平均精度0.750.700.650.600.550.500.750.700.650.600.550.50相对振幅变化范围内的平均精度。运动看起来被最好地分辨-因为来自人的信号最大程度地不同,同时最不可能彼此隐藏。对于等频率情况的通常成功的分类表明,当两个人的数据是一维流形时,准确性不受影响,排除了网络将简单地执行数据的维度分析这表明模型实际上使用了视觉特征,比如纹理0.5 12相对频率(c)第(1)款0.1251相对振幅(d)其他事项输入空间-时间图中的差异。图10:作为不同相对运动参数的函数的合成两人视频片段的分类性能。为了控制隐藏场景中的人的运动,我们制定了一个简单的合成数据生成管道,该管道在简化的2D“平地”场景中模拟我们的成像设置。有关管道的详情载于补充文件。为了衡量合成数据的真实性,我们观察到我们用真实数据训练的分类器达到了71的总体准确率。在14,000个样本的合成测试数据集的一对二分类中为5%为了研究相对运动的影响,我们生成了在80个不同场景下以各种参数化正弦模式移动的两个人的数据集,并研究了平均分类性能(即,如果这些片段被正确地分类为两个人的情况)。具体来说,我们将人1设置为以标准正弦模式移动,并改变第二个人的移动的相对频率、振幅和相位图10显示了沿不同变化轴的分析结果。图10a示出了改变第二人的移动的相对幅度和频率的效果当第二个人的运动既慢又与人1的幅度相等时,获得最低的分类精度如图10c所示,随着相对运动频率的增加,整体准确度提高,当运动的幅度不同时7. 结论我们表明,一个非视线设置没有事先校准或知识的遮挡可以恢复有意义的信息活动在一个隐藏的场景。人的运动阻挡并反射微弱的间接光,在观察平面上产生信号,揭示隐藏场景中的我们将这个信号放大并处理成时空图,然后使用卷积神经网络进行分析。我们展示了零,一个或两个移动的人(S)之间的自动分类,并推断一个人的活动这些模型在20个不同场景的数据集上进行训练一旦经过训练,该方法在看不见的测试数据和实时原位部署中均实现了高准确度。我们研究了方面的成像设置和任务,分析的信号和噪声的测量与数学模型,和运动模式的影响,使用合成数据的人数的可识别性。 我们发现,如人的距离观察到的墙壁,相对对比度的人的背景墙,以及在两个人的情况下的相对运动的因素影响所观察到的信号。鸣谢。这项工作由NSF根据合作协议PHY-2019786( IAIFI ) , NSF 奖 1955864 , NSF Grant No. CCF-1816209 和 DARPA REVEAL 项 目 。 HR0011- 16-C-0030 。 我 们 要 感 谢 Jeffrey Shapiro 、 Franco Wang 和Vivek Goyal进行了有益的讨论,Luke An- derson和Parimarjan Negi进行了校对,Harsh- vardhan和SamipJain在数据收集方面提供了帮助。0/2精度相对频率相位偏移精度2339--引用[1] Fadel Adib,Chen-Yu Hsu,Hongzi Mao,Dina Katabi,and Fr e´ doDurand. 透过墙捕捉人体。ACM事务处理图表,34(6):219:1-219:13,Oct.2015. 一、二[2] Fadel Adib,Zach Kabelac,Dina Katabi,and Robert CMiller.通过身体无线电反射进行3D跟踪。在第11届USENIX网络系统设计与实现研讨会({NSDI} 14)中,第317-329页,2014年。2[3] Fadel Adib和Dina Katabi。透过WiFi看墙!,第43卷。ACM,2013年。一、二[4] Miika Aittala、Prafull Sharma、Lukas Murmann、AdamYedidia 、 Gregory Wornell 、 Bill Freeman 和 FredoDurand。计算反射镜:通过深度矩阵分解实现盲逆光传输神经信息处理系统的进展,第14311-14321页,2019年一、二[5] ManelBaradad,VickieYe,AdamBYedidia,Fre´doDurand , WilliamTFreeman , GregoryWWornell,and Antonio Torralba.从阴影推断光场。在IEEE计算机视觉和模式识别会议论文集,第6267-6275页,2018年。一、二[6] 保罗·VK·博尔赫斯、阿什·图斯和戴夫·哈登。工业环境中的行人检测:在角落里看到。2012年IEEE/RSJ智能机 器 人 与 系 统 国 际 会 议 , 第 4231-4232 页 。 IEEE,2012。1[7] KatherineLBouman , VickieYe , AdamBYedidia , Fre'doDurand , Gregory W Wornell , Antonio Torralba 和William T Freeman。将拐角转换为摄像机:原则和方法。在IEEE计算机视觉集,第2270一、二、四[8] Piergiorgio Caramazza 、 Alessandro Boccolini 、 DanielBuschek、Matthias Hullin、Catherine F Higham、RobertHenderson、Roderick Murray-Smith和Daniele Faccio。用单像素、单光子探测器识别隐藏在视野中的人。科学报告,8(1):11945,2018。2[9] Susan Chan,Ryan E Warburton,Genevieve Gariepy,Jonathan Leach,and Daniele Faccio.远距离非视线跟踪人。Optics express,25(9):10109-10117,2017. 2[10] Sreenithy Chandran和Suren Jayasuriya。用于数据驱动的非视线3d定位和对象识别的自适应在BMVC,2019。一、二[11] 陈文正、西蒙·丹诺、法希姆·曼南和费利克斯·海德。稳态非视线成像。在IEEE计算机视觉和模式识别会议论文集,第6790-6799页,2019年。2[12] Saandeep Depatla , Arjun Muralidharan , and YasaminMostofi. 仅 使 用 wifi 功 率 测 量 的 占 用 率 估 计 。 IEEEJournal on Selected Areas in Communications , 33(7):1381-1393,2015。一、二[13] GenevieveGariepy , FrancescoTonolini , RobertHenderson,Jonathan Leach,and Daniele Faccio.运动目标的检测与跟踪. Nature Photonics,10(1):23,2016.2[14] Otkrist Gupta,Thomas Willwacher ,Andreas Velten,Ashok Veeraraghavan,and Ramesh Raskar.重建隐藏-使用漫反射生成3D形状。Optics express,20(17):19096-19108,2012. 2[15] SammuelWHasinoff,Fre´doDurand,andWilliamTFreeman. 噪音-高动态范围摄影的最佳捕捉。2010年IEEE计算机协会计算机视觉和模式识别会议,第553IEEE,2010。7[16] 放大图片作者:Felix Heide,Matthew O'Toole,K.作者:David B. Lindell,Steven Diamond,and G.韦茨斯坦 使 用 部 分 遮 挡 和 曲 面 法 线 的 非 视 线 ACM Trans-actions on Graphics(TOG),38:1- 10,2019。1[17] Felix Heide , Matthew O'Toole , Kai Zhang , DavidLindell,Steven Diamond,and Gordon Wetzstein.使用单光子探测器的鲁棒非视线成像arXiv预印本arXiv:1711.07134,1,2017。2[18] Felix Heide , Lei Xiao , Wolfgang Heidrich , andMatthias B Hullin.漫反射镜:使用廉价的飞行时间传感器从漫射间接照明进行3D重建。IEEE计算机视觉和模式识别会议论文集,第3222-3229页,2014年2[19] Sergey Ioffe和Christian Szegedy。批次标准化:通过减少内部协变量偏移来加速深度网络训练。在机器学习国际会议上,第448-456页。PMLR,2015. 5[20] Achuta Kadambi,Hang Zhao,Boxin Shi,and RameshRaskar. 使 用 飞 行 时 间 传 感 器 进 行 遮 挡 成 像 ACMTransactions on Graphics(ToG),35(2):15,2016.1[21] James T. 卡吉亚渲染方程。在Proceedings of the 13thAnnual Conference on Computer Graphics and InteractiveTechniques,SIGGRAPHACM。二、六[22] Ahmed Kirmani , Tyler Hutchison , James Davis , andRamesh Raskar.用瞬态成像观察拐角处。2009年IEEE第12届计算机视觉国际会议,第159-166页。IEEE,2009年。2[23] Jonathan Klein,Christoph Peters,Jaime Mart´ın,MartinLau- renzis,and Matthias B Hullin.使用2d强度图像跟踪视线外的物体。Scientific reports,6(1):1-9,2016.一、二[24] David B. Lindell,Gordon Wetzstein,and Vladlen Koltun.声学非视线成像。 2019. 1[25] David B Lindell , Gordon Wetzstein , and MatthewO'Toole.使用快速fk偏移的基于波的非视线成像。ACMTransactions on Graphics(TOG),38(4):1-13,2019。2[26] Andrew L Maas、Awni Y Hannun和Andrew Y Ng。整流器的非线性改善了神经网络声学模型。在Proc.icml,第30卷,第3页,2013中。5[27] ChristopherAMetzler , FelixHeide , PrasanaRangarajan , Muralidhar Madabhushi Balaji , AparnaViswanath , Ashok Veeraraghavan , and Richard GBaraniuk.深逆校正:朝向实时高分辨率非视线成像。Optica,7(1):63-71,2020. 2[28] 克里斯托弗·A·梅茨勒、大卫·B·林德尔和戈登·韦茨坦。锁孔成像:非视线成像和跟踪运动物体沿单一光路。IEEE Transactions on Computational Imaging,7:1-12,23402020。一、二2341[29] Felix Naser 、 Igor Gilitschenski 、 Guy Rosman 、Alexander Amini 、 Fredo Durand 、 Antonio Torralba 、Gregory W Wor- nell 、 William T Freeman 、 SertacKaraman和Daniela
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功