视觉信息学中的可视化中间表示（VLAIR）：一种将基于深度学习的计算机视觉应用于非图像数据的方法

110 浏览量更新于2024-01-24 收藏 2.23MB PDF 举报

深度学习算法

机器学习模型

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

视觉信息学6（2022）35可视化作为中间表示（VLAIR）：一种将基于深度学习的计算机视觉应用于非图像数据的方法艾江a，刘伟，Miguel A.Nacentab，Juan Yeaa英国圣安德鲁斯大学计算机科学学院加拿大维多利亚大学ar t i cl e i nf o文章历史记录：2021年5月31日收到收到修订版，2022年5月2日接受，2022年2022年5月27日网上发售保留字：信息可视化卷积神经网络人类活动识别智能家居数据表示法机器学习深度学习a b st ra ct深度学习算法越来越多地支持人类活动识别和购买推荐等领域的自动化系统。我们确定了当前的趋势，即数据首先被转换为抽象的可视化，然后由计算机视觉深度学习管道进行处理。我们称之为可视化中间表示（VLAIR），并认为它可以帮助支持许多领域的准确识别，同时还可以增强人类出于调试目的或个人使用目的解释深度学习模型的能力。在本文中，我们描述了这种方法的潜在优势，并探讨了各种可视化映射和深度学习架构。我们针对一个特定问题（公寓中的人类活动识别）评估了几种VLAIR替代方案，并表明VLAIR的分类精度高于经典机器学习算法和其他几种基于非图像的深度学习算法。版权所有©2022作者。由爱思唯尔公司出版我代表浙江大学和浙江大学出版社有限公司这是CC BY许可下的开放获取文章（http://creativecommons.org/licenses/by/4.0/）。1. 介绍使用机器学习和深度学习方法对传感器输入进行分类现在在广泛的应用领域（例如， Patel和Shah，2019年; Kazaz等人。，2012）。这些方法基于训练算法提供日益改进的分类准确性，训练算法利用训练数据中发现的统计数据来构建模型，然后可以基于系统从未遇到的传感器状态对情况进行例如，我们感兴趣的是使用机器学习（ML）分类器来检测和分类人类活动的基础上，从传感器分布在家里（比安奇等人。，2019）。在家中部署具有预训练模型的传感器可以支持一系列期望的应用，其中系统使用识别的人类活动来适当地做出反应（一种隐式交互（Cook et al. ，2013））。例如，智能家居可以调节环境因素，如适合活动的温度或照明（烹饪需要更多的光线，但围着桌子聊天可以受益于更低，更亲密的照明）。也许更关键的是，这种系统可以帮助老年人或慢性病患者*通讯作者。电子邮件地址：aj99@st-andrews.ac.uk（A. Jiang）。https://doi.org/10.1016/j.visinf.2022.05.001通过提醒重要的跳过的活动（例如，服用每日药物），检测跌倒和事故，或进一步帮助诊断这些状况的发展（例如，Alberdi等人，2018年）。以足够的粒度对活动进行准确分类以实现复杂的应用仍然是一个挑战。当使用二元传感器时，这与缺乏明显的方式来整合传感器的位置和其激活的定时以用于分类算法而变得复杂。例如，当用户在卧室中徘徊与工作时，相同的传感器可能被激活，导致难以分离的传感器特征，并导致区分这两种活动的准确性低（Ye etal. ，2015）。受可视化研究领域的启发（例如， Chegini 等人， 2019;Manovich，2011; Stoiber et al. ，2022），我们将原始数据转换为视觉表示，然后用于训练基于视觉的深度学习算法。这种方法，我们称之为可视化作为中间表示（VLAIR），使我们能够编码的传感器起始在一个简单的和人类可读的方式的空间和时间信息。我们利用信息可视化领域的知识数据的中间视觉表示对机器和人类都是可访问的，因为它们是人类视觉系统可能比原始传感器2468- 502 X/©2022作者。由爱思唯尔公司出版代表浙江大学和浙江大学出版社。公司这是CC BY许可下的开放获取文章（http://creativecommons.org/licenses/by/4.0/）。可在ScienceDirect上获得目录列表视觉信息学期刊主页：www.elsevier.com/locate/visinfA. 蒋，硕士 Nacenta和J. 叶视觉信息学6（2022）3536数据这为人类提供了一个通用的表示，可能更有利于探索某些分类，并支持算法和部署的调试。我们还利用计算机视觉算法来揭示可视化中显示的空间和时间模式;也就是说，我们采用卷积神经网络（CNN），长短期记忆网络（LSTM）和注意力机制。我们的贡献是双重的：我们介绍了VLAIR技术，我们显示，通过一系列的实验三个数据集，它如何可以提高精度HAR从二进制传感器数据。分类改进对开发人员有直接价值人类活动识别（HAR）的应用。此外，由于可视化映射设计的灵活性和大的剩余空间，我们相信VLAIR可以应用于二进制传感器活动识别之外，并在这个和其他领域提供进一步的分类性能增益。我们还根据自己的经验就如何应用它提出了初步建议2. 背景和相关工作VLAIR是将机器学习（ML）和深度学习（DL）算法应用于分类问题的另一种方法它利用了现有的计算机视觉和信息可视化技术。在本节中，我们首先将我们的工作与传统方法联系起来。因为我们首先将VLAIR应用于人类活动识别问题，特别是通过二进制传感器进行人类活动识别，所以我们分别回顾这些领域，特别关注ML和DL技术的应用。然后，我们讨论了ML/DL的基于图像的应用程序，我们认为这些应用程序是VLAIR的前身或示例，并且最接近我们的工作。2.1. 计算机视觉和传统分类计算机视觉（CV）是DL产生了一些最令人印象深刻的最新进展的领域之一，例如图像中高于人类表现的对象分类准确度（例如，LeCun et al. （2015））。计算机视觉管道中最常见的架构之一是卷积神经网络（CNN），它首先受到人类视觉系统的启发（LeCun et al. ，2010年）。CNN特别适合于多层机器学习，因为它们的翻译不变性和共享权重架构，这使连接的数量相对较低，因此使具有大量特征（或像素）的输入的分类易于处理（LeCun et al. ，2015）。CNN可以直接应用于输入直接排列在网格中的问题，例如识别光栅图像中对象的典型CV问题。在没有数据的直接空间排列的问题中，CNN仍然可以令人惊讶地有用（例如，Fawaz等人，2019年），但数据需要重新排列成适当的形状，这可能不是微不足道的。当数据具有时间分量时，例如在来自传感器网络的人类活动识别中，DL架构可能包括递归神经网络（RNN）（Graves et al. ，2013）。这些特别适合于基于时间的问题，因为它们通过任意长度的时间信号递归，同时在不同的时间点共享参数。具体来说，长短期记忆网络（LSTM）（Hochreiter和Schmidhuber，1997）大大提高了时间相关问题的准确性，例如语音识别（例如，坟墓等人（2013））。2.2. 通过ML/DL我们的工作是有动机的，并首先在人类活动识别领域的应用程序上进行测试。这一领域的大量工作致力于将ML/DL算法应用于从部署在生活空间中的传感器获得的数据，以对其居住者的活动进行分类。这通常涉及收集和整合来自传感器的数据，从原始数据中提取特征（Hammerla et al. ，2016），并应用学习技术来推断人类行为。各种算法，包括决策树、支持向量机和最近的深度神经网络（Wang et al. ，2019年），已被应用于分类，识别和分割任务。深度学习可以证明学习低级传感器数据和高级人类活动之间的复杂相关性。例如，Morales和Roggen（2016）采用CNN从原始加速度计信号中提取特征，并采用RNN学习人类活动中提取特征的顺序关系; Radu et al. （2018）设计了一种多模态架构，用于整合来自不同模态的传感器数据以推断活动; Sprint等人对Fitbit的时间序列数据进行了变化检测，以跟踪住院康复期间身体活动的变化（Sprint等人）。，2017年）。2.3. 传感器数据可视化一些现有技术将原始输入传感器数据转换为可通过CNN学习的空间表示。例如，早期的数据驱动方法（Zeng et al. ，2014）将加速度计信号的每个维度视为RGB图像的通道以捕获传感器信号的局部依赖性，并利用CNN提取尺度不变的传感器特征以推断人类活动，例如“行走”和“站立时饮酒”。其他类似的方法是调整1D传感器信号输入以形成1D虚拟图像，然后利用CNN的优势来自动提取和学习有区别的传感器特征（Pourbabaee et al. ，2017;Wang et al. ，2017年）。Ha等人（2015）结合了形成图像的传感器输入的所有维度，并使用2D内核来有效地捕获传感器的空间依赖性以及随时间的局部依赖性。它们考虑了两种不同的模式：不同位置的传感器和不同的传感类型。它们将传感器分组在不同的位置，以通过2D内核捕获信号的空间依赖性，并通过在它们之间填充零来分离传感器类型。与使用1D核相比，他们的2D核方法可以从多个传感器获得可区分的特征;例如，加速度计、陀螺仪和磁力计，并在常见的人类活动识别任务中获得更好的性能（Jiang和Yin，2015; Ravi等人，2015年）。，2016年）。然而，由于使用监督式深度学习技术，克服对大量注释训练数据的需求仍然具有挑战性。Singh等人（2017）通过利用在图像数据上预训练的CNN的知识来解决这一局限性，以实现基于传感器的分类任务。它们将力敏电阻织物传感器的2D压力值映射线性转换为灰度图像。通过使用预先训练的CNN作为特征提取器，他们统一了压力传感器数据的特征提取过程，以更好地从脚步识别用户。我们之前的工作还将智能家居环境中的二进制事件传感器数据可视化为彩色图像，并将定制的CNN应用于分类任务（Jiang et al. ，2020年）。我们认为这项工作是VLAIR方法的先驱，因为我们还使用数据到图像的转换来让计算机视觉算法执行分类。VLAIR可以被视为这种方法的一般化，其中数据不需要严格A. 蒋，硕士 Nacenta和J. 叶视觉信息学6（2022）3537空间（如Singh et al. （2017）），并且可以替代地更抽象，在视觉上表示本质上不是明确空间的数据的特性（例如，传感器激活的持续时间或顺序2.4. 用于学习的另一项研究是将交通数据可视化为预测任务的热图。Zhang等人（2017）生成了热图，以可视化网格的流入和流出在基于移动电话信号的区域中;即，在间隔期间有多少人离开或进入网格他们将深度时空残差网络（ST-ResNet）用于人群流量预测。同样，Zeng等人（2020）也在税收交易数据上生成了choropleth地图，并将相同的ST-ResNet应用于交通预测。更重要的是，这项工作允许交互式可视化探索，这有利于领域专家执行可视化分析并协作开发深度流量预测模型。Li等人（2018）将多玩家在线对战竞技场（MOBA）游戏数据可视化为矩阵，并采用机器学习的交互式分析来分析游戏性能和协作。最近，Chen等人将软件应用程序的二进制文件转换他们认为，通过主要利用预先训练的计算机视觉深度学习模型，该模型只在其末端训练一个完全他们认为这是迁移学习概念的应用，因为网络是用自然图像预先训练的，然后应用于不同的领域（恶意软件检测）。其他几个类似的例子遵循类似的方法，但使用不同类型的视觉图像。例如，Hatami et al. （2018）已经将时间序列数据转换为递归图，然后应用CNN，在SIFT，Gabor和LBP特征上获得了比SVM分类器更好的性能他们遵循了Wang和Oates（2015）的工作，他们使用马尔可夫转移场和Gramian角场图像来训练平铺卷积神经网络。Ah-mad和Khan（2018）已经将来自Kinect传感器的深度数据处理为序列前视图图像，并将惯性数据处理为信号图像，以馈送AlexNet（Krizhevsky et al. ，2012年）和CNN并行分类人类活动。我们将上述工作视为VLAIR方法的示例，因为它们利用了非空间数据图像的转换，从而能够应用计算机视觉算法（有关该方法的更详细解释，请参见第5然而，在本文中，我们将认为可视化并不限于这种类型的频率转换，而是可以利用应用于人类的可视化领域的经验。同时，我们的工作认为，共享人类视觉系统和机器学习算法都可解释的表示是有价值的3. VLAIR定义和主要术语我们将可视化作为中间表示（VLAIR）定义为使用数据的抽象可视化映射）以生成用作计算机视觉学习算法的输入的位图图像。这种方法适用于分类问题（本文的主要焦点），但也可以应用于其他任务，如聚类（即，无监督学习）。方法从数据生成的位图可视化映射是数据的可视化，并且共同地形成以该技术的名义所指的数据的中间表示。确定如何将数据转换为可视化的可视化映射可以由可视化专家（人类）设计或通过算法自动设计。映射可以被设计为优化ML任务，但关键的是，也可以针对人类感知进行优化，或者两者兼而有之。关于映射如何影响视觉效率的细节在下一节中。生成的CV模型使用中间表示来执行自动分类（或其他任务）。CV模型又是由计算机视觉深度学习管道指定的训练过程的输出，该管道还使用（可能标记的）中间表示作为输入。4. VLAIR可视化如上所述，VLAIR技术的核心是将原始数据转换为可视化。本节详细介绍了我们如何将特定领域的数据转换为可视化。大量的映射组合是可能的（Xiong et al. ，2021），因此可视化由设计者（人或机器）通过他们对映射的选择来确定，这又确定了可视化对于某些观察者任务的有效性。例如，设计者可以选择将他们想要强调的数据的维度映射到可视对象的水平和垂直位置（例如，圆，点，线），已被证明是人类感知定量数据的最强大的视觉变量（或通道）（Heer和Bostock，2010）。VLAIR基本原理是，由于卷积神经网络的结构受到人类视觉皮层的启发（Fukushima，1980），已知对人类有效的视觉刺激可以通过类似结构的CV算法保持有效感知。理解、优化和自动化人类和算法之间差异的映射选择是未来研究的一个有前途的途径，但超出了本文的范围4.1. HAR和传感器数据本节将简要介绍HAR的问题和所使用的传感器类型，这激发了我们的可视化技术。HAR是一个分类问题，其中输入是来自传感器的带时间戳的数据流，对于任何给定的时间点，输出是当时正在进行的活动的名称（通常来自预先确定的现有活动）。在本文中，我们主要集中在二进制事件驱动的传感器，报告'1'或'ON'时，被激活。示例包括当标签非常接近时被激活的RFID传感器（Logan et al. ，2007），当用户在它们前面时被激活的红外被动运动传感器（Cook和Schmitter-Edgecombe，2009），或指示物理对象的状态的开关传感器，诸如橱柜门是打开还是关闭（vanKasteren等人，2009）。，2011年）。这些传感器可以不引人注目地监视用户原始传感器数据由用活动标签注释的二进制传感器事件的时间排序序列组成。图图1（a）呈现了这些二进制传感器在家庭环境中的部署的示例，图2（b）呈现了这些二进制传感器在家庭环境中的部署的示例。图1（b）提供了传感器数据和注释活动标签的摘录。A. 蒋，硕士 Nacenta和J. 叶视觉信息学6（2022）3538+我R图1.一、CA S A S 米兰数据集的空间布局和原始传感器记录（Cook和Schmitter-Edgecombe，2009）。4.2. 数据预处理和组织我们考虑两个主要的可视化方法。第一个也是最简单的，我们称之为静态可视化，将传感器事件分割成60秒的切片，并为每个切片生成一个代表完整时间切片的单个图像。以前的工作（例如，Krishnan和Cook，2014年）已经发现，60秒适用于此类数据中的此类分类任务;较小的周期无法捕获足够的事件以成功区分活动，而较长的周期不利于及时预测，并且可能包含来自多个活动的数据这种方法的优点是处理单个图像所需的学习架构很简单。注意，在时间片内表示定时仍然是可能的。例如，可以根据事件在60秒内发生的时间来为表示事件的可视化的不同元素第二种方法，我们称之为动画，将每个60秒的切片分成另外六个子区间，这些子区间以与静态可视化相同的方式单独可视化，但作为图像序列或动画馈送到机器学习架构。这种方法受到用于在可视化中可视化动态系统的小倍数和动画技术的Tversky等人，2002年）。动画更明确地编码时序，但它们需要可以处理时间信号的DL架构（我们将在第5节中详细讨论所需的架构）。图 3说明了两种方法。4.3. 可视化设计（映射）传感器到2D可视化中的视觉元素的位置（2D位置视觉变量）。这也是过去用于类似目的的映射（Singh et al. 2017年），这是人类观察者可以理解的。下面介绍的映射和可视化类型只是可能的一小部分;它们提供了一个初步的信息猜测，基于什么对人类有效。我们所有的可视化都是基于将传感器的空间布局分配到图像中的水平和垂直位置。然后，我们通过添加序列和传感器激活比率的信息以及通过额外的视觉变量的时间信息来逐步生成其他变体（见表1）。许多其他的可视化也是可能的，但是它们的系统性探索不在本文的范围之内下面的小节描述了我们已经尝试过的映射，除了上面已经描述过的空间映射，所有可视化都使用它。为了重现性，生成每种可视化类型的代码在补充材料中。几个映射以不同的方式组合在一起，以创建图1中显示的五个可视化变体。二、4.3.1. 传感器激活到圆半径对于预定T间隔中的S个总传感器中的每个传感器i，我们放置由公式（1）确定的半径为ri的圆，其中k表示第i个传感器被连续记录为活动的次数，并且tk是第k个时间段的持续时间，N（t，t+T）是第i个时间段中的记录的数量，并且tk是第k个时间段的持续时间。时间间隔（t， t T），并且rbase是访问传感器点的预定义最小半径，其在我们的设计中被设置为2。我们反复开发了一系列六个初始可视化r（tktk（t，t+T），t+T）=1irbase，（1≤kN（t，t+T））（1）<类型与作者之一，谁是一个视觉-iTr化实践者和研究者。与可视化研究人员进行的约1小时的初始会话提供了基础一套原始的四个基本的可视化类型。另外两种可视化类型是根据其他可视化专家的进一步建议设计的。映射被选择来表示我们发现最有希望的数据的先验特征（例如，传感器布局、传感器的激活比率、激活序列），根据信息可视化中的最佳知识，视觉变量对人类最有效（Stoiber et al. ，2022）和实证研究（刘等。，2021年）。2D平面中的位置通常在按效率和准确性排序的视觉通道列表中排名靠前，因此我们所有的可视化都映射了所有映射（图第1至5行）使用此。4.3.2. 节点过渡到宽度可变轨迹我们通过绘制轨迹来对事件序列进行将每个激活的传感器视为一个节点，连续激活的节点在这些节点的位置之间画出一条线节点i和j之间的线的厚度根据等式（1）变化。其中wbase是指示一次性访问的线的预定义的最小宽度（在我们的设计中设置为2），并且Ni，j是在T长度间隔中传感器i和传感器jwi，j=Ni，jwbase（2）图2中列1到4的可视化使用了这一点。A. 蒋，硕士 Nacenta和J. 叶视觉信息学6（2022）3539[] ≤ ≤+→1 2表1应用于我们测试过的不同可视化类型（列）的不同映射（行）。T代表痕迹，R表示房间形状阴影，DMT表示日和分钟时间，BC表示贝塞尔曲线。可视化类型传感器激活→圆半径（4.3.1）节点转换→宽度可变迹线（4.3.2）时间→颜色（4.3.5）完整时间戳→颜色（R、G、B）（4.3.6）图二、活动集合的转换图像摘要。图三. 静态可视化（左）与具有动画方法的可视化序列（右）的比较，用于具有R+DMT+BC可视化类型的活动4.3.3. 节点过渡到曲率可变轨迹传感器点设Ns[t，t′]为来自传感器点的访问计数1→s2′ ′如果同一对传感器之间存在多次访问，则第4.3.2节中描述的直线通常会重叠。为了分离这些轨迹，我们提供了一种替代方法，在间隔期间从s1到s2t，t，其中t不不 T.的c1和s1之间的距离随着访问次数的增加而线性增加，其定义如下：当同一对传感器激活时，具有曲率逐渐增加的[t，t′]s1→s2 =Ns[t，t′]s双头底座，（3）vated多次times时间.在这里，我们采用三次贝塞尔曲线，它是由2个目标点（s1和s2）和它们相应的控制点（c1和c2）定义。s1和c1之间的直线是曲线在s1上的切线，其距离决定曲线在转向s2之前向c1方向移动的时间。在这里，我们使用距离来编码两个其中dbase是指示一次性访问的控制点的预定义最小距离（在我们的设计中设置为0.1随着访问计数的增加，我们可以分离同一对传感器点之间的访问。利用三次贝塞尔曲线，我们可以对传感器激活的变化率进行编码。例如图 4，角度a1介于映射D不DMTRTRT+DMTRT+DMT+BC传感器x，y→图像x，y✓✓✓✓✓✓✓✓✓✓✓✓✓✓节点过渡→曲率可变迹线（4.3.3）✓✓✓✓✓✓传感器房间→房间形状阴影（4.3.4）✓✓✓✓✓✓✓A. 蒋，硕士 Nacenta和J. 叶视觉信息学6（2022）3540→不不→见图4。三次贝塞尔曲线。文本框表示传感器激活记录：在时间戳t1，传感器s1被激活;下一个时间戳t2，s2被激活。激活右侧显示了相应的三次贝塞尔曲线。线S1C1和角度与电流传感器激活S1之前经过的时间成线性比例。设t0是先前传感器激活的时间戳，t1是传感器s1变为活动的时间戳，t2是另一传感器s2活动的时间戳（即，从s1到s2的轨迹），则角度a1和a2被计算为然后必须用机器学习工作流来处理输入，该工作流输出模型以准确地对静态图像或动画进行在本节中，我们将描述我们实现的主要架构和网络。我们考虑了在架构中结合三个主要元素：CNN，RNN和注意力机制。a1=t1−t0（四）卷积神经网络我们首先瞄准了一个相对轻量级的架构，它可以在一个资源上运行，a2=t2−t1。（五）为了进一步使轨迹更加可见，从s2到s1的访问将在线s1s2下进行;也就是说，相同的角度但负π。图5中列的可视化。 2使用这个4.3.4. 房间形状传感器位于房间内，这是人类活动的有用分隔符。我们添加灰色阴影的所有房间的区域，其中至少有一个传感器在相应的时间内激活RT、R+DMT和R+DMT+BC，如图所示。 2，第3到5列，用这个。4.3.5. 时间到颜色一天中的时间可能与区分具有类似传感器激活的活动相关;例如，准备早餐和晚餐通常发生在不同的时间，即使他们可能会触发厨房里的一组普通传感器因此，我们通过用对应于一天中的时间的颜色色彩映射表是从Matplotlib内置的颜色映射表中获取的，1我们在其中选择从蓝色（清晨）到红色（深夜）的24种不同颜色级别。DMT、R+DMT和R+DMT+BC，如图所示。2，第2，4和5列，用这个。4.3.6. 完整的时间戳到颜色更细粒度的时间信息可能有助于区分某些活动和其他活动。例如，进入和离开房子的痕迹可能看起来相似，但顺序传感器被激活的时间将被逆转。在此映射中，我们保留图像的红色通道和绿色通道来表示一天中的小时（24个级别）和分钟小时（60级）。蓝色通道表示可视化所表示的时间段内的第二个，特定节点的蓝色程度取决于它们是在时间段的结束还是开始时被激活。这种颜色编码的痕迹显示在图。 2，第2、4和5列。5. 机器学习架构我们提出的方法以原始的二进制传感器数据作为输入，将它们分割成固定的间隔，并将每个片段转换为VLAIR静态图像（静态），或者形成较短的静态图像（动画）的短序列。这两个来源1matplotlib内建的色彩映射表可以在以下网址访问：https://matplotlib.org/tutorials/colors/colormaps.html。受限器械。一个小尺寸的模型需要相对较短的训练时间来收敛，在我们的例子中，我们只需要处理主要由曲线，矩形和圆形等原始形状组成的简单图像。出于这一目的，我们设计了一个CNN，它由三个2D卷积层组成，每个卷积层后面是一个整流线性单元（ReLU）和一个最大池化层，然后是一个密集层，然后是一个softmax分类层。递归神经网络我们的应用领域（HAR）具有时间分量，因为活动模式在时间上由居民的运动控制。一个自然的解决方案，能够分类动画可视化是将静态图像特征与递归神经网络（RNN）相结合，用于连续帧之间的序列模式学习（Wu et al. ，2017年）。我们通过采用长短期记忆（ LSTM ）网络（ Fan et al. ，2021），其输入是帧级CNN特征;也就是说，CNN输出通过时间被向前处理并且通过堆叠的LSTM被向上处理。添加最终的softmax分类器以进行预测。注意力机制人类感知的一个重要特性是，人类倾向于不同时处理整个场景。如图2所示，我们可视化中的活动轨迹仅占据VLAIR图像的一小部分区域，我们希望探索仅关注轨迹区域是否会改善活动识别。为了测试这一点，我们考虑了一种注意力机制，它集中在图像的特定区域，而不是平等地对待整个图像（Xuet al. ，2015）。这样做的一般方法是使用加权图像特征;即，将注意力图与图像特征图相乘。注意力图表示图像的每个空间区域的正权重，指示该区域对任务的重要性。这通常被称为软注意力。相比之下，硬注意力每次只对图像的一个区域进行采样，而不是输入整个图像。然而，硬注意力是不可区分的（Luong et al. ，2015）并且在计算上昂贵。软注意力允许定期和更容易的反向传播，因为梯度可以通过随机过程直接计算（Xu et al. ，2015）。最近的注意力机制，自我注意力，使用卷积运算的局部感受野（Wanget al. ，2018年），以避免过度深入的网络和提高性能。这可以通过关注所有位置并在嵌入空间中取其加权平均值来帮助计算序列中某个位置的响应A. 蒋，硕士 Nacenta和J. 叶视觉信息学6（2022）3541图五、基于CNN（上）和基于LSTM（下）的模型架构概述。在我们的实验中，我们考虑基本的软注意力和自我注意力模块作为对上面讨论的底层CNN和LSTM神经网络的补充。5.1. 整体架构我们实验的目标之一是确定哪种DL架构最适合考虑的两种类型的输入（单个图像和动画）。我们根据输入的类型组合了上面讨论的对于单图像分类，我们首先应用CNN，然后可选地应用注意力层（不需要时间网络，因为这种类型的输入不包含序列）。注意力是软注意力或自我注意力。最后一个完全连接的分类器提供活动预测（见图1）。 5顶部）。对于动画输入，我们连接CNN层，然后（可选地）是注意力层（软注意力或自我注意力），然后（可选地）是LSTM层，最后还有一个完全连接的分类器（见图1）。 5底部）。6. 评价方法为了验证VLAIR方法，我们设计了一系列实验来测试Fig. 2与一系列不基于图像的最先进的替代方案以及不同的支持体系结构进行比较。这些实验旨在回答以下问题：Q1哪种类型的VLAIR可视化可以更准确地识别？Q2哪种DL架构的VLAIR精度最高Q3VLAIR是否优于现有的基于原始传感器数据的活动识别方法？6.1. 数据集为了演示我们的方法，我们使用了三个基于二进制事件驱动传感器的HAR最先进的第三方数据集来自Cook和Schmitter-Edgecombe（2009）发布的CASAS项目，代表了从阿鲁巴、米兰和东京的三个家庭部署中收集的数据。2所有数据集都使用相同的程序进行了很好的注释（尽管类别不同），并包含各种用户活动。活动标签是由CASAS团队的多个注释者使用房屋平面图、传感器位置和居民填写的表格以及他们活动的时间和位置信息制作的（Aminikhanghahi等人，2011年）。，2018年）。图1（a）显示了其中一个智能家居设置（米兰）的空间布局，以及传感器的位置（用红色圆圈标记）。图1（b）列出了原始传感器数据的一个小子集及其活动注释。每个数据集的活动类别及其分布见表4。我们还从公寓布局中提取了传感器位置的相对2D坐标，这些坐标也在补充材料中提供。在Aruba数据集中，一位单身老年妇女在2010-2011年期间住在公寓里，并进行日常活动，如做饭，吃饭和工作。她和一只狗住在一起，孩子和孙子们经常来看望她。Aruba测试台有31个无线运动传感器、4个门传感器和4个温度传感器。我们只保留与本研究相关的运动传感器和门传感器。米兰的数据集是2009年通过28个无线运动传感器在一名成年女性和一名狗志愿者的家中收集的。她的孩子们来过几次。在东京数据集中，公寓里住着两个居民（R1和R2），他们进行日常活动，包括工作、做饭和睡觉（因此，我们将该数据集称为Twor数据集）。现实环境通常包含多个用户，识别多用户并发活动对于智能以下小节描述了方法设计实验的选择2这三个 CASAS数据集可在www.example.com上http://casas.wsu.edu/datasets/。A. 蒋，硕士 Nacenta和J. 叶视觉信息学6（2022）3542××××××× ×{∑表2CNN配置。类型配置输入NM3图像卷积滤波器：64，内核大小：3 3，步幅：1最大池化内核大小：2 2，步幅：2卷积滤波器：64，内核大小：3 3，步幅：1最大池化内核大小：2 2，步幅：2卷积滤波器：128，内核大小：3 3，步幅：1最大池化内核大小：2 2，步幅：2完全连接的512个神经元Softmax C神经元木屋.然而，通过身份不可知传感器识别两个人的活动是具有挑战性的，并且它主要依赖于学习用户在执行相同活动时的细微差异（Ye et al. ，2015）。我们故意选择这些数据集，因为传感器部署的密度，因为它们被很好地注释了，表3数据集的关键统计数据及其相应的基线表示。6.4. 基线关于非VLAIR方法，我们考虑从两个正交维度的变化基线：数据表示和模型类型。数据表示是指提供给机器学习算法。我们考虑三种替代方案：原始（RAW），位置和时间（时间+时间）和互信息（MI）。RAW表示包含每个间隔中每个传感器的激活强度，如等式2所述。（六）、广泛的活动。对这些数据集的评估将有助于我们了解（1）我们提出的方法是否适用于不同的智能家居数据集，以及（2）性能如何pi=NiS0j=1如果i∈[1，S]（6）否则与在正常传感器读数中存在噪声时的现有技术方法相比;例如，狗的运动和家人的6.2. 比较为了解决上一节中的问题，我们有评估VLAIR方法与非VLAIR（基线）方法相比的效果在VLAIR方法中，我们还想知道单个图像是否比动画效果更好，以及注意力机制（软注意力或自我注意力）是否有帮助。最后，我们打算评估所提出的VLAIR可视化（T、DMT、RT、RT+DMT、RT+DMT+BC）中哪种效果最好。为了公平地保证VLAIR优于非VLAIR方法，我们必须涵盖足够范围的非基于图像（非VLAIR）方法和架构。尽管没有最先进的模型可与VLAIR直接比较，但我们考虑了与VLAIR（LSTM和CNN）以及经典监督学习算法（K-最近邻，支持向量机和随机森林）相当的深度学习架构出于同样的公平性和可推广性原因，我们为每种非VLAIR算法考虑了三种类型的数据表示（原始、互信息和位置+时间）（关于比较基线选择的更多详细信息见第6.4节）。由于组合的数量太大，无法呈现或比较，我们不提供所有可能性的完全交叉测量。相反，我们经常选择某个类别中表现最好的可视化模型转换架构，例如，最佳VLAIR方法，并在适当时报告。6.3. 超参数设置使用基于图像或非图像的DL方法实现良好的分类我们在所有方法上都遵循最先进的微调方法，更多细节可以在我们的补充文件中找到我们在表2中总结了我们的设置。其中，Ni是第i个传感器在间隔期间被激活的次数。通过将传感器坐标、房间坐标、小时信息和转换（相当于轨迹）信息添加到RAW中已有的数据中，该方法以与VLAIR方法等效的方式提供额外的空间最后，MI表示基于时间和传感器互信息对每个传感器事件的贡献进行编码，如Krishnan和Cook（2014）所述。在该方法中，时间依赖性基于片段中的传感器事件到片段中的最后事件的时间距离来测量片段中的传感器事件的连续性，并且传感器依赖性测量两个传感器连续发生的概率。从RAW表示，它计数传感器事件，MI特征向量加权传感器事件的时间依赖性和传感器互信息的基础上的影响。表3总结了这三种表述方式的主要方面。另一个正交维度涉及模型类型，它与分类算法相耦合。我们考虑以下模型类型，其中一些先前已经在此类数据上进行了测试：经典的监督学习：朴素贝叶斯，K最近邻（KNN），分类和回归树（ CART ），具有线性和 RBF 核的支持向量机（SVM，SVM-RBF）和随机森林（RF）。所有实现都来自scikit-learn库（Pedregosa et al. ，2011年）。由于CART和线性核SVM的结果比所有其他方法都差得多，因此我们在结果报告和讨论中省略了它们。深度学习：CNN和LSTM设计的CNN由三组卷积层组成，每组卷积层由一个2D卷积层和一个最大池化层组成，一个密集层有512个神经元，dropout层和softmax分类层。除了CNN之外，我们还设计了一个LSTM，它被放置在CNN的第一个全连接层之后。我们实验了不同数量的层和记忆单元，并选择使用三个堆叠的LSTM层，每个层有512个神经元。我们对原始传感器数据使用相同的预处理标准。也就是说，n个单独的传感器段被输入到n个卷积网络，然后连接到一个三层LSTM，其中一个LSTM层的输出·NJ·A. 蒋，硕士 Nacenta和J. 叶视觉信息学6（2022）3543图六、不同VLAIR映射的性能比较。所有显示的映射都是使用CNN+LSTM架构训练的是下一层的输入。添加了一个dropout层，一个dense层提供了模型的最终预测。对于CNN和LSTM，我们使用与VLAIR相同的方法对超参数进行网格搜索，例如神经元和层数以及学习率。最终的配置被选择为平衡精度和计算效率。总之，我们考虑了3种经典的机器学习技术KNN、SVM和RF，以及2种深度学习技术CNN和LSTM。每种技术将应用于3种特征表示：RAW、MI和RAW +TIME。总的来说，我们比较VLAIR与15个模型的原始传感器数据。6.5. 确认方法对于每种VLAIR技术，我们运行了5倍交叉验证，这被认为适用于长期数据集，并已应用于相同的数据集（Feuz和Cook，2017;Ye等人，2015）。验证集是通过分割训练数据（即，K-1折叠）为80%用于模型训练，20%用于验证。6.6. 度量我们使用F1分数作为我们的主要准确性指标，因为它们平衡了精确度和召回率。更具体地说，我们使用宏观F1分数（平均所有活动类的F1分数）和微观F1分数（平均所有实例）。对于每个条件，我们从5倍交叉验证的平均值计算分数。我们在同一台专用机器上运行所有实验：英特尔工作站，处理器i5-8500 CPU@3.00 GHz，6个核心和64 GB内存，NVIDIA Quadro p6000 GPU，并测量执行时间。7. 结果在这里，我们将实验的主要发现分为三个小节，与第6节中的三个问题相对应。首先，我们解决的问题是什么可视化将产生最准确的结果，然后，架构支持这一最好的，然后我们比较最好的VLAIR结果与非VLAIR方法。最后一个小节描述了我们的执行时间度量。7.1. VLAIR可视化的比较（Q1）图6直观地总结了使用动画类型的不同VLAIR映射训练的CNN +LSTM VLAIR架构的F1分数。3我们在每个类上呈现F1分数，并在每个数据集的最后呈现平均微观和宏观F1分数。在所有VLAIR变体中，RT+DMT+BC可视化为所有数据集提供R+DMT+BC在所有数据集的49个类别中的39个类别中最准确。灰度传感器迹线，T和RT，表现最差，其中，添加房间形状并没有提高精度，这不支持我们原来的假设。DMT（其编码传感器迹线的时间知识）和BC（其分离重叠迹线）中存在两个显著改进这两种方法都提供了与活动相关的人类运动的更多信息，包括在什么时间活动在一天中进行的时间、运动在哪些区域之间过

下载后可阅读完整内容，剩余1页未读，立即下载