多模态数据中级联残差自动编码器的数据估算和对象识别

138 浏览量更新于2023-10-16 收藏 1.01MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1通过级联残差自动编码器进行美国密歇根州立大学计算机科学与工程系，美国密歇根州东兰辛，邮编48824{tranluan，liuxm，jiayuz}@ msu.edu容靳阿里巴巴集团控股有限公司中国浙江杭州jinrong. alibaba-inc.com摘要负担得起的传感器导致越来越多的兴趣，获取和建模数据与多种形式。从多种模态中学习已被证明可以显着提高对象识别的性能然而，在实践中，通常感测设备经历不可预见的故障或配置问题，导致丢失模态的损坏数据。大多数前多模态学习算法不能处理丢失的模态，并且将丢弃具有丢失值的所有模态或所有损坏的数据。为了利用损坏数据中的有价值的信息，我们建议通过利用不同模态之间的相关性来估算缺失数据。具体来说，我们提出了一种新的级联残差自动编码器（CRA）来填补缺失的方式。通过堆叠残差自编码器，CRA迭代地增长以模拟当前预测和原始数据之间的残差大量的实验表明，CRA在数据估算和估算数据上的对象识别任务上都具有优异的性能。1. 介绍传感器技术的飞速发展大大降低了生产不同用途传感器的成本，这使得研究人员能够以多种方式收集数据。多模态数据从不同的视角描述一个样本或基准点，这些视角提供了关于基准点的补充信息[13]，但也密切相关，因为它们描述了相同的样本。研究人员已经就如何将来自不同模态的有用信息结合起来以更好地实现特定于应用的目标进行了广泛的研究[6，10，12，17特别是，来自多个模态的组合信息被证明在各种计算机视觉任务中非常有效，例如来自空中视频的对象检测[19]，其中我们可以获得多个感测信息，包括RGB、LiDAR、多光谱成像、高光谱成像、GPS等。图1：缺少模式的学习。给定来自多个模态的传感器数据的大量集合，数据插补可以利用所有可用数据来学习多对象分类器，尽管缺少模态（白色区域）。相比之下，现有方法可能必须移除一些模态和/或训练样本，使得在所有剩余模态中观察到所有剩余训练样本（虚线框）。关于多模态数据的信息融合的大多数先前工作假设所有模态对于每个训练数据点都可用[10，21]。这种假设可能会极大地限制多模态分析的应用，因为在实践中，数据收集过程可能会产生缺失模态的数据点例如，在一个示例中，不可预见的传感器故障可能无法检索感测信息。此外，传感设备中的配置问题可能导致不兼容的数据。因此，当联合分析来自不同机构的数据时，样本覆盖范围可能不完全相同，一些相应的模式可能不兼容。我们将缺少模态的样本称为损坏样本。这种损坏的样本可能会对应用多模态分析带来重大挑战：我们可能需要选择（i）从训练中删除损坏的样本，(ii)删除带有损坏样本的模态。我们在图中说明了丢失模态的问题。1.一、不幸的是，这两种选择都会消除我们收集到的潜在有用信息。此外，当训练数据的大部分被破坏时，多模态分析将失败。模态缺失问题是一类特殊的数据缺失问题。传统上，通过假设数据矩阵的缺失值是随机的（即，失踪的14051406随机，MAR），存在许多容易使用的插补方法，其基本原理是利用矩阵元素之间的潜在相关性，并从观察到的元素中推断缺失值。一种研究得很好的插补方法是矩阵补齐[4，5]。然而，在多模态数据中，当将不同模态的特征连接到数据矩阵中时，缺失值不再是随机分布的，而是以块的形式出现：缺失值将同时出现在一个模态中（图1）。①的人。由于MAR的违反，传统的方法不再能够保证重新覆盖丢失模态的损坏样本。此外，许多矩阵完成方法涉及整个数据矩阵的迭代奇异值分解（SVD），使得其在计算上对于大数据是禁止的。在本文中，我们提出了一种新的级联残差自动编码器（CRA）的缺失模态的填补，这是由一组堆叠的残差自动编码器（RA），迭代模型的残差。传统的自动编码器已被用于在许多领域中估算丢失的数据，例如交通数据[11]和传感器网络[35]，其中输入层是具有丢失条目的数据样本相反，对于CRA的每一层处的RA，其期望输出是输入（即，不完全数据样本和完全数据样本。从第一层开始，顺序地学习每个RA，使得其输出推动总体估算数据更接近完整数据。这种前向学习范式导致级联自动编码器，其采用损坏的数据并估计很好地近似完整数据的函数。此外，我们还开发了一个联合优化方案，同时估计CRA中所有RA的参数，使整体损失可以进一步最小化。这种优化的执行类似于卷积神经网络（CNN）中的反向传播。在基准数据集上的实验结果表明，CRA在数据填补和后续的目标识别的基础上的数据填补的优势。总之，本文做出了这些贡献：1）识别多模态数据中普遍存在的模态缺失问题：2）提出了一种基于cased残差自动编码器的数据填补方法; 3）证明在缺失模态的插补数据方面的最新性能。2. 相关作品由于我们提出了一种新的数据填补方法的缺失模态问题，我们回顾了以前的工作填补，例如，矩阵完成和自动编码器。矩阵补全是填充部分观测矩阵的缺失条目的任务。矩阵完备化通常假设缺失项与观测项相关，这相当于完备化矩阵中的低秩结构。图2：自动编码器。矩阵由于不同模态之间的相关性，这种低秩假设可以适用于我们的缺失模态问题。一些现有的方法是基于核范数最小化，例如SVT [3]和Soft- Impture [26]。另一方面，OptSpace [20]从基于传统SVD的矩阵因式分解视图进行公式化。将矩阵补全应用于我们的问题有两个限制：（i）它们通常计算数据矩阵的SVD-对于大的数据矩阵，这在计算上是昂贵的，这通常是多模态的情况;（ii）许多矩阵完成设置假设随机缺失（MAR）（例如，[5]）。然而，在多模态数据中丢失连续块显然打破了这一假设。因此，矩阵完备化对于我们的问题可能不是最优的，如图2中的结果所示。8.自动编码器（AE）最初是一种无监督的学习方法，其目标是学习潜在（隐藏）数据表示，我们可以通过神经网络重建原始数据它编码一个输入向量-通过非线性映射转换为隐藏的表示，然后通过另一个映射将其解码回来（图1）。2）的情况。自动编码器经过训练，使输出（x）尽可能与输入（x）相似一种早期的基于AE的插补方法将AE与遗传算法（GA）相结合[1，28]。给定一个经过训练的AE，组合猜测值和观察值的完整向量作为输入被馈送到AE中GA将选择使AE的输入和输出之间的差异最小化的向量Vincent等[33]提出了一种用于特征提取的AE的噪声鲁棒变体，称为去噪自动编码器（DA）。DA重建无噪声信号，将其损坏的对应物作为输入。DA比AE和GA组合更适用于插补堆叠式自动编码器（SDA）尽管au-对于各种数据集的编码器[1，9，11，28]，这是具有挑战性的用于单层自动编码器以模拟不同模态中的数据之间的复杂关系。几个自动编码器可以堆叠形成一个深层次[33]。AE可以被放置在先前AE内，并且从先前AE的潜在表示（隐藏层）接收其输入，在[16]中显示，在没有预训练的情况下，深度自动编码器总是重建训练数据的平均值然而，在我们的应用程序中，由于多个模态中的大量缺失数据，3 .第三章。多模态数据中的自动编码器也有自动编码器，W1W2B1B2……140700为多模态数据定制的编码器方法。 Ngiam等人[30]使用深度自动编码器来学习语音和视频信号的高级特征之间的交互。Wang等人。[34]在多模态数据的特征表示中加强了相关性。由于这些工作更多地关注表示学习，因此它们不一定会导致良好的插补性能，如表1所示。3 .第三章。深度残差网络我们提出的CRA受到启发∆��^conv13×3、2、16conv23×3、2、8fc fc deconv23×3、2、16解v13×3、2、1图3：卷积残差自动编码器。卷积参数的格式为：过滤器大小、步幅、过滤器编号。最近在深度CNN中取得的目标识别成就，第他等人[15]提出了一个残差学习框架-f（W（1）x+b（1）），其中W（1）2Rd<$d，b（1）2Rd和fResNet用于物体识别。他们reformate- mulate层作为学习残差函数与参考层的输入，而不是学习未引用的功能。虽然CRA和ResNet在网络设计上有相似之处，但它们的目的不同CRA用于数据填补，ResNet用于对象识别。此外，CRA采用逐层学习，然后联合优化，是ReLU的非线性函数隐藏的表示然后被映射到输出f（W（2）z+b（2）），其中W（2）2Rd<$d和b（2），<$x2Rd。通过推广到具有L层的深度自动编码器，并且将第l层处的值表示为a（ l ），我们具有a （ l+1 ）=f（W （ l ） a （ l ）+b（l））。为此，自动编码器通过以下方式将输入映射到输出θW，b（x）：Rd！ Rd：θW，b（x）=a（L）mization，而ResNet的参数是学习结束时，结束最后，CRA能够动态地确定其θW，b（x）=f. W（L）f（. f（W（一）X+B （一））... ）+b（L）.（一）ResNet需要一个预定义的深度。3. 级联残差自动编码器在先前的工作中使用自动编码器[11，27，28，35]来插补随机缺失（MAR）的缺失数据。对于MAR，很少有连续的大块缺失条目。例如，在一个示例中，即使当数据稀疏度为 10%（即， 90% 的数据是缺失的），具有20个连续缺失条目的概率仅为12%。对于具有缺失模态的数据，缺失条目通常出现在更大的连续块中。这一关键差异意味着，在缺失模态中，可用条目和缺失条目之间的相关性比MAR更复杂。这显然对单个自动编码器准确地恢复丢失的模态提出了挑战。这个问题的直观解决方案是在自动编码器内添加额外sDA。然而，我们的实验表明，在我们的应用中，SDA的性能并不比去噪自动编码器更好。我们假设深度自动编码器更难训练，特别是在有限的训练样本下（见表1）。3）-由于缺少模态而导致的典型场景。为此，我们提出了一种新的cas- caded残差自动编码器（CRA）框架的数据插补。在每个级联层中，残差自动编码器被训练以近似输入数据（其是当前恢复的数据）与期望的未损坏的数据之间的残差。通过多个级联层，CRA逐步改进其对未损坏数据的估计。3.1. Autoencoder自动编码器的目标是学习数据的潜在表示，它可以重建原始数据。它将d- dim输入向量x映射到d0-dim隐藏表示z=0140822222222参数{W，b}通过最小化在所有训练数据上x和x之间的L2损失L=1kx−xk2=1kx−θW，b（x）k2.（二）使用与自动编码器相同的架构，去噪自动编码器（DA）从部分观察到的输入重建完整的输出。3.2. 残差自动编码器我们提出的CRA的基本构建块是一种称为残差自动编码器（RA）的自动编码器。RA具有与常规自动编码器或DA相同的结构，包括输入层、潜在层和输出层。RA和DA都将损坏的数据作为输入层。在输出层，DA产生完整的数据，而RA产生输入数据和完整数据之间的差异。这个看似微小的差异具有重大影响：它使我们能够在级联架构中堆叠一组RA在数学上，对于单个RA，我们将不完整的输入数据x*转换为隐藏层r，然后转换为输出层，两者都通过非线性映射，如autoen-code r中。所需的输出定义为<$x=x−x<$。RA的目的是使估计的输出，x=θW，b（x），尽可能接近期望的输出，在最小正方形这导致以下损失函数：L=1k<$x−<$x<$k2=1k（x−x<$）−θW，b（x<$）k2.（三）3.3. 卷积残差自动编码器当输入数据是二维图像时，我们将RA推广到卷积残差自编码器，如图所示. 3 .第三章。这1409KW（l）222K2^=^=^^^^^^...图4：L层CRA的架构，其中每一层都是RA.黑点是缺失的模态。具有利用2D图像结构、利用学习的特征而不是原始像素以及减少RA的参数数量的优点由于卷积感受野的范围有限，使用两个完全连接（fc）层来实现模态之间的远程交互。与RA类似，我们从损坏的数据样本中估计残差。根据层的类型，连续层之间的关系表示为：a（l+1）=f（a（l）<$W（l）+ b（l））（W是卷积算子）或a（l+1）=f（W（l）a（l）+b（l））。为了学习卷积RA，我们首先训练一个卷积和去卷积网络，该网络从3.5. 联合优化如所描述的，CRA以前向和逐层方式被训练。每个额外的RA被训练以进一步最小化当前CRA堆栈的重建误差。尽管每个单独添加的RA都达到了局部最小值，但我们可以通过联合考虑堆叠的RA来微调CRA。为此，我们开发了一个联合学习计划，同时估计的CRA中的所有RA的参数具体地，组合所有RA的输出，估计通过以下公式给出通过估计四个卷积滤波器，将x输入到自身然后，我们通过将两个完全xx =xL+xL=（xL−1+xL−1） +xL=...XL连接层并学习它们的权重，以便=x0+i=1 ∆xˆi.（五）各种模式之间的互动。最后，过滤器和联合优化CRA的联合损失函数定义为：XL通过最小化方程中的损失，3 .第三章。3.4.级联残差自动编码器L=1kx−xk2=1kx−（x0+x（六）i=1所提出的级联残差自编码器是通过连接一系列RA来构造的，如图所示4.第一章对于第一RA，输入是损坏的数据，即， x0=x。对于剩余的RA，输入是最后一个RA的输入和最后一个RA的输出的总和。具体地说，设x0=0。第k个RA的输入可以表示为xk=xk−1+xk−1，其中xk−1是上次RA。将学习每个RA以最小化不同在当前估计和完整数据之间，这导致第k个RA的损失函数：3.5.1反向传播优化的损失函数。6取决于由参数W和b控制的所有RA的输出。当最小化该损失时，同时学习所有L组参数W和b。受CNN学习的启发，我们采用常用的反向传播方案来最小化这种损失，这依赖于Lw.r.t.每个参数。下面的推导是针对CRA的，卷积CRA的推导是类似的，由于空间有限而被省略。我们表示每个RA具有n-l层（即，第一个和最后Lk=1kxk−xkk2=1k（x−xk）−θ（k）（xk）k2.（四）分别对应于输入和输出的层222W，b2以及第k个RA的第l层处的值作为a（l）。损失在训练过程中，CRA动态地确定其最佳函数w.r.t.单个训练样本是：通过迭代学习RA并将其添加到XLL=1kx−（x+x当前CRA，直到损失函数稳定。最后通过一个20i=1i2L层CRA是用L组参数W获得的，XL=1kx−（x+a（nl））k2.（七）B. 为此，我们期望重建误差减小随着层数的增加我们在SEC的实验4.3表明，较深的CRA优于较浅的CRA。当卷积-2i=1i2我们注意到，衍生物w.r.t. 参数（例如，可以直接从导数w.r.t.他们的∂如果使用了函数RA而不是RA，则我们将结果称为kLCRA为卷积CRA。关联的中间层（Rena（l））。因此，我们首先展示++++1410D1D2nnne测试数据失踪失踪训练数据不KK∂∂k+1ka（l）k算法1：梯度计算输入：样本x，x，CRA值a（l），x作为输入部分训练数据产出：相对于利率的衍生品参数r（l）L，r（l）L1 对于k→L到1，WKBKM（一）完整的训练数据（b）第（1）款图5：（a）用于插补实验的数据分区;（b）用于识别实验的各种类型的训练数据。如何计算损失函数w.r.t.的导数自动编码器的第l层的值让δ（l）=εL，∂第k个RA表示为[29]：δ（1）=（W（1）δ（1+ 1））f0（W（1）a（1）+b（1）），（8）加入CRA。换句话说，这允许在添加下一个RA之前进一步降低总体损耗，这可能具有更快收敛的潜在益处我们在实验中比较了这两种策略。4. 实验结果实验的目的是评估不同的方法对数据填补缺失的方式，以及使用填补数据的对象识别。因此，我们有两个主要的实验：填补实验和识别实验，每个服务于一个目标。我们用Caffe实现CRA，并在这里分享代码。KKKk k k4.1. 实验方案其中◦是元素级乘积。衍生品w.r.t. 的第k个RA（k= 1，2...，L-1）是：由于插补实验需要未损坏的数据，（nl）K.= −x−x−.XLi=1XLa（nl）我！|.！|XLi=1！a（nl）我a（nl）K为了评估，我们不能利用数据库与世界”缺失的模式。相反，给定一个多模态数据库，我们通过删除部分训练样本的一些模态来合成缺失的模态。图5a示出了用于插补经验的训练和测试数据的划分。= −x−x−.-x−x−.i=1XLi=1XLa（nl）我！|a（nl）我！|-你好. XLi=k+1！a（nl）我a（1）k+1暗示。请注意，训练数据是由基于自动编码器的方法使用的，而不是矩阵完成方法。一般来说，人们可能会期望这些训练数据没有缺失的模态。在实践中，我们可以利用任何数据样本，只要它们至少有两个观察到的模态，其中我们可以删除一个或多个模态并学习重新定义。=−x−x−i=1a（nl）我+δ（1）。（九）通过其他观察到的模式涵盖这些问题。对于这些数据样本，缺失部分将不会在损失中进行评估由于篇幅所限，方程的完整推导仅限于本文。9在这里省略了。方程8和9允许我们递归地计算导数w.r.t.网络参数。详细算法在算法1中描述。3.5.2学习策略培训CRA有两种不同的学习策略。一种称为单次CRA，其中每个RA顺序训练，并添加到CRA，直到重建误差不能进一步减少。之后，联合优化同时更新所有RA的参数另一种称为主动CRA，在每次RA//计算w.r.t.的导数第k个RA2δk→−x−x<$−3，如果k=6 贝ljr（nl）⇣PLi=1ai（nl）|;f/δ使用等式11计算。9（nl）K4δk→δk+δk+1;//计算剩余的期望导数5对于l→nl−1 to 1 do//计算w.r.t.每一层（nl）（nl）（1）（l）（l）（l+1）0（l）（l）（l）6δ→（W δ）→f（Wa +b）;KKKKK K//计算w.r.t. 参数（l+1）（l）（l）（l）7rL → δf（W a+b）.（a）;0（l）W（l）|KKk k kK（l+1）0（l）（l）（l）8rL →δb（lKf（W a+b）;KK KKδ∂∂第二模态数据第一模态数据失踪失踪第二模态数据1411功能因此，测试和训练部分可以针对具有两种以上模态的数据重叠。CRA的优势在于甚至可以利用缺失模态的数据进行插补训练。在不同的插补方法恢复丢失的模态之后，识别实验使用在四种类型的数据上训练的分类器，如图所示。5b：（1）具有可用于所有模态的样本的部分训练数据，（2）每个单一模态的可用部分，（3）没有缺失模态的完整训练数据，以及（4）使用不同插补方法恢复的训练数据。评估方法为了对插补实验进行全面评估，我们使用两个指标，每个指标来自不同的视角归一化均方误差1412kXkF（x−x<$）T（x−x<$）表1 ：四个数据集的属性，在识别实验中的模态数量（m）、数据维度（d）、用于插补的训练样本数量（nt）和测试样本数量（ne）、缺失率（r）、类别数量（c）、每个类别的训练样本（n）和每个类别的测试样本（k）。缺失率是缺失元素的数量与元素总数之间的比率。数据集m d nt ne r（%）c n kGRSS2[111，37]2019年12月20日⇠ 1804515⇠200⇠10000.060.0550.050.0450.04One−shot CRA TestOne−shot CRA TrainGreedy CRA TestGreedy CRA Train0.1750.170.1650.160.155RGB-D2[2500，2500]170⇠ 5134051⇠683⇠138MTPIE5[1024，...，1024]1529 729501371529 781HSFD24[625，...，625]76 38 40 38 76 2 −5（NMSE）是一个通用度量，NMSE=kX−XkF，其中X，X是原始和重建的数据矩阵，k。kF是Frobenious范数。峰值信噪比Ra-1 2 3 4 5 6RA数量图6：学习策略比较。在将每个RA添加到积极CRA和一次性CRA后出现的垂直线显示了由于联合优化而导致的改善。0.150.25 0.5 0.75 1训练数据比率图7：两种学习方法在不同训练数据量/比率下的插补性能。峰值信噪比（PSNR）通常用于量化图像压缩和重建。在我们的问题中，由于数据样本被归一化到[0，1]的范围，因此我们的PSNR= 10 log10d。对于识别实验，我们使用测试集上的识别率作为度量。4.2. 数据集我们使用四个基准数据集：2013年GRSS数据融合竞赛数据集（GRSS）、RGB-D对象数据集（RGB-D ）、 Multi-PIE （ MTPIE ）和来自香港理工大学（HSFD）的高光谱人脸数据集。表1总结了四个数据集的主要属性。GRSSGRSS数据集[8]包括一个高光谱图像（HSI），一个大学校园的LiDAR衍生数字表面模型有15类，包括自然和人造物体。对于分类任务，我们遵循[21]中的框架。具体而言，高光谱和LiDAR数据中的空间特征是通过形态属性轮廓提取的[7]。然后，使用MLRsub分类器[23]进行分类。马尔可夫随机场[24]也用于空间正则化，以促进最终分类结果的空间平滑性。RGB-DRGB-D数据集[22]包含300个物理上不同的日常物体的41，877个RGB-D图像，分为51类。该数据集包含纹理和无纹理对象，具有较大的光照变化。我们在原始深度或灰度图像中插入缺失的数据。为了创建一个数据矩阵，我们将所有图像放在200×200空图像的中心，并将采样降到50×50。对于分类，我们使用分层匹配追踪[2]提取特征，然后使用线性SVM。按照[22]中的实验设置，我们从每个类别中留出一个对象实例进行测试，并在每次试验中对剩余的300-51 = 249个对象进行训练MTPIEMulti-PIE数据集[14]由754，200个337个受试者的面部图像，姿势、表情和照明。在我们的实验中，我们只使用正面照明和中性表情的面孔。每个样本由五个不同的姿势组成，范围[0o，60o]对应于五种模态（具有负姿态的图像被翻转为双数据样本）。对于分类，我们使用前200名受试者进行训练，其余137名受试者进行测试。每个测试对象都有正面图像作为画廊;我们将具有任意姿态的面部图像与前廊面部进行匹配。使用简单的CNN（三个conv层和两个fc层）来显示特征。HSFDHSFD[10]包括高光谱人脸图像，48名受试者。前25个实验对象中的每一个都有4到7个而其余23名受试者每个受试者只有一个立方体每个立方体包含33个带（即，模态），覆盖400至720nm的光谱范围。按照[10]的实验方案，我们的实验使用前25个受试者，共113个立方体。前六个和最后三个频带非常嘈杂，如[10]所建议的那样被丢弃。对于每个受试者，随机选择两个立方体作为画廊，其余63个立方体作为探针。面被裁剪使用眼睛坐标并调整大小为25*25。对于每个主题，两个画廊立方体之一是损坏的多个波段。使用空间光谱融合方法[32]将覆盖的人脸立方体融合成2D人脸图像，并通过协作表示[36]进行识别。4.3. 插补实验结果学习策略图6比较了CRA的两种学习策略在训练和测试阶段中一个GRSS类该实验表明，两种策略导致相似的最终插补性能，而积极CRA需要较少数量的RA（3。4个RA对5个RA。一次性CRA的6个RA，平均超过15个类别）。这是预期的，因为积极的CRA更频繁地执行联合优化，因此收敛得更快。对于其余的实验，我们使用积极的CRA，因为它是更有效的，由于其较小的深度。我们还将我们提出的逐层学习方法与端到端学习进行了比较。在所有四个数据集中，我们观察到前者总是比后者获得更好我们假设这是因为训练样本的数量不够大，这通常是逐级端到端NMSENMSE1413SoftImputeCRA表2：CRA深度对HSFD性能的影响。(a) 部分数据（b）全部数据0.4 0.40.30.20.100.1 0.2 0.3 0.40.50.30.20.100.2 0.4 0.6(c)sDA（d）CRA图9：GRSS数据集上插补检验矩阵的颜色编码可视化。每行是HIS（左）和LiDAR特征（右）的137从蓝色到红色的颜色对应着图8：比较块级（左）和元素级（右）未命中不同缺失率下GRSS土壤等级的数据插补在分块腐败中，我们必须至少保留2个模态中的1个，因此缺失率必须小于0。五、多模态数据集的情况。为了验证这一假设，我们修改了MTPIE的实验设置，使用所有光照和表情的人脸图像。来自200名受试者的样本用于训练，剩余的137名受试者用于评估插补，分别产生62，767和32，167个训练和测试样本。图图7示出了当存在有限的训练样本时逐层学习更合适（例如，25%和50%的完整训练集）。CRA深度的影响我们探索CRA中的RA数量（即，CRA深度）影响性能。具体地，从优化的卷积CRA，基于其深度（RA的数量）生成不同版本的CRA。在HSFD方面，其性能报告见表1。二、该表显示，堆叠RA以构建深度架构可以改善填充和对象识别，并且更深的CRA优于浅的CRA。MAR与缺失模态低秩矩阵补全方法在假设MAR的情况下工作良好。然而，在多模态数据中丢失连续块可能会打破这些假设。在这个实验中，我们比较了矩阵补充方法（SoftImpute）与CRA在两种类型的破坏。图8显示了这两种方法在不同缺失率下的插补误差。SoftImpute，如预期的那样，在腐败是元素随机的时候工作得很好然而，当数据块中缺失数据时，SoftImpute的性能明显差于CRA，例如，当缺失率增加时，插补误差呈指数增长从图8中，我们还观察到CRA产生类似的错误，而不管损坏的类型。基准数据集上的插补结果本实验评估了不同的插补方法在恢复缺失模态中的作用。在八种基本方法中，有三种是经典的矩阵完备化方法，包括：[0，1]范围内的值和0（蓝色）表示缺少条目。[3]，SoftImpute [26]和OptSpace [20]，都使用作者的实现。其他五种是基于自动编码器的方法，包括遗传算法（EA GA）[1]，去噪自动编码器（DA）[33]，堆栈去噪自动编码器（sDA）[33]，多模态自动编码器（ Mul-mod AE ） [30] ，深度正则相关自动编码器（DCCAE）[34]，所有这些都使用我们自己的实现。CRA自身动态地确定最佳深度。CRA深度从3到6不等，取决于特定的数据集/类，平均值为4。6、四个数据集。为了进行公平的比较，并考虑到基准网络具有预定义的深度，我们将其深度固定为5. 通过交叉验证，我们发现隐藏层的大小输入大小的一半对于所有方法都很好。所有卷积CRA都使用步长为2的3 × 3滤波器（图2）。（3）第三章。对于GRSS和RGB-D，自动编码器模型的数量与类的数量相同（ c ）。对于人脸数据集（ MTPIE ，HSFD），我们只为所有对象训练一个模型。表3显示了四个数据集中不同方法的插补误差。我们提出的CRA在所有四个数据集中始终优于基线方法。联合优化的CRA比没有联合优化的CRA稍好，卷积CRA进一步提高了性能。值得注意的是，PSNR增加1被认为是图像压缩的实质性改善[31]。对于NMSE，尽管前两个结果之间的绝对边际似乎很小，但相对边际显示了我们的改进。此外，尽管在数值上DA和sDA似乎具有接近CRA的插补误差，但它们实际上恢复的数据接近训练样本的平均值。图9可视化了GRSS中土壤类别的估算数据CRA比SDA能明显恢复更多的个体特征。图之间的对比。NMSE的相对裕度表明了NMSE在定量恢复细节信息方面的局限性。图10示出了根据本发明的实施例的估算的灰度和深度图像的示例。深度PSNRNMSE识别率（%）1二十六岁270的情况。233七十六。422二十七岁420的情况。223七十七。793二十七岁690的情况。218七十七。881414表3：四个数据集的插补误差和识别率比较。“-”表示不收敛的解。空格表示不适用的值，例如，DCCAE不能应用于具有两种以上模态的数据集，或者卷积CRA不能用于GRSS样本，因为它们不是2D图像。最佳和次佳结果以及上界和下界分别以黑体和斜体标记。相对裕度是前两个结果与第二个最佳结果之间的差异或与上界和下界之间的差异的比率（%）PSNR NMSE识别率（%）GRSSRGB-DMTPIEHSFDGRSSRGB-DMTPIEHSFDGRSSRGB-DMTPIEHSFDSVT [3]-21岁51十七岁02十四岁47-0的情况。5480的情况。3070的情况。633-21岁17三十八岁。7374岁24[26]第二十六话十七岁27二十二岁3919号。8626.330的情况。2710的情况。4010的情况。2410.23286岁。2223岁38四十5276.36ODS[20]第二十话12个。8820块17-23岁820的情况。4210的情况。611-0的情况。35383岁9720块79-75. 02ETH[1]二十六岁8123岁0120块73十八岁230的情况。1050的情况。3620的情况。2250的情况。40184. 0168岁83四十二3374岁24M[33]第三十三话29岁62二十四岁05二十二岁09二十四岁380的情况。0790的情况。3410的情况。1710的情况。276八十五7769岁。1744. 34七十六。02sDA [33]29岁74二十四岁0723岁31 20块130.0790.3310的情况。1510的情况。37286岁。0269岁。54四十五3275. 96[30]第三十话三十0124.8125.91十八岁230的情况。1050的情况。3620.1130的情况。40186岁。0170.2154.24七十六。20DCCAE [34]30.05二十四岁110的情况。0790的情况。34186.2569岁。94CRA（不含选择）三十80二十五25二十五99二十六岁630的情况。0770的情况。2650的情况。1120的情况。22586岁。38七十63五十四32七十六。58CRA w/opt31岁04二十五93二十六岁55二十七岁510的情况。0760的情况。2480的情况。1050的情况。22286岁。42七十一04五十六42七十七。88Conv CRA二十六岁12二十七岁0528岁010的情况。2340的情况。0930的情况。209七十一81五十七1078岁03完整数据88岁4678岁32 五十九24八十00联合国仅第179岁。5268.72博仅第二63岁91六十四48部分数据83.24五十六5141.1472.21相对余量3 .第三章。29五、284.第一章40六、383 .第三章。79二、93十七岁709 .第九条。913 .第三章。2612个。50十六岁0221岁43图10：CRA的插补图像。左三列是灰度图像，右三列是深度图像。最上面一行是丢失的原始图像。底行是通过CRA使用可用模态的插补图像。RGB-D数据集。CRA能很好地重建原始图像。4.4.识别实验在插补训练数据上训练的分类器的识别率报告在表1中。3 .第三章。这些结果还与分类器在不同数据量上训练的基线进行了比较：完整的训练数据，部分训练数据或单一模态，如图1所示。5b.我们观察到，在所有数据集中，使用优化或卷积CRA的CRA在所有方法中实现1415了最佳性能。此外，所实现的性能更接近上界而不是下界，这表明了缺失模态的学习能力最后，由于两个边界的差异定义了从估算的训练数据中学习的分类器可以实现的潜在性能范围，因此我们使用这种差异作为归一化来计算相对裕度。四个数据集的平均相对裕度为13%，证明了CRA在缺失模态的对象识别中的有效性。（a）部分数据(b)完整数据(c)软输入(d)CRA图11：在完整数据的前两个主成分所跨越的相同空间中，GRSS的所有训练数据（恢复和原始）的可视化。颜色代表类。图11显示了两种方法插补之前和之后GRSS训练样本的分布。CRA产生与原始全数据相似的分布。同时，SoftIm- pute的矩阵补全方法在图的右下角生成一些异常值。11 c.第11条。该图还有助于解释为什么使用输入的数据样本可以有益于分类器学习，即，原始数据分布由插补数据而不是部分数据很好地表示5. 结论出于充分利用多模态数据优势的需要，本文提出了一个相对较少研究的问题：模态缺失数据的估算为此，我们提出了一种新的方法，将一系列残差自动编码器组合成级联架构，以学习来自不同模态的数据之间的复杂关系级联残差自动编码器提供了一个利用残差学习和自动编码器网络优势的数据impu- tation框架。在基准数据集上的大量实验证明了该算法在数据填补和目标识别方面的优越性。1416引用[1] M. Abdella和T.马瓦拉用遗传算法和神经网络逼近缺失数据在数据库中。Computational Cybernetics，2005年。ICCC 2005年。IEEE第三届国际会议，第207- 212页。IEEE，2005年。二七八[2] L. 波，X。Ren和D.狐狸. 用于基于RGB-D的对象识别的无监督特征学习实验机器人，第387-402页。Springer，2013. 6[3] J. - F. Cai、E. J. C和E，Z。沈矩阵完备化的奇异值SIAMJournal on Optimization，20（4）：1956-1982，2010.二七八[4] E. J. Candes和Y.计划带噪声的矩阵补全Proceedings of the IEEE，98（6）：925-936，2010. 2[5] E. J. C和E和B。Recht. 通过凸优化的精确矩阵完成计算物理学，9（6）：717-772，2009。2[6] J. A. Cruz，X.阴、X。Liu，S.M. 伊姆兰D.D. 莫里斯，D。M. Kramer和J.尘用于植物表型分析的多模态图像数据库。7：1-15，2015年10月。1[7] M. Dalla Mura，J. A. Benediktsson湾Waske和L.布鲁斯区。用于极高分辨率图像分析的形态属性剖面。Geoscience and Remote Sens- ing ， IEEE Transactionson，48（10）：3747-3762，2010. 6[8] C. Debes，A.梅伦蒂斯河赫里曼斯，J. Hahn，N. Frangiadakis，T. van Kasteren，W.廖河，巴西-地Bellens，A.皮苏里卡，S. Gautama 等人高光谱和 LiDAR 数据融合： 2013 年GRSS数据融合竞赛结果。应用地球观测和遥感专题，IEEE Journal of，7（6）：2405-2418，2014. 6[9] S. M. Dhlamini，F. Nelwamondo和T.马瓦拉利用进化计算对存在缺失数据的高压套管进行状态监测WSEASTransactions on Power Systems ， 1 （ 2 ）： 280-287 ，2006。2[10] W.迪湖，加-地Zhang，L. Zhang和Q.锅基于特征波段选择的可见光高光谱人脸识别研究。系统、人与控制论，A部分：系统和人类，IEEE Transactions on，40（6）：1354-1361，2010。1、6[11] Y.段湖，澳-地Yisheng，W. Kang和Y.赵基于深度学习的交通数据插补方法。在智能运输系统（ITSC），2014 IEEE第17届国际会议上，第912-917页。IEEE，2014。二、三[12] J. Elsebe r g，D. Borrmann和A. 努希特河三维激光扫描的全波信息，通信和自动化技术（ICAT），2011年第二十三届国际研讨会，第1-7页。IEEE，2011年。1[13] L. Gomez-Chova、D. Tuia，G. Moser和G.坎普斯-瓦尔斯遥感图像的多模态分类：回顾和未来的方向。IEEEProceedings of the IEEE ， 103 （ 9 ）： 1560-1584 ，2015。1[14] R.格罗斯岛Matthews，J. Cohn，T. Kanade和S.贝克多个PIE 。 Image and

下载后可阅读完整内容，剩余1页未读，立即下载