感觉运动物体识别中的深度学习架构及评估

154 浏览量更新于2023-10-15 收藏 1.45MB PDF 举报

认知神经科学

对象识别

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6167基于深度负担能力的感觉运动物体识别Spyridon Thermos1，2Georgios Th.希腊希腊2希腊塞萨利大学电气与计算机工程系{spthermo，papad，daras}@ iti.grgpotam@ieee.org摘要认知神经科学已经充分证实，人类对物体的感知构成了一个复杂的过程，其中物体外观信息与关于所谓的物体“可供性”的证据相结合这一事实最近激发了“感觉运动”方法来完成自动对象识别的挑战性任务，其中两个信息源被融合以提高鲁棒性。本研究采用了上述范式，超越了当前感觉运动物体再认研究的局限性.具体而言，深度学习范式首次被引入该问题，开发了许多新颖的神经生物学和神经生理学启发的架构，这些架构利用最先进的神经网络以多种方式融合可用的信息源。使用大型RGB-D语料库对所提出的方法进行评估，该语料库是专门为感觉运动对象识别的任务收集的，并且是公开可用的实验结果表明，效用的启示信息的对象识别，实现了高达29%的相对误差减少其列入。1. 介绍目标识别是计算机视觉领域的一个开放性研究课题。由于其在办公自动化、识别系统、安全、机器人和工业等应用领域的影响，一些研究小组已经投入了大量的精力（例如，参见[2]中的综述）。然而，尽管在过去几十年中取得了显著的进步，但在现实世界场景中的满意性能仍然是一个挑战。一个合理的原因是静态对象本文中介绍的工作得到了欧洲委员会根据合同H2020-687772MATHISIS的支持外观特征[8，18，19]。这不能充分处理对象外观变化、遮挡、变形和照明变化。认知神经科学中的研究发现证实，人类的对象识别利用了与感兴趣的对象进行主动交互的先前经验。特别地，物体感知基于感觉（物体外观）和运动（人-物体交互）信息的融合。在这个所谓的“感觉-运动物体识别”理论中，中心角色是物体启示的概念。根据Gibson[10]的说法，基于这一理论，明斯基[22]论证了根据物品的用途对物品进行分类的重要性，I.E.他们负担得起的。这些理论基础导致了对象识别中所谓的基于功能的推理，这可以被视为适用于对象被设计或用于特定目的的环境的方法[27]。此外，[30]中的工作描述了提取对象的功能（启示）信息的三种可能方法：a）“从形状看功能”，即物体的形状提供了其功能的某种指示;b) “从运动中获得功能”，观察者试图通过感知物体正在执行的任务来理解物体的功能;以及c）“来自操纵的功能”，其中通过操纵对象来提取功能信息。本文的重点是（b）。关于在感觉运动物体识别期间在人脑中发生的神经生理学和相应的认知过程，可以很好地确定有两个处理视觉信息的主流[32]：a）背侧，其投射到后顶叶皮层并参与动作控制b）腹侧，其延伸至下颞叶皮层并参与物体的识别（感觉）。有积累的证据表明，这两个流在不同的信息处理阶段相互作用[5]：a）沿着这两个路径的计算都进行6168独立地和平行地，在共享的目标脑区域内重新整合;b）通过存在循环反馈回路来调节沿着分离路径的处理;以及c）信息在两个路径之间沿着它们的轨迹在多个阶段和位置处直接传递。这些识别出的相互联系表明了人类大脑如何融合感觉和运动信息以实现强大的识别。基于上述原因，在机器识别物体时模仿人类感觉运动信息处理模块可能是解决当前系统弱点的关键。毫不奇怪，基于启示的信息已经被引入到物体识别问题中。然而，目前的系统是基于相当简单的分类、融合和实验框架设计的，未能充分利用音频流的潜力。特别地，这些工作尚未利用计算机视觉中采用非常深的神经网络（NN）架构（所谓的“深度学习”（DL）范例）的最近趋势。DL方法的性能大大优于所有以前的手工方法[17，31，35]。在本文中，问题的感觉运动的三维物体识别研究使用DL技术。主要贡献在于：• 设计用于感觉运动物体识别的新型神经生物学和神经生理学基础神经网络架构，利用最先进的自动特征学习能力，DL技术的特点;据作者所知，这是第一个将DL范式引入感觉运动物体识别的工作。• 基于神经网络的多个最新神经科学发现的实现，用于融合感官（对象外观）和运动（对象启示）统一机器感知计算模型中的信息流。到目前为止，这些神经科学发现还没有转移到计算机视觉系统中。• 大量复杂的启示类型支持的拟议方法。特别是：显著增加的启示数量，与当前仅使用很少（最多5个）的作品相一致; b）复杂类型的对象启示（例如，可挤压的，PSQUARE），这可能导致复杂的对象操作或甚至显著的对象变形，与文献中当前存在的相对简单的二进制操作（例如，可抓握的，可推动的）;以及c) 连续性质的示能表示类型，超越了给定示能表示的存在/不存在的简单二元分析，同时对所展示的示能表示的确切动态进行建模。• 引入大型公共RGB-D对象识别数据集，包含人类受试者与一组支持对象的几种类型的交互这是第一个公开可用的感觉运动物体识别语料库，包括14类物体，13类启示，105个主题，以及总数约20，800人-物体交互。该数据集为训练深度学习算法提供了足够的数据，并有望成为感觉运动物体识别研究的基准。• 对所提出的融合方法进行了广泛的定量评估，并与传统的概率融合方法进行了比较本文的其余部分组织如下：第2节介绍了感觉运动物体识别领域的相关工作第3节讨论了引入的3D对象识别数据集。第4节详细介绍了所设计的NN架构。第5节给出了实验结果，第6节总结了本文。2. 相关工作到目前为止，大多数感觉运动物体识别工作都依赖于简单的融合方案（例如使用简单的贝叶斯模型或乘积规则），硬假设（例如，朴素高斯先验分布）和简化的实验设置（例如，几个对象类型和简单的启示）。特别是，Küstrom等。[15]通过用3个连续的对象帧训练阶乘条件随机场来对时空信息建模，并使用二进制支持向量机提取动作特征;使用具有6个对象类型和3个属性的小数据集。 Hogman等[13]提出了一个用于4种对象类型的交互式分类和功能分类的框架，定义了一个高斯过程来建模对象相关的感觉运动连续性[25]，然后集成此外，Kluthet al. [16]提取对象GIST特征[24]并使用概率推理方案对可能的动作进行建模，该方案由贝叶斯推理方法和信息增益策略模块组成。在[4]中实现了视觉运动分类器，以便通过训练具有对象特征聚类（使用K均值聚类）的SVM模型和具有22个运动特征（由Cy berGlove提供）的第二SVM来学习7种对象类型上的5种不同类型的抓握手势;预测与Mercer核的加权线性组合融合。此外，在机器人领域，与可供性相关的对象识别依赖于通过使用视觉线索[1，11]或观察探索性动作的效果[20，23]来预测与对象交互的机会。显然，设计和评估复杂的数据驱动的机器感知系统的感觉运动物体识别，6169数据集类型示能相互作用科目可用[16个]81n/an/a没有[13个国家]414机器人臂没有[第十五条]6374没有[4]美国751320没有介绍141354105是的图1. 由语料库记录设置中采用的3个Kinect传感器捕获的人与物体交互的示例。在文献中没有考虑基于最先进的DL框架的认知。这样的系统不应该依赖于过度简化或硬假设，并且将目标定位于在现实场景中高度复杂的感觉运动对象识别过程的自动学习。3. RGB-D感觉运动数据集为了促进感觉运动物体识别领域的研究，已经收集了多个物体类型和复杂启示的大规模数据集，并在http://sor3d.vcl.iti.gr/上公开。该语料库构成了感觉运动物体识别文献中最广泛和最具挑战性的语料库，如表1所总结，并且可以作为具有挑战性的基准，促进感觉运动物体识别方法的开发和有效评估语料库记录设置涉及三个同步的Microsoft Kinect II传感器 [21] ，以便从三个不同的视点获取 RGB（1920×1080分辨率）和深度（512×424分辨率）流，所有这些都以30 Hz的帧速率和大约1.5米钱。一个监视器被用于在每个人-对象交互执行之前显示“原型类型”实例。此外，所有参与的受试者都配备了一个环形遥控鼠标，由与物体交互的另一只手握住。这使得参与者能够自己指出每次会议的开始和结束（即，执行实时注释）。在执行任何交互之前，所有对象都被放置在桌子上的特定位置，由桌布上的标记指示。数据集是在受控的环境条件下记录的，即具有可忽略的照明变化（在实验期间不存在外部光源）和均匀的静态背景（所有人-物体交互都在覆盖有绿色桌布的桌子上进行）。从每个视点捕获的视频流的快照如图所示。1.一、关于所支持的人-对象交互的性质，考虑了一组14个对象类型（每个类型具有两个单独的实例，例如，小球和大球）。所选对象表1.文献报道的感觉运动物体识别语料库的特点报告对象类型、示能表示、人-对象交互和子示能表示的数量以及数据公开可用性类型变化很大，从独特的形状（如考虑到所选择的对象，定义了相应的一组13种示能表示类型，涵盖了所定义对象的典型操作。关于所支持的启示的复杂性，相对简单的（例如，“Grasp”), 导致对象变形，如示能表示af-fordance“Write”）。相比之下，文献中的其他实验环境大多考虑了更简单和更少时间的演变启示，如在表2中，提供了所有支持的对象和AF类型，以及数据集中考虑的所有组合。如所列出的，总共有54个对象-示能表示组合（即，人-物体交互）。要求所有参与者至少执行一次表2实验协议总共产生了20，830个实例，将每个Kinect捕获的数据视为不同的人机交互实例。每段录音的长度在4到8秒之间。4. 感觉运动物体识别我们现在继续描述所提出的感觉运动对象识别系统。具体来说，我们首先提供其概述，其次是视频数据处理的细节和DL建模方法考虑。4.1. 系统概述所提出的系统如图2所示。最初采集的数据由可视化前端模块进行处理。这产生三个视觉特征流，其中一个对应于常规对象外观，而其余两个捕获对象示能表示信息。这些流随后被馈送到适当的DL架构，实现单流处理系统，用于识别对象类型和行为。最终，外观和启示信息相结合，以产生改进的对象识别，遵循各种融合策略。6170对象类型示能把握√电梯√推√旋转开放锤切割倒挤压解锁油漆写类型球√√√√√√√√√√√√√√√√√√√√√√√√√√√√√√√√√√√√√√√√√√√√√√√√√√√书瓶框刷可以杯锤关键刀笔投手智能手机海绵表2. 所呈现的语料库中支持的对象和启示类型。被考虑的对象-示能表示组合用“否”标记。4.2. 视觉前端RGB数据流最初映射到每个Kinect的深度流，使用典型的校准模型[12]。由于Kinect传感器的精确定位在开发的捕获框架中是已知的，因此为每个Kinect定义了对应于所定义的感兴趣体积之外的3D点的像素随后，一个中心矩形区域（300×300分辨率），包含观察到的对象操作，从对齐的RGB中裁剪，深度帧然后，在HSV颜色空间[33]中使用简单的阈值技术，去除与桌面（桌布）对应的像素，随后将肤色像素（与表演主体的手对应）与对象像素分离。对于提取的对象和手深度图，[9]的文件。深度彩色化使得利用在ImageNet[6]上预训练的网络（转移学习[26，34]）的常见做法成为可能，并根据收集的数据对其进行微调。具体地，在每个像素位置处的深度值在帧间归一化中被线性归一化val[0，255]，同时考虑到在整个数据集中和所有像素位置测量的最小和最大深度值。随后，应用“热颜色映射”来变换每个归一化深度值为三重RGB 1。并行地，还计算所提取的手深度图的3D流动幅度。使用[14]的算法进行实时密集RGB-D场景流估计。用Ft（x，y，z）表示，帧t处的深度视频的3D流场数据，3Dmag.在视频持续时间（T帧）上。对于后一个字段，应用与RGB情况相同的着色方法（图1）。（3）第三章。因此，视觉前端提供三个信息流（图2中）：a）彩色对象深度图，b）彩色手深度图，以及c）彩色手3D流量幅度场。4.3. 单流模拟对于每个信息流，设计了单独的NN架构，如图4所示。关于外观流，众所周知的VGG-16网络[29]，总共由16层组成，用于分析观察对象的外观。VGG-16模型由5组卷积（CONV）层和3组全连通（FC）层组成。在每个CONV或FC层之后，紧接着是整流线性单元（RL）。对于本文的其余部分，使用图4（顶部）中描述的符号（例如，CONV43是第4组卷积的第3关于示能表示流，彩色手深度图和3D流幅度可替代地用于编码对应的动态。特别地，设计了两种不同的NN架构，旨在对所展示的电机（手）动作的不同方面进行建模：a）TM架构的开发完全基于CNN的使用（图4顶部），旨在估计空间维度上复杂的多层次负担能力相关模式。所采用的CNN的不同CONV层现在模拟了空间复杂性不断增加的与供应相关的模式。关于ST架构的开发，复合CNN（VGG-16）- 考虑长短期记忆（LSTM）[28]NN，其中应用于每帧的CNN的输出是自然场不t=1|被认为是，|is considered,accumulated随后作为输入提供给LSTM。这个建筑师-6171图2. 系统概述。视觉前端模块（左）处理捕获的数据，提供三个信息流（中），然后将其馈送到单流或融合DL模型（右）。其结果与文献[7]中提出的广义“LRCN”模型相似。ST架构（图4底部）的目标是最初沿着空间维度对相关性进行建模，随后利用LSTM顺序建模效率对观察到的动作的时间动态进行在初步实验中，彩色手深度图比使用3D流信息作为输入得到更好的结果。一组20帧，在观察到的动作的整个持续时间内均匀采样，作为LSTM的输入。4.4. 融合架构在详细描述所评估的传感器-运动信息融合原理之前，需要注意的是，这些在两种GTM（图）5）和GST（图）。6）架构分别来自相应的TM和ST架构，它们的根本区别在于示能性流建模的性质; GTM侧重于模型-图3. 彩色流量幅值场（顶行）和相应动作的RGB快照（底行）的示例。沿着空间维度的相关性，而GST依赖于对所执行的人类动作的时间演变过程进行关于腹侧和背侧流之间生理相互联系的解剖学研究[3]，除其他外，导致了以下主要假设：腹侧（外观）流可能会从背侧（听觉）流接收最新的动作相关信息，以改善对象的内部表现[32]。4.4.1后期融合后期融合指的是在每个流的处理流水线对于GTM架构，这是作为以下功能的组合来实现的：a）相同的FC层，或b）最后一个CONV层。FC层融合是通过连接两个流的FC特征来执行的。实验表明，与在FC 6层图4. 单流模型。上图：用于对象识别的外观CNN和示能CNN（TM架构）。底部：af-fordance CNN-LSTM（ST架构）。本文中使用的CNN层符号在顶部图中描述。6172图5. GTM架构的详细拓扑结构：a）在FC层的晚期融合，b）在最后CONV层的晚期融合，c）缓慢融合，以及d) 多级慢聚变。在每种情况下，左边的流分别表示外观，右边的流表示示能表示网络（即在非线性之前融合后，形成单一的加工流（图11）。（见第5a段）。关于最后一个CONV层的融合，外观和示能表示CNN的RL53在特征堆叠之后，再次形成具有四个单独的结构备选方案的单个处理流，使用：i）1CONV（1×1内核大小）和1 FC，ii）2 CONV（1×1内核大小）和1 FC，iii）1CONV（1 × 1内核大小）和2 FC（最佳性能，如图所示）。5b）和iv）2个CONV（1×1内核大小）和2个FC层。对于GST架构，后期融合方案仅考虑外观CNN和示能表示LSTM模型的最后FC层的特征的级联，如图所示。6a. 特别地，外观CNN的FC7层的特征和示能表示流的最后一个LSTM层的内部状态向量[h（t）]在每个时刻（即，在每个视频帧处）。最终，形成具有2个FC层的单个流另一方面，越来越多的证据表明，在感觉运动物体识别过程中会发生异步通信和反馈循环[5]。在这种情况下，异步后期融合方法也研究了GST架构。具体而言，GST晚期融合方案（图（6）再次使用。然而，来自启示流的信息[即，最后一个LSTM层的内部状态向量h（t）被提供有时间延迟因子，由τ >0表示，与外观流的FC特征;换句话说，将时间t-t处的示能表示流的特征与时间t处的外观特征组合。4.4.2慢聚变GTM架构的缓慢融合对应于在中间层（即，而不是最后一个CONV层），并随后形成一个单一的处理流，如图所示。5c.第二个问题。为了实现这一点，考虑了两种场景，其对应于来自不同粒度级别的两个上述CNN的信息的融合：a）组合来自相同层级别的外观和示能表示CNN的特征图;以及b）组合外观的特征图和来自不同层级别的示能表示CNN。实际的融合算子通过两个特征图的简单堆叠来实现。需要注意的是，仅组合相同维度的外观和示能表示特征图。对于GST架构，慢融合方案仅考虑外观的 RL7 层的特征和affordance CNN模型的级联6b.为了模拟两个流之间不同粒度级别的复杂信息交换路径，还研究了多级缓慢融合方案特别地，两个流在中间/最后CONV和FC层处连接。在图1中示出了实现用于GTM架构的这种多级缓慢融合方案的特定NN拓扑。5便士在论文的其余部分，以下命名约定用于描述不同的建议神经网络61733333图6. GST架构的详细拓扑结构：a）晚期融合和b）缓慢融合。架构：GATFT（param），其中广义架构类型GAT∈{ GTM ，GST}，融合类型FT∈ {LS，LA ，SSL ，SML} ∈ {晚同步，晚异步，慢单级，慢多级}给定），可以观察到仅使用外观信息的对象识别关于示能表示识别，TM架构优于ST架构，表明CNN模型比复合CNN-LSTM模型更有效地编码运动特征。对于ST模型，基于实验，使用了3个LSTM层，每个层有4096个隐藏单元5.2. GTM和GST架构评估在表4中，给出了应用不同的基于GTM的融合方案（第4.4节）的评估结果从所呈现的结果可以看出，对于CONV特征的后期融合组合的情况（即，在RL53层的融合）通常是有利的，因为保持了外观和音频流之间的空间对应对于单级慢融合模型，对不同的模型进行了评价。然而，单级慢融合往往表现出较低的识别性能比晚融合。基于单级慢融合和延迟融合方案的评估结果，还评估了多级慢融合架构。有趣的是，GTMSML（RL 5应用程序，RL 5aff，RL6）优于-并且param指示每个PAR的特定参数。Ticular融合方案（如上所述）。在这一点上，需要强调的是，在融合步骤之后在示能表示流中执行的任何进一步的信息处理对对象识别过程没有贡献;因此，在本工作的描述中省略了它。5. 实验结果建议的NN架构进行评估，使用引入的数据集。所涉及的人类受试者被随机分为训练集、验证集和测试集（25%、25%和50%）。使用的VGG-16网络是预-在ImageNet上训练。对于所有300×300成形框架，随机裁剪一个224×224的贴片，作为NN的输入。负对数似然准则在训练期间选择，而对于反向传播，具有动量集的随机梯度下降（SGD）等于0。9已使用基于GTM和GST的神经网络分别在60和90个epoch的学习率设置为5×10−3（当验证误差曲线趋于平稳时，降低5×10−1为了实现，使用Torch1框架和Nvidia Tesla K-40 GPU。形成了所有其他基于GTM的模型。这主要是由于保留了空间对应性（CONV级别的初始融合），加上FC级别融合所学习到的额外基于GST的融合方案（第4.4节）应用的实验结果报告于表5. 在所有情况下，提供一组20个均匀选择的帧作为相应NN的输入。此外，实现了两种评估场景，即当对于最终对象分类决策仅预测考虑最后一帧（“最后一帧”）或者当来自所有帧的预测被平均时（“所有帧”）。对于同步后期融合的情况，可以看出，来自所有帧的预测的平均是有利的。对于所提出的异步后融合方案，给出了不同延迟参数值的评估结果。可以观察到，与同步情况相比，异步融合导致性能下降，而延迟参数τ的值的增加导致识别率下降此外，这种缓慢的融合方法会导致目标识别性能的显著下降.从所呈现的结果中，可以观察到 GTMSML（RL5app、RL5aff、RL6）架构构成5.1. 单流架构评估第一组实验涉及单流模型的评估（4.3节）。根据表3中所示的结果（仅总体分类准确度为1http://torch.ch/最佳表现方案。后者实现了4的绝对增长。31%的整体识别性能（对应于约29%的相对误差减少），与外观CNN模型（基础模型）线方法）。为了提供更好的洞察力，从应用程序中获得的对象识别混淆矩阵，6174333333方法任务准确度（%）出现CNN对象识别85.12美国有线电视新闻网示能性识别81.92Affordance CNN-LSTM示能性识别69.27表3. 对象和启示识别的单流结果。表5. 使用不同的基于GST的融合方案的对象识别结果。融合架构融合层准确度（%）出现CNN无融合85.12产品规则Softmax73.45SVM[15，4]RL783.43贝叶斯[13]RL775.86GTMSMLRL5应用程序，RL5aff，RL63 389.43阿夫表6. GTMSML（RL 53）的比较评价，RL 53、RL6）体系结构。表4.使用不同的基于GTM的融合方案的对象识别结果GTMSML（RL5应用程序、RL5aff、RL6）体系结构和CNN的外观在图中给出。7.第一次会议。从所呈现的结果中，可以观察到所提出的融合方案提高了所有支持的对象类型的性能。这证明了信息的辨别力。另外，可以看出，形状不能被有效地捕获的对象（例如，小尺寸的，如“笔”、“刀”、“钥匙”等）这是所提出的方法所青睐的。此外，示能表示信息对于表现出相似外观的对象也是有益的（例如，“Brush” with“Pen” and5.3. 与概率融合的比较GTMSML（RL5应用程序、RL5aff、RL6）架构是图7. 外观 CNN（左）和 GTMSML （ RL5app ， RL5aff ，RL6）架构（右）的对象识别混淆矩阵。6. 结论本文在分析了现有文献的基础上，感觉运动3D的问题，除了外观CNN模型之外，还与文献中的以下典型概率融合方法进行了比较评估：a）用于融合外观和示能表示CNN输出概率的乘积规则，b）外观和示能表示CNN特征的级联以及SVM分类器（RBF内核）的使用[4，15]，以及c）外观和示能表示CNN特征的级联以及朴素贝叶斯分类器的使用[13]。从表6中的结果可以看出，用于融合外观和示能信息流的文献方法未能在引入的挑战性数据集中引入对象识别性能的增加;上述方法在明显更简单的实验设置下进行评价。相反，所提出的方法表现出显着的性能增加，比基线方法（外观CNN）。研究了遵循深度学习范例的对象识别。还引入了一个大型公共3D对象识别数据集，包括多种对象类型和大量复杂的启示，以促进该领域的研究活动。两个广义神经生物学和神经生理学接地神经网络架构，实现多个融合方案的感觉运动物体识别和评估。实验表明，所提出的传感器电机- tor多级慢融合方法优于文献中类似的概率融合方法。未来的工作将研究使用NN自动编码器来更详细地建模人-物交互，并将所提出的方法应用于更现实的基于GST的融合架构[融合后]准确度（%）GSTLS（最后一帧）86.28GSTLS（全帧）[1 CONV，2 FC]86.50GSTLA（所有帧，τ= 2）86.42GSTLA（所有帧，τ=4）[1 CONV，2FC]86.17GSTLA（所有帧，τ=6）[1 CONV，2FC]85.28基于GTM的融合架构[融合后]准确度（%）GTMLS（FC6）87.40GTMLS（RL53）[1 CONV，1 FC]87.65GTMLS（RL53）[1 CONV，2 FC]88.24GTMLS（RL53）[2 CONV，1 FC]87.64GTMLS（RL53）[2 CONV，2 FC]86.40GTMSSL（RL3应用程序，RL3aff）3 378.74GTMSSL（RL4应用程序，RL4aff）3 387.20GTMSSL（RL4应用程序，RL4aff）3 185.82GTMSSL（RL5应用程序，RL5aff）3 188.13GTMSML（RL5应用程序、RL5aff、RL6）3 188.23GTMSML（RL5应用程序、RL5aff、RL6）3 389.436175引用[1] A. Alberta，F.Tombari和M.文斯在真实场景中监督学习隐藏和非隐藏的0阶启示和检测ICRA，pp. 1732[2] A. Andreopoulos和J.K. 佐斯50年的物体识别：前进的方向。 Computer Vision and Image Understanding ， 117（8）：827[3] M. L. Brandi， A.Wohlsch laüger， C. 所以 r g 和 J 。Herms dürfer. 计划和执行实际工具使用的神经相关性。神经科学杂志，34（39）：13183[4] C. Castellini，T. Tommasi，N. Noceti，F. Odone和B.可恶。使用对象启示来提高对象识别。IEEE Transactionson Autonomous Mental Developments，3（3）：207[5] L. L.克劳特曼背侧和腹侧处理流之间的相互作用：在哪里，何时，如何？Brain and Language，127（2）：251[6] J. Deng，W.东河，巴西-地索赫尔湖.- J. Li，K. Li和L.飞飞。ImageNet：一个大规模的分层图像数据库。CVPR，pp. 248[7] 多纳休湖A. Hendricks，S. Guadarrama，M. 罗尔巴赫S. Venugopalan湾Saenko和T.达雷尔。用于视觉识别和描述的长期CVPR，pp. 2625[8] J. Donahue，Y. Jia，O. Vinyals，J. Hoffman，N. 张先生，E. tzeng和T.达雷尔。DeCAF：用于通用视觉识别的深度卷积激活功能。国际反洗钱法委员会，pp. 647[9] A. Eitel，J. T.斯普林根贝格湖Spinello，M. Riedmiller和W. Burgard多模态深度学习用于鲁棒的RGB-D对象识别。Iros，pp. 681[10] J·J·吉布森。启示理论。 In R. Shaw and J. Bransford（eds.）. 感知、行动和认知：走向生态心理学。，页。67-82.劳伦斯·厄尔鲍姆，新泽西州希尔斯代尔，1977年。[11] T.赫尔曼斯Rehg，和A. Bobick通过学习对象属性的示能预测ICRA研讨会，2011年。[12] D. Herrera，J. Kannala和J. Heikki la？联合深度和彩色相机校准与失真校正。 IEEE Transactions on PatternAnalysis and Machine Intelligence，34（10）：2058[13] V. Hogman，M. B jorkman，A. Maki和D. 克拉吉奇物体分类的感觉运动学习框架。IEEE Transactions onCognitive and Developmental Systems，8（1）：15[14] M. Jaimez，M.Souiai，J.Gonzalez-Jimenez和D.克莱姆斯用于实时密集RGB-D场景流的原始-对偶框架。ICRA，pp. 98[15] H. 克塞斯特罗姆，J. Romero和D. 克拉吉奇视觉对象-动作识别：从人的示范中推断物体的启示。计算机视觉与图像理解，115（1）：81[16] T. 克鲁特，D. 纳卡斯，T. 莱纳金，C. Zetzsche和K. 希尔使用从效用最大化原则获得的交互进行基于负担能力的对象识别ECCV研讨会，pp. 406[17] A.克里热夫斯基岛Sutskever和G. E. 辛顿使用深度卷积神经网络进行图像分类。NIPS，pp. 1097[18] M. 梁和X。胡用于物体识别的递归卷积神经网络CVPR，pp. 3367[19] Y. Liu，H. Zha和H.秦形状主题：三维局部形状检索的一种紧凑表示和新算法。CVPR，pp. 2025[20] N. Lyubova，S. Ivaldi和D.菲利亚特从被动到互动的对象学习和识别通过自我识别的人形机器人。AutonomousRobots，40（1）：33[21] Microsoft.满足 Kinect for Windows网址：http：//developer.microsoft.com/en-us/windows/kinect[联机]。[22] M.明斯基心灵的社会：对四篇评论的回应Artificial Intelligence，48（3）：371[23] B. Moldovan ， M. van Otterlo ， P. Moreno ， J. Santos-Victor，and L. D.瑞特机器人操作中对象属性的统计关系学习。ICILP，2012年。[24] A. Oliva和A.托拉尔巴构建场景的要点：全局图像特征在识别中的作用。脑研究进展，155：23[25] J. K. O'Re g an和A. 没有。视觉和视觉意识的感觉运动学解释Behavioral and Brain Sciences，24（5）：939[26] A. S. Razavian，H.阿兹普尔J. Sullivan和S.卡尔-儿子。CNN特色现成：一个令人震惊的认可基线《清史稿》，页。512[27] E. Rivlin，S.J. Dickinson和A.罗森菲尔德按功能部件识别计算机视觉与图像理解，62（2）：164[28] J. Schmidhuber，D. Wierstra，M. Gagliolo和F.戈麦斯由Evolino训练循环网络。神经计算，19（3）：757[29] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。ICLR，2015年。[30] M.萨顿湖，澳-地Stark和K.鲍耶视觉分析和物理交互的功能：一种用于识别对象的类属的方法。图像与视觉计算，16（11）：745[31] C.塞格迪W.刘先生，Y.贾，P.SermanetS.里德D.安格洛夫，D。Erhan，V. Vanhoucke，和A.拉比诺维奇。更深的回旋。CVPR，pp. 2015年1月9日。[32] V.van Polanen和M.达瓦雷背侧流与腹侧流之间的相互作用对控制熟练抓握的影响。Neuropsychologia，79：186[33] V. Vezhnevets，V. Sazonov和A.安德列娃基于像素的肤色检测技术综述。1989年，pp.85[34] J. Yosinski，J. Clune，Y. Bengio和H.利普森深度神经网络中的特征有多可转移？NIPS，pp. 3320[35] M. D. Zeiler和R.费格斯。可视化和理解卷积网络。ECCV，pp. 85

下载后可阅读完整内容，剩余1页未读，立即下载