没有合适的资源?快使用搜索试试~ 我知道了~
DeepNav:基于街景图像的城市导航算法
1DeepNav:学习在大城市中佐治亚理工学院美国亚特兰大samarth. gatech.edu詹姆斯·海斯佐治亚理工学院美国亚特兰大hays@gatech.edu摘要我 们 提 出 了 DeepNav , 一 种 基 于 卷 积 神 经 网 络(CNN)的算法,用于使用本地可见的街景图像导航大城市DeepNav智能体通过在十字路口做出正确的导航决策来学习快速到达目的地。我们收集了一个大规模的街景图像数据集,这些图像组织在一个图中,节点由道路连接该数据集包含10个城市图和100多万张街景图像。我们提出了3种监督学习方法的导航任务,并显示如何在城市图中的A* 搜索可以用来生成监督的学习。我们的标注过程是完全自动化的,使用公开的地图服务,不需要人工输入。我们评估了4个城市的DeepNav模型,用于导航到5种不同类型的目的地。我们的算法优于以前使用手工特征和支持向量回归(SVR)的工作[19]。1. 介绍人造环境,如房屋,建筑物,邻里和城市都有一个结构-微波炉被发现在厨房,洗手间通常位于建筑物的角落,餐馆被发现在特定类型的商业区。这种结构也在设施之间共享-例如,大多数城市的商业区都有餐馆。计算机视觉的一个长期目标是学习这种结构,并用它来指导探索未知的人造环境,如看不见的城市,建筑物和房屋。这种结构的知识可以用于识别更严格的视觉概念,如封闭或小物体[8,29],以更好地界定物体的边界[6,38],以及机器人自动化任务,如决定机器人的可驾驶地形[13]等。在本文中,我们解决了一个需要理解城市大尺度结构的任务-基于图1:这些街景图像是从大致相同的位置拍摄的。你觉得最近的加油站在哪个方向1它也不知道目的地或它自己的位置。它只知道它需要到达特定类型的目的地,例如。去城里最近的加油站。朴素的方法是环境的随机游走。但是,如果智能体掌握了一些关于城市结构的知识模型,那么它就可以做出明智的决策--例如,加油站很可能位于高速公路出口附近。我们精细地将城市离散成由道路连接的位置网格在每个位置,智能体只能访问指向可导航方向的街景图像,并且必须选择下一个方向(图1)。我们发现,学习城市的结构特征可以帮助智能体比随机行走更快地到达目的地。这项技术可以用来引导行人和汽车在GPS拒绝环境,如远程地方或城市地区的高层建筑。一个类似的代理人训练导航建筑物到达电梯,洗手间和消防通道,可用于指导视障人士在未知的建筑物。在一个新的城市导航到达目的地,尽可能的步骤。 代理人既没有envi-1的地图,正确答案是:W。51935194过去曾采用两种方法来实现这一点:1)强化学习(RL):正回报与每个目的地位置相关联,而负回报与所有其它位置相关联。然后,代理学习一个策略(从状态到动作的映射),通过执行该策略来最大化期望的回报。在深度RL中,策略由CNN编码,CNN输出在当前状态下执行动作的值。状态转换和观察到的奖励形成训练数据点。CNN训练的小批量由当前策略驱动的一些转换和随机转换形成。最近的作品已经使用这种方法来导航迷宫[27]和小游戏环境[30]。2)监督学习:这种形式的学习需要一个带有标签的大型图像训练集(例如,最佳动作或到最近目的地的距离),这将引导代理在图像的位置处选择正确的可导航方向。深度CNN的进步使得从可用于各种任务的图像中学习高质量特征大多数研究都集中在识别图像的内容上,例如,对象检测[11,20,31],语义分割[7,25,38],边缘检测[23],显著区域分割[22]等。然而,在机器人和AI中,通常需要将图像映射到机器人代理必须执行以完成任务的动作的选择。例如,本文讨论的导航任务要求CNN预测智能体下一步采取的方向。这些任务需要CNN评估图像内容的未来影响,并且在文献中相对未被探索。我们选择监督学习来完成这项任务,因为奖励的稀疏性在城市网格中大约10万个位置中,只有大约30个是目的地(积极奖励的RL需要数千次迭代来采样在目的地结束的转换(唯一一次发生正奖励),特别是在训练过程的早期,当RL主要是采样随机转换时事实上,Mnih et al.[27]使用200M训练帧在一个小型合成迷宫中学习导航。目前尚不清楚这种方法是否会扩展到具有高度稀疏奖励的大规模环境,另一方面,对于网格中的导航问题,存在一个预言* 搜索找到从起始位置到目的地的最短路径,这给出了代理必须在路径上的每个位置执行的最佳操作。因此,它可以用于大量训练图像的有效标记概括起来,我们的贡献是:• 我们收集了分布在美国10个大城市的大约100万张街景图像的数据集该数据集使用公共可用的地图自动标记五种类型的目的地(美国银行,教堂,加油站,高中和麦当劳)的位置。映射API [2,3]• 我们开发并评估了3种不同的CNN架构,允许智能体在每个位置选择一个方向以到达最近的目的地。我们还比较了这3个基于CNN的模型与[19]中描述的模型的性能,后者使用手工制作的特征和支持向量回归来完成相同的任务。• 我们开发了一种机制,使用A* 搜索为数据集中所有图像的架构生成适当的标签本文其余部分的组织结构如下:§ 2描述了这一领域的相关工作,§ 3描述了我们的数据集收集过程,§ 4描述了CNN架构和训练过程,§ 5给出了我们算法的结果。我们讨论结果并在§6中得出结论。2. 相关工作计算机视觉社区已经从场景分类[20,39],属性预测[24,32,39],几何预测[24,32,39[15]和像素级语义分割[7,25,38]。然而,所有这些方法都只考虑直接存在于场景中的信息。导航到最近的目的地不仅需要了解当地的场景,还需要预测可见场景之外的量,例如距离最近的目的地[19]。Khosla等人[19]最接近我们的论文,并解决了任务使用街景图像导航到最近的麦当劳。他们使用空间汇集的定向梯度直方图特征字典[9]来学习支持向量回归器[34],该回归器预测图像指向的方向上到最近目的地的距离。在本文中,我们首先使用CNN来预测距离,并表明数据驱动的卷积特征在此任务中的表现优于昂贵的手工特征。 接下来,我们提出了两种新的机制来监督CNN完成这项任务,并表明它们可以带来更好的性能。相关的工作线处理图像地理定位[14,37] -在地图中定位输入图像的问题。Kendall等人[18]在城市级环境中,使用CNN将输入图像直接映射到拍摄图像的相机的6D姿态。然而,这些算法只是部分地解决了本文中所讨论的问题-接下来的步骤涉及确定目的地的位置并使用地图规划到达目的地的路径。在人工智能中,最近研究了通过观察局部环境来选择最佳动作的问题,作为深度强化学习的应用[28]。[27,30,40]等作品使用Deep RL在人工生成的地图和Minecraft环境中学习导航。然而,这些环境比本文所考虑的城市级环境小得多,并且具有重复的人工模式,5195市图像美国银行教会气体站高中麦当劳亚特兰大78,80810323277波士顿105,0004040392020芝加哥105,0012233101532达拉斯105,00072535913休斯顿117,29781930414洛杉矶80,70191530613纽约105,1483020212731费城105,0001442353019凤凰101,419423291815旧金山101,7413550452212总1,005,115179299306158176表1:城市图图2:有向图说明。红色箭头代表节点,按位置和方向编码。每个节点都有一个相关的街景图像,在节点的位置拍摄节点通过道路连接(图中的实心连接器)。[27]或单调的非现实视频游戏渲染[30]。Deep RL的另一个问题是所需的训练数据量和训练时期。即使在与我们的环境相比具有更密集的奖励产生位置的小规模环境中,Mnih等人也认为, [27]使用50个训练时期,每个时期由4M训练帧组成,而Oh等人。[30]使用多达200个epochs。相比之下,我们的算法需要8个epoch来训练,而我们的初始化网络[33]需要通过1M图像进行74个训练epoch。据我们所知,没有深度RL算法尝试过在具有真实世界噪声图像的城市规模环境中学习导航的任务。Mirowski等人[26]使用辅助任务,如RGB深度预测和循环闭合检测,以缓解稀疏奖励问题。然而,他们的实验是在人工生成的环境中进行的,比我们所处的城市规模的环境小在机器人技术中,主动视觉[5]已被用于控制机器人根据当地的观察到达目的地。使用最短路径来训练分类器,该分类器将代理的状态(由局部观察编码)映射到动作,首次出现在[17]中。他们根据超级市场中位置的各种手工属性(例如,通道类型、可见产品等)以控制机器人有效地到达目标产品Aydemir等人[4]使用依赖于对象-对象同现和对象-房间类型同现的链图模型来控制机器人到达3D室内环境中的目的地。3. 数据集DeepNav代理具有与之相关联的位置和航向,并且遍历覆盖城市的有向图图2显示了该图的一小部分的可视化。节点由街景图像位置(纬度、经度)和方向(北、南、东和西)的元组定义因此,每个位置最多可以托管4个节点。该图中的边表示单行道,即如果存在允许代理从第一节点行进到第二节点的道路,则节点通过有向边连接到相邻节点。然而,边仅连接面向相同方向的邻近节点。因此,沿着边行进允许代理在其当前航向的方向上迈出一步。为了让智能体在适当的位置转弯,一个位置的所有节点都用双向边循环连接。最后,一个节点只有在连接到不同位置的节点时才存在。这意味着沿着道路的位置每个位置只有2个节点,而交叉口每个位置有3或4个节点,这取决于交叉口的类型在超过4条道路的交叉口这种构造使得代理可以在图中的任何两个节点之间旅行。每个节点都有一个640x 480的图像,是从节点所在位置的Google街景全景中裁剪出来的此图像的视场为90nm,指向与节点相关的方向。虽然基本方向N、S、E、W是简写,但街景作物具有与道路方向一致的连续方向。为了控制节点位置的粒度,我们将城市边界镶嵌成边长为25 m的正方形箱,并将这些箱的中心视为节点位置。所有落在一个容器内的街景全景位置都将捕捉到该容器的中心。然而,实际图像是从箱的边缘捕获的,以确保视觉连续性。我们为每个城市生成一个这样的图。首先,由矩形区域的两个对角的纬度和经度指定界限。然后,我们从矩形的中心(如补充材料所示)开始对城市中的位置进行广度优先枚举。当达到指定的地理限制时,此枚举将停止表1显示了我们数据集中10个城市的图像数量ENEWEWWS有向边5196图3:旧金山的地理位置和目的地(红色:美国银行,绿色:教堂,蓝色:加油站,黄色:高中,紫色:麦当劳)3.1. 目的地我们考虑5类目的地:美国银行之所以选择这些,是因为它们的普遍性和杰出的外观。考虑到城市的限制,我们使用谷歌地图附近搜索[3]以适当的半径找到这些类别的所有机构的位置接下来,我们使用GoogleMaps Roads API [2]将这些位置捕捉到最近的道路位置。这是必要的,因为这些设施通常尺寸很大,街景图像仅存在于道路沿线。图3显示了旧金山的目的地位置,而表1显示了我们的程序在每个城市图中找到的目的地数量。4. CNN架构和培训给定城市图和街景图像,我们想训练一个卷积神经网络来学习通往不同目的地的路径上常见的视觉特征。我们提出了3种方法来标记训练图像(和相应的推理算法),以实现这一点。第一种方法,DeepNav-distance,训练网络估计训练图像指向的方向上到最近目的地的距离第二种方法,DeepNav-direction,学习训练图像和要在图像位置执行的最佳动作第三种方法,DeepNav-pair,将选择最佳行动的问题分解为决策对,并采用Siamese CNN架构。4.1. DeepNav距离在该方案中,我们用从图像位置到最近的目的地设施的直线距离的平方根来标记每个图像,在对应于图像的方向的90度弧中我们收集5个标签对应于每个图像的5个目的地类别。为了训练,我们修改了VGG 16层网络[33]的最后一个全连接层(fc 8),使其具有5个输出单元(见图4a)。该算法最小化的目标函数如果特定节点在其弧中没有类别的目的地建立,则标签向量的对应元素被设置为被目标函数忽略的高值因此,训练图像用于学习,只要它在其弧中具有至少一种我们在测试时使用贪婪方法:我们通过CNN转发来自代理当前位置的所有可用方向的图像。智能体在CNN预测的方向上迈出一步,以获得最小的距离估计。这种方法的灵感来自[19],旨在通过使用端到端卷积神经网络管道而不是手工制作的特征和支持向量回归来研究性能的变化。4.2. DeepNav方向该方法学习将输入图像映射到要在该特定位置和方向处执行的最佳动作。该图允许代理在一个节点上执行多达4个动作:向前移动,向后移动,向左移动或向右移动(最后3个由向前移动和原地转动的原始动作组成我们注意到图中的A* 搜索找到从任何起始位置到目的地的最短路径,因此可以为沿着最短路径的每个节点位置生成最佳动作标签。例如,如果节点处的A* 路径转向东,则面向东的节点处的图像被标记为“向前移动”,面向北的图像被标记为“向右移动”,等等。A1描述了使用A* 搜索为所有训练图像生成标签的过程,对于一个目的地类别(例如,高中)。 对所有5类目的地重复该算法,以获得每个训练图像的5个最佳动作标签。每个标签可以取四个值中的一个为了训练,我们修改了VGG 16层网络的最后一个全连接层(fc8)[33],使其具有20个输出单元(见图4a)。这20个输出被解释为5个目的地类(沿着行)的4个可能动作(沿着由DeepNav-direction最小化的目标函数是为每个目的地类独立计算的softmax损失。在测试时,来自智能体当前位置和方向的图像通过卷积神经网络转发,智能体执行得分最高的可用动作。4.3. DeepNav对这种方法还学习选择在特定位置和方向上执行的最佳操作,如DeepNav-direction,但通过不同的公式。5197fc8评分不配重不不不不fc8距离估计欧几里得损失标签im0(a) DeepNav-distance(顶部),DeepNav-direction(底部)IM1(b) DeepNav-pair图4:DeepNav CNN架构。目的地缩写:B =美国银行,C =教堂,G =加油站,H =高中,M =麦当劳。数据:城市图G,目的地D结果:每个节点的最佳动作标签,而非标记节点的最佳动作标签n←unlabeled node;最短路径<$[];最小代价<$∞;foreachd∈Ddocost,path←A(n,d,G);如果成本最小成本,那么最小成本←成本;最短路径←路径;结束结束对于每个节点i∈最短路径do使用A* 动作标记i.位置处结束结束算法1:为DeepNav-direction生成标签DeepNav-direction仅获取面向前方的图像作为输入,并且在选择操作之前不会在所有方向上“看到”。这是包括灵长类动物、鸟类和鱼类在内的各种动物在未知环境中航行时所执行的重要动作[36]。这种架构可以通过图4b所示的Siamese架构来实现。 我们列举了一个位置上的所有图像对,并使用A* 给出的最优动作将每对中最多一个图像标记为“有利”图像。如果一对图像不包含有利的图像,则将其忽略。例如,如果节点处的A* 路径转向东,则东北对中的第二个图像被标记为可支持,而南北对被忽略。算法2显示了为训练数据集中的所有此类对收集标签的过程,并且为每个目的地重复该过程课 为了训练,我们创建一个具有2个副本的数据:城市图G,目的地D结果:每个图像对的最佳动作标签,其中图像对在公共位置while n= unlabeled nodedon←unlabeled node;最短路径<$[];最小代价<$∞; foreachd∈Ddocost,path←A(n,d,G);如果成本最小成本,那么最小成本←成本;最短路径←路径;结束结束对于每个节点i∈最短路径do对于每对p∈pairs(i.location)doifdirection(p.first)==A* direction然后(p.first,p.second)←label 0;else ifdirection(p.second)==A* directionthen(p.first,p.second)←label 1;否则忽略对(p.first,p.second)←label X;结束结束结束结束算法2:为DeepNav-pair生成标签DeepNav-distance网络的一部分,如图4 b所示。fc8层的输出被视为分数,而不是fc8方向得分标签重塑softmaxfc8softmax左MFWDHX软马BWDGX软马BWDCX软马左BBWD左权FWDVGG CNNVGG CNNVGG CNNVGG CNNBCGHM13.910.52.126.87.7im0IM1标签B0SOF MaxCXSOF MaxG1SOF MaxH1SOF MaxM0SOF Max5198距离估计,并堆叠为列。softmax损失应用于列,独立于每个目的地。因此,网络学习从一个位置的所有现有图像中挑选指向最佳方向的图像在测试时,我们只保留Siamese架构的一个分支,并使用FC8输出作为分数。来自代理当前位置的所有图像都通过网络转发,并且代理向具有网络预测的最高分数的图像的方向迈出一步4.4. 培训我 们 使 用 Caffe [16] 库 中 实 现 的 随 机 梯 度 下 降(SGD)来训练卷积神经网络。 SGD的学习速率对于DeepNav-pair 和 DeepNav-direction 为 10−3 , 对 于DeepNav-distance为10−4所有模型都训练了8个epoch,在第4和第6个epoch之后,学习率下降了10倍。 我们设置权重衰减参数到510−4,SGD动量到0.9。在NVIDIA TITAN X GPU上训练每个DeepNav型号大约需要72小时。所有网络都是从公共VGG 16层网络[33]初始化的,除了fc 8层,它们是使用Xavier [12]方法初始化的。4.4.1地理加权损失函数DeepNav模型正在接受训练,以识别指示目的地路径的视觉特征。我们希望这些视觉特征集中在目的地周围。为了放松CNN损失函数,以便根据远离目的地的低信息视觉特征做出错误的决定,我们通过对训练样本进行地理加权来修改损失函数。具体地,训练样本的权重随着从其位置到目的地的最短路径的长度增加而减小。最后,本文给出了一个小的地理加权损失函数Lg从原始损失函数构造的一批大小为Ni的函数在[19]中介绍。作为参考,我们还提出了A* 搜索的方法-注意,A* 搜索在规划路径时可以访问整个城市图和目的地位置,而其他方法只能访问代理当前位置的图像5.1. 基线导航到最近的麦当劳的算法提出了Khosla等人。在[19]中作为我们的第一个基线。该算法在整个图像上密集地提取方向梯度直方图[9]特征,并应用K均值来学习大小为256的字典。然后,它使用局部约束线性编码[35]以软方式将描述符分配给字典,并最终构建2级空间金字塔[21]以获得维度5376的最终特征。我们使用作者[1]公开的代码为了加快字典的创建速度,我们从所有训练城市(每个城市3000个)随机抽样的18,000张图像中创建它。学习支持向量回归机(SVR)[10,34]以将输入图像映射到在节点指向的方向上的90度我们通过选择在4个测试城市中使欧几里得误差最小化的值来选择SVR中的正则化常数(见下一节)。我们的第二个基线是随机游走算法。该算法在每个节点上随机选择一个动作。5.2. 实验装置我们在6个城市(亚特兰大,波士顿,芝加哥,休斯顿,洛杉矶,费城)训练DeepNav模型,并在4个城市(达拉斯,纽约,凤凰城,旧金山)进行测试。 这避免了在同一城市的不相交部分进行训练和测试的偏差,并测试算法是否能够学习城市中的结构并在未知环境中使用这些知识。对于每个测试城市,我们统一抽取10个起始位置L为Lg=Ni=1 λliLi,其中0<λ1是ge-在每个目的地周围具有平均路径长度Ds。所有我们的探员从这些地点开始面对随机的方向图形加权因子我们采用地理加权对于λ = 0的DeepNav方向和DeepNav对的损失函数。9 .第九条。在我们的实验中,我们观察到这些网络的SGD训练在没有地理加权的情况下不会收敛。我们不对DeepNav-distance应用地理加权,因为通过使用距离的平方根作为标签,它在预测远离目的地的稍微错误的距离估计时受到的惩罚较小。5. 结果在本节中,我们将评估各种DeepNav模型导航未知城市并到达最近目的地的能力,并将其与算法进行使用第4节中描述的推理程序来定位和导航城市。为了防止循环,代理不允许从一个节点两次选择相同的操作.如果代理没有从某个位置移动的选项,它将在最近的节点重新生成,并具有打开的移动选项。如果代理访问距离目标75 m以内的节点,则认为它已经到达目标,并且最大步数设置为1000。5.3. 评估指标我们使用[19]中提出的两个指标:1)成功率(代理到达目的地的时间分数)和2)在成功试验中到达目的地所采取的平均步骤数为了便于比较各种方法,5199方法达拉斯纽约凤凰圣凡斯科是说BCGHMBCGHMBCGHMBCGHM随机游走29.2434.2847.4317.7339.4058.9053.9338.5745.0045.3725.6336.2333.7333.9829.3344.4754.0445.8840.0042.2139.77A*100.00100.00100.00100.00100.00100.00100.00100.00100.00100.00100.00100.00100.00100.00100.00100.00100.00100.00100.00100.00100.0HOG+SVR [19]48.4856.6362.0006.0642.8676.0381.5554.2977.2770.3731.2541.5649.3744.9028.8966.6770.3273.4057.3253.4954.63DeepNav-distance27.2760.2468.0030.3045.2480.8266.9948.5768.1869.6337.5054.5549.3746.9435.5663.8370.3267.5568.2965.1256.21DeepNav-direction33.3336.1440.6706.0633.3362.3350.4957.1445.4558.5225.0035.0656.9655.1031.1145.3961.6460.6442.6813.9542.55DeepNav-pair54.5545.7878.6748.4859.5280.8267.9657.1470.4573.3343.7555.8464.5651.0248.8969.5066.2172.8752.4437.2159.95表2:各种算法的成功率,ds=470m。方法达拉斯纽约凤凰圣凡斯科是说BCGHMBCGHMBCGHMBCGHM随机游走315.11362.67299.07339.28330.13309.59309.04341.49380.03370.48318.77349.53347.89338.43302.59317.05292.74319.62329.60373.98332.35A*19.1219.2716.6224.0318.4516.1316.7217.4017.5617.3519.8821.5717.9718.3124.1118.0915.6317.6518.8019.9318.73HOG+SVR [19]244.50326.53257.88164.00101.61194.09263.52198.29276.24277.79349.60215.22213.69258.05173.85253.38262.00268.59262.51249.13240.52DeepNav-distance321.33289.26295.07163.50303.11322.95247.10220.88284.03267.84270.17180.29167.69190.26162.94281.57209.27279.06286.59234.18248.85DeepNav-direction43.18102.6395.1660.00199.50113.8755.19132.63127.38156.01132.50189.89119.71166.44152.7168.55109.44128.99129.2990.17118.66DeepNav-pair414.44246.03243.12433.81158.32223.03239.00246.65331.38269.07273.14209.12174.53231.6435.64222.09263.86256.37226.47247.38257.25表3:成功试验的平均步数,ds=470m。目的地缩写:B =美国银行,C =教堂,G =加油站,H =高中,M =麦当劳。我们提出了期望步数度量,其计算为s<$L+(1-s)<$Lmax,其中s是成功率,L是成功试验的平均步数,Lmax是最大步数(1000)。这些指标在城市的所有起始位置上取平均值(随机步行者进行了20多次试验)。 Ta-表2和表3示出了DS=480m时成功试验的成功率和平均步数。 我们看到DeepNav-pair的平均成功率最高DeepNav-direction的成功尝试平均路径长度最短,但成功率最低这表明它只对短距离有效表4显示了ds=470m、690m和970m时所有目的地和起始位置的平均步数。ds=690m和970m的详细指标见补充材料。DeepNav-pair在大多数起始距离 上 优 于 基 线 以 及 其 他 DeepNav 架 构 。 我 们 假 设DeepNav-pair可以表现得更好,因为它是唯一一种在选择之前通过“寻找”所有方向来训练的算法我们还注意到DeepNav-distance优于[19]中的代理,表明深度特征的质量更好。如果一个模型学习了通往目的地的路径的共同视觉特征,它应该在目的地附近和主要交叉口以高置信度选择正确的方向。对于给定的位置,用于挑选一个方向的模型的置信度的度量是针对所有方向预测的分数的方差我们在图5中绘制了旧金山所有位置的方差,该方差是根据为导航到美国银行而训练的模型计算的。该图从经验上表明,DeepNav-pair智能体在接近目的地时更自信地选择另一种深入了解由算法学习的视觉特征的方法是查看哪些图像被最(和最不)确信地预测为指向目的地的路径。在图6中,我们绘制了顶部和底部的5个图像(已排序方法预期步ds= 470米ds= 690米ds= 970米随机游走733.99854.8913911.85A*18.7327.320439.57HOG+SVR [19]588.66705.31791.93DeepNav-distance580.69684.22773.02DeepNav-direction626.28697.26780.53DeepNav-pair553.39689.04766.32表4:各种算法的预期步骤数。而DeepNav-pair代理人正在纽约导航麦当劳和达拉斯加油站。可以看出,CNN正确地了解到,中心城市的商业区有很高的可能性有麦当劳图7示出了在导航到纽约最近的教堂时由DeepNav和基线模型生成的一些示例导航路径。6. 结论我 们 提 出 了 3 种 卷 积 神 经 网 络 架 构 ( DeepNav-distance,-direction和-pair),用于学习在大规模现实环境中导航。这些算法在从10个大城市收集的100万张街景图像的数据集上进行了训练和评估。我们展示了如何使用A* 搜索来有效地为各种DeepNav架构的图像生成训练标签我们发现数据驱动的深度卷积特征( DeepNav-distance ) 优 于 手 工 特 征 和 SVR 的 组 合[19]。此外,使用Siamese架构(DeepNav-pair)训练网络在所有方向上“看”,优于那些被训练来估计到目的地的5200(a)DeepNav-pair(b)DeepNav-direction(c)DeepNav-distance(d)HOG+SVR [19](e)随机游走图5:在旧金山(测试城市)为美国银行(蓝点)导航时的预测置信度更明亮的颜色意味着更高的方差。高方差区域的集中表明,DeepNav-pair的置信度在目的地附近增加,并且它有效地学习了最佳路径共有的视觉特征。图6:图1-2:前5名高分和低分(分别)图像预测的DeepNav-pair导航到麦当劳在纽约(测试城市)。图3-4:导航到达拉斯(测试城市)加油站的类似图像发现,长度= 60DeepNav-pair发现,长度=10DeepNav-direction发现,长度= 520DeepNav-distance发现,长度= 35HOG+SVR [19]未找到页面图7:导航到纽约教堂的路径(测试城市)。蓝点=开始,绿点=目的地(找到时)。5201引用[1] 特征提取https://github.com/adikhosla/feature-extraction,2016.访问日期:2016-11-11。6[2] 谷歌 绘制道路API。https://developers.google.com/maps/documentation/roads/nearest,2016.查阅日期:2016-11-11。二、四[3] Google Places API。https://developers.google。com/places/web-service/search,2016.Ac-发布时间:2016-11-11 二、四[4] A.Aydemi r, A. Pronobis , M.Gobelbeck e r和 P.Jensfelt 未知环境下使用不确定语义的主动视觉目标搜索 。 IEEE Transactions on Robotics , 29 ( 4 ) : 986-1002,2013。3[5] R. 巴伊奇 主动感知。IEEE会议录,76(8):966-1005,1988. 3[6] G. J. Brostow,J. Shotton,J. Fauqueur和R.西波拉基于运动点云结构的分割与识别欧洲计算机视觉会议,第44-57页。Springer,2008. 1[7] L- C. Chen,G.帕潘德里欧岛科基诺斯角墨菲和A. L.尤尔。基于深度卷积网和全连接crf的语义图像分割。arXiv预印本arXiv:1412.7062,2014。2[8] W. 崔,Y.-W. 曹角,澳-地Pantofaru和S.Savarese 在-站在室内场景使用三维几何短语。在IEEE计算机视觉和模式识别会议的Proceedings,第33-40页,2013年。1[9] N. Dalal和B. Triggs定向梯度直方图-用于人体检测的电子鼻。在2005年IEEE计算机协会计算机视觉和模式识别会议(CVPRIEEE,2005年。二、六[10] R.- E. 范,K.-W. 昌角J. 谢,X.-R. Wang和C.-J. Lin Liblinear:一个用于大型线性分类的库。Journalof Machine Learning Research,9(Aug):1871 6[11] R.娘娘腔。快速R-CNN。在IEEE Inter-国家计算机视觉会议,第14402[12] X. Glorot和Y. 本吉奥。理解困难训练深度前馈神经网络。在JMLR W CP:Proceedingsof the Thirteenth International Conference on ArtificialIntelligence and Statistics(AISTATS 2010),第9卷,第249-256页,2010年5月。6[13] R. Hadsell,P. Sermanet,J. Ben,A. Erkan,M. 斯科菲耶,K.卡武克丘奥卢湖Muller和Y.乐存。学习自动越野驾驶的远程视觉。Journal of Field Robotics,26(2):120-144,2009. 1[14] J. Hays和A.A. 埃夫罗斯 Im2gps:估计地理位置从一个单一的图像信息。计算机视觉和模式识别,2008年。CVPR 2008。IEEE会议,第1-8页。IEEE,2008年。2[15] D. Hoiem,A.A. Efros,和M。赫伯特几何语境from a single单一image图片.在第十届IEEE计算机视觉国际IEEE,2005年。2[16] Y. Jia、E.Shelhamer,J.多纳休S.Karayev,J.隆河,西-地Gir-Shick,S. Guadarrama和T.达雷尔。Caffe:用于快速特征嵌入的卷积架构arXiv预印本arXiv:1408.5093,2014。6[17] D. Joho,M. Senk和W. Burgard学习在结构化环境中查找对象的搜索技巧。Robotics and Autonomous Systems,59(5):319-328,May 2011. 3[18] A. Kendall,M.Grimes和R.西波拉Posenet:卷积-用 于 实 时 6-dof 相 机 重 新 定 位 的 常 规 网 络 。 IEEEInternational Conference on Computer Vision , 第 2938-2946页,2015年。2[19] A. 科斯拉湾An,J.J. Lim和A.托拉尔巴期待-在可见的场景中。在IEEE计算机视觉和模式识别会议(CVPR),俄亥俄州,美国,2014年6月。一、二、四、六、七、八[20] A.克里热夫斯基岛Sutskever和G. E. 辛顿 ImageNet使用深度卷积神经网络进行分类。在神经信息处理系统的进展,第1097-1105页,2012年。2[21] S. 拉泽布尼克角 Schmid和J.庞塞超过袋特征:用于识别自然场景类别的空间金字塔匹配。2006年IEEE,2006年。6[22] G. Li和Y.Yu. 基于多尺度深度的视觉显著性功能.在IEEE计算机视觉和模式识别会议论文集,第5455-5463页2[23] Y. Li,M. Paluri,J. M. 和P. 多尔拉。无监督学习边缘。 在CVPR,2016年。2[24] Z. Liu,P.Luo,X.Wang和X.唐深度学习在野外面临挑战在IEEE计算机视觉国际会议论文集,第3730-3738页2[25] J. Long,E.Shelhamer和T.达雷尔。完全卷积语义分割的网络。在IEEE计算机视觉和模式识别会议论文集(Proceedings of the IEEEConference on ComputerVision and PatternRecognition),第3431-3440页,2015年。2[26] P. Mirowski,R. Pascanu,F. Viola,H. Soyer,A. 巴拉德A. 巴尼诺湾德尼尔河戈罗申湖Sifre,K.Kavukcuoglu等人学 会 在 复 杂 环 境 中 导 航 。 arXiv 预 印 本 arXiv :1611.03673,2016年。3[27] V. Mnih 、 A. P. Badia , M. Mirza , A. Graves , T.P.Lillicrap,T. Harley,D. Silver和K. Kavukcuoglu深度强化学习的异步方法。arXiv预印本arXiv:1602.01783,2016。二、三[28] 诉嗯K.Kavukcuoglu,D.小银A. 格拉夫I.安东诺格鲁D. Wierstra和M. 里德米勒 用深度强化学习玩雅达利。arXiv预印本arXiv:1312.5602,2013。2[29] R. Mottaghi,X. Chen,
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功