没有合适的资源?快使用搜索试试~ 我知道了~
工程6(2020)310研究人工智能-专题文章黑暗,超越深度:一个具有人类常识的认知AI的范式转变朱一新a,刘晓波a,高涛a,范立峰a,黄思远a,马克·埃德蒙兹a,刘航新a,高峰a,张驰a,四元奇a,影念武a,约书亚B。特南鲍姆b,朱松春aa视觉、认知、学习和自主中心,加利福尼亚大学,洛杉矶,CA 90095,美国b美国麻省理工学院大脑、思维和机器中心,剑桥,MA 02139阿提奇莱因福奥文章历史记录:收到2019年2019年12月11日修订2020年1月3日接受2020年2月22日在线提供保留字:计算机视觉人工智能直观的物理功能感知的意图实用程序A B S T R A C T深度学习的最新进展基本上是基于“小任务的大数据”范式,在这种范式下,大量的数据被用来为单个窄任务训练分类器。在本文中,我们呼吁改变这种范式。具体来说,我们提出了一个“大任务的小数据”范式,其中单个人工智能(AI)系统面临着开发“常识”的挑战,使其能够用很少的训练数据解决各种任务。我们通过回顾综合了机器和人类视觉最近突破的常识模型来说明这种新范式的潜在力量。我们将功能、物理、意图、因果和效用(FPICU)确定为具有人类常识的认知AI的五个核心领域当作为一个统一的概念时,FPICU关注的是“为什么”和“如何”的问题它们在像素方面是不可见的,但却推动着视觉场景的创造、维护和发展。因此我们称它们为视觉的“暗物质”。正如我们的宇宙不能仅仅通过研究可观察物质来理解一样,我们认为,如果不研究FPICU,就不能理解视觉。我们展示了这种观点的力量,通过展示如何观察和应用FPICU来解决各种具有挑战性的任务,包括工具使用,规划,效用推理和社会学习,开发具有人类常识的认知AI系统。总之,我们认为下一代人工智能必须接受“黑暗”的人类常识来解决新的©2020 THE COUNTORS.Elsevier LTD代表中国工程院出版,高等教育出版社有限公司。这是一篇CC BY-NC-ND许可下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 对视觉和人工智能范式转变的呼吁计算机视觉是人工智能的大门,是现代智能系统的重要组成部分由先驱David Marr提出的计算机视觉的经典定义[1]是看“什么”是“在哪里”。这里,这种定义对应于人脑中的两条通路:①腹侧通路用于物体和场景的分类识别,②背侧通路用于深度和形状、场景布局、视觉引导动作等的重构。这一范式指导了基于几何的*通讯作者。电子邮件地址:yixin.zhu@ ucla.edu(Y。Zhu)。20世纪80 - 90年代的计算机视觉方法在过去的几年里,随着深度神经网络(DNN)的快速发展,在硬件加速和大量标记数据集的可用性的推动下,在对象检测和定位方面取得了进展。然而,我们离解决计算机视觉或真正的机器智能还很远;当前计算机视觉系统的推理和推理能力是狭窄的,高度专业化的,需要为特殊任务设计的大量标记训练数据集,并且缺乏对常见事实的普遍理解-即对普通人类成年人来说显而易见的事实-描述我们的物理和社会世界如何工作。为了填补现代计算机视觉和人类视觉之间的差距,我们必须找到一个更广阔的视角,从这个视角来建模和推理缺失的维度,即人类的常识。https://doi.org/10.1016/j.eng.2020.01.0112095-8099/©2020 THE COMEORS.由爱思唯尔有限公司代表中国工程院和高等教育出版社有限公司出版。这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表工程杂志主页:www.elsevier.com/locate/engY. Zhu等人/工程6(2020)310311我们对视觉的这种理解类似于在宇宙学和天体物理学家领域所观察到的。 在20世纪80年代,物理学家提出了现在的标准宇宙学模型,其中电磁波谱观测到的y暗物质和暗能量的性质和特征是无法观测到的,必须使用复杂的模型从可见的质能中推理出来。然而,尽管暗物质和暗能量是不可见的,但它们有助于解释可见宇宙的形成、演化和运动。我们打算借用这个物理概念来提高视觉社区和其他领域对缺失维度以及联合表示和联合推理的潜在好处的认识我们认为,人类可以从稀疏和高维的数据中做出丰富的推论,并从一张图片中实现深刻的理解,因为我们拥有共同但视觉上无法感知的知识,这些知识永远无法仅仅通过询问“什么”和“在哪里”来理解具体来说,人造物体和场景的设计具有潜在的功能性,这是由不可解释的物理定律及其下游因果关系决定的;考虑一下我们对水从水壶中流出的理解,或者我们对透明物质(如玻璃)可以用作固体桌面的知识,告诉我们图1中发生了什么。1.一、同时,人类活动,特别是社会活动,又受到因果性、物理性、功能性、社会意图、个人偏好和效用的制约在图像和视频中,许多实体(例如,功能对象、流体、对象流和意图)和关系(例如,因果效应和物理支持)是不可能通过仅考虑外观的大多数现有方法检测的;这些潜在因素没有以像素表示。然而它们是普遍存在的,并且支配对于当前方法来说相对容易检测的可见实体的放置和运动。这些无形的因素在最近的计算机视觉文献中基本上是缺失的,在这些文献中,大多数任务都被转换为分类问题,由大规模注释数据和使用神经网络的端到端训练来授权。这就是我们所说的“小任务大数据”的计算机视觉范例和AI。在本文中,我们的目标是提请注意一个有前途的新方向,在这个方向上,将“黑暗”实体和关系的考虑通过推理可见像素之外的不可观察因素,我们可以近似人类的常识,使用有限的数据来实现各种任务的概括这样的任务将包括经典的“什么和哪里”问题的混合分类、定位和重构)和我们创造了这个新的范例当然,众所周知,视觉是一个不适定的逆问题[1],其中只有像素是直接看到的,其他任何东西都是隐藏的/潜在的。“黑暗”的概念垂直于视觉和概率建模中使用的“潜在”或“隐藏”的含义,并且比它们更丰富;“黑暗”是对实体进行分类或推断关系的相对困难的度量,基于在可见外观或几何形状之外需要多少不可见的常识。实体可以落在一个连续的“黑暗”光谱上图1.一、通过联合分析和认知推理对场景或事件进行深入理解的示例从单个图像中,计算机视觉系统应该能够联合:①重建3D场景;②估计相机参数、材料和照明;③用属性、流畅度和关系分层地解析场景;对代理的意图和信念进行推理(例如,本例中的人和狗);预测它们的动作;并预测不可见元素,如水、潜在对象状态等。作为人类,我们可以毫不费力地①预测水即将从水壶中出来;②推理出将番茄酱瓶倒置的意图是利用重力方便使用;③看到狗下面有一个玻璃桌,这是用现有的计算机视觉方法难以检测到的;如果没有看到玻璃桌,解析结果将违反物理定律,因为狗似乎漂浮在半空中。这些感知只能通过推理场景中不被像素表示的不可观察因素来实现,这要求我们构建一个具有人类核心知识和常识的AI系统,而这些知识和常识在当前的计算机视觉研究中基本上是缺失的H:高度; L:长度; W:宽度。1英寸= 2.54厘米。yhttps://map.gsfc.nasa.gov/universe/。312Y. Zhu等人/工程6(2020)310并且因此对于诸如椅子之类的功能性对象被认为相比之下,水壶的功能是本文的其余部分从第2节中的“什么”和“哪里”方面重新审视计算机视觉的经典观点开始为了使用“小数据”来解决“大任务”,我们确定并审查了视觉共同感的五个关键轴:功能,物理,意图,因果关系和效用(FPICU)。因果关系(第三节)是智能理解的基础.因果关系的应用(即,直觉物理学;第4节)使人类能够理解我们生活的物理世界。功能性(第5节)是对人类在与之交互时所使用的物理环境的进一步理解,在活动中执行适当的行动以改变世界。当考虑物理世界之外的社会互动时,人类需要进一步推断意图(第6节),以理解其他人的行为。 最终,随着对物理和社会世界的知识积累,理性主体的决策是功利驱动的(第7节)。在一系列的研究中,我们证明了“黑暗实体”和“黑暗关系”的这五个关键方面确实支持了不仅仅是分类的各种视觉任务。我们在第8中总结并讨论了我们的观点,认为掌握这些基本的看不见的成分对人工智能的未来至关重要2. 愿景:从数据驱动到任务驱动视觉系统应该为它所服务的代理人提供什么?从生物学的角度来看,大多数生物都使用单一的(具有多个组件)视觉系统执行数千项任务。这与计算机视觉研究中的主流思想形成鲜明对比,在计算机视觉研究中,单个模型是专门为单个任务设计的。在文献中,这种在各种任务之间进行概括、适应和转移的有机范式被称为任务中心视觉[3]。在图2所示的厨房中,即使是像煮一杯咖啡这样简单的任务也包括多个子任务,包括寻找物体(物体识别),抓取物体(物体操作),寻找牛奶(物体识别),在冰箱里,并添加糖(任务规划)。先前的研究表明,一个人可以在一分钟内煮完一杯咖啡。1分钟,通过利用单个视觉系统来促进各种子任务的执行[4]。神经科学研究也提出了类似的结果,表明人类的视觉系统比任何现有的计算机视觉系统都要强大得多,而且不仅仅是记住像素的模式。例如,Fang和He[5]表明,识别图像中的人脸与识别可作为工具操作的物体使用了不同的机制,如图3所示;事实上,他们的结果表明,人类对工具的外观的视觉反应可能比人脸更敏感,从而充分理解了物体如何帮助执行任务的推理。在视觉智能中根深蒂固。其他研究[6]也支持类似的结论,即即使不需要明显的行动,工具的图像也会“增强”行动。总之,这些结果表明,我们的生物视觉系统具有感知物体功能的机制(即,如何将对象作为工具来操作),其独立于管理面部识别(和其他对象的识别)的机制。所有这些发现都要求探索人类视觉系统和自然智能的机制。2.1. ‘‘What人类大脑可以在200毫秒内抓住这一工作路线经常导致研究人员将分类视为数据驱动的过程[11-图二、即使是像泡茶这样“简单”的任务,一个人也可以利用他或她的(a)三个不同的受试者在一个小的长方形厨房里完成同样的泡茶任务时的视觉注视记录;(b)从眼动录像带中提取的注视模式示例;(c)泡茶过程中的一系列视觉和运动事件Rot:旋转; ktl:水壶。 转载自参考文献[4],经SAGE Publication许可,©1999。Y. Zhu等人/工程6(2020)310313图三.人类背侧和腹侧通路对不可见物体的皮层反应。(a)刺激(工具和面孔)和实验程序;(b)背侧和腹侧区域都对工具和面孔作出反应。当刺激被抑制的高对比度动态纹理,背侧反应仍然响应工具,但不面对,而无论是工具或面孔引起太多的激活腹侧区。BOLD:血氧水平依赖性。转载自参考文献[5],经Nature Publishing Group许可,©2005。建筑学[16,17]。在过去的十年里,这种思想推动了计算机视觉和机器学习中的图像分类研究,并取得了显着的进展,包括DNN最近的成功[18尽管这些方法在公开数据集中的识别准确性方面在场景分类方面取得了良好的表现,但最近的一项大规模神经科学研究[21]表明,当前DNN无法解释灵长类动物(人类和猴子)的图像级行为模式,这引起了人们对灵长类动物物体视觉背后的神经机制的更精确解释的此外,数据驱动的方法已经导致场景分类研究的焦点远离视觉信息的重要决定因素-分类任务本身[22,23]。同时,这些方法还不清楚分类如何与场景语义相互作用,使认知推理。心理学研究表明,人类视觉在推理过程中组织表征,即使是对于“简单”的根据观众如参考文献[24]所示,场景分类和信息收集过程受到这些分类任务的约束[25,26],表明视觉输入和观众的需求/任务之间存在双向相互作用除了场景分类,在面部识别中也观察到类似的现象[27]。在早期的工作中,Ikeuchi和Hebert[28]受到机器人抓取文献的启发,提出了一种以任务为中心的表示法。具体来说,在没有恢复详细的3D模型的情况下,他们的分析表明,各种抓取策略需要物体提供不同的功能能力;因此,同一物体的表示可以根据计划的任务而变化(图5)[28]。举个例子,抓一个杯子可能会导致两种不同的抓握方式--圆柱形的杯身和钩形的杯柄。这些发现还表明,视觉(在这种情况下,识别可抓握的部分)在很大程度上是由任务驱动的;不同的任务导致不同的视觉表征。2.2. ‘‘Where在文献中,3D机器视觉的方法假设目标是从相机/观察者的角度构建场景的精确3D模型这些运动恢复结构(SfM)和同时定位和映射(SLAM)方法[29]已经成为3D场景重建中的主流范例。特别是,从单个二维(2D)图像的场景重建是一个众所周知的不适定问题;可能存在无限数量的可能的3D配置与投影的2D观察图像匹配[30]。然而,这里的目标不是精确匹配3D地面实况配置,而是通过在功能,物理和对象关系方面生成最佳配置来使代理执行任务直到最近[31-38],这一系列的工作大多与识别和语义分开研究;见图。 6[36]举个例子。将重建作为“认知地图”的想法有着悠久的然而,我们的生物视觉系统并不依赖于对特征和变换的精确计算;现在有大量证据表明,人类以一种从根本上不同于任何当前计算机视觉算法的方式来表示场景的3D布局[40,41]。事实上,多项实验研究并不支持全局度量表示[42-在一个案例研究中,Glennerster等人[53]证明了观察者对执行各种任务的移动观察者周围环境规模的巨大变化缺乏敏感性在所有最近的证据中,网格细胞可能是最著名的发现,表明视觉任务不需要精确的3D重建[54网格细胞编码欧几里得空间的认知表征,这意味着感知和处理位置和方向的不同机制这一发现后来被授予2014年诺贝尔生理学或医学奖。令人惊讶的是,这种机制不仅存在于人类[57],而且在小鼠[58,59],蝙蝠[60]和其他动物中也发现了。Gao et al.[61]和Xie et al.[62]提出了一种网格单元的表示模型,其中智能体的2D自位置由高维向量表示,智能体的2D自运动或位移由变换向量的矩阵表示。这种基于矢量的模型能够学习网格单元的六边形模式,具有误差校正、路径积分和路径规划。最近的一项研究还表明,在某些人类导航任务中,基于视图的方法实际上比基于3D重建的方法更好[63]。尽管有这些发现,我们如何在复杂的环境中航行,同时始终能够返回到原始位置(即,归巢)仍然是生物学中的一个谜,314Y. Zhu等人/工程6(2020)310见图4。参考文献[24]中的实验展示了自上而下和自下而上信息之间的诊断驱动的双向相互作用,用于在特定层次级别对场景(a)给定场景的相同输入图像,如果要求受试者在(b)基本水平(例如,餐馆)或(c)下级(例如,自助餐厅),指示场景分类的任务驱动性质。经作者许可,转载自参考文献[24],©2014。图五.不同的抓取策略需要不同的功能能力。复制自Ref。[28]经IEEE许可,©1992。神经科学也许Vuong等人最近的一项研究[64]为空间的任务依赖性表征提供了证据,可以提供一些线索。具体来说,在这个实验中,参与者犯了很大的,一致的指向错误,任何单一的3D表示都很难解释。他们的研究表明,保持视觉方向以到达看不见的目标的机制既不是基于场景的稳定3D模型,也不是基于扭曲的模型;相反,参与者似乎形成了一个平坦的和任务相关的表示。2.3. 超越心理学研究表明,人类的视觉经验远比“什么”和“哪里”丰富得多。早在婴儿期,人类就能迅速有效地感知因果关系(例如,感知到物体A发射物体B)[65,66],代理和意图(例如,理解一个实体正在追逐另一个实体)[67预测一堆不稳定的岩石即将沿特定方向坠落)[70,71]。这样的物理和社会概念可以被感知图六、以合成分析方式进行3D室内场景解析和重建的说明[36]。3D表示由各个视觉任务初始化对象检测、2D布局估计)。联合推理算法比较渲染的法线、深度和分割图与直接从输入的红绿蓝(RGB)图像估计的图之间的差异,并迭代地调整3D结构复制自Ref。[36]在施普林格的许可©2018年。从两个媒体丰富的视频[72]和更稀疏的视觉输入[73,74];见图中的例子。7.第一次会议。为了使人工代理具有类似的能力,我们呼吁联合推理算法的联合表示,①对物体、场景、动作、事件等的“可见的”传统识别和分类;以及②流畅性、因果关系、物理学、功能性、启示、意图/目标、效用等的“黑暗的”更高层次的这些概念又可以分为五个轴:流畅和感知的因果关系,直观的物理,功能,意图和目标,以及效用和偏好,如下所述。2.3.1. 流畅和感知的因果关系流利,这是艾萨克·牛顿[75]和麦克劳林[76]分别创造和讨论的概念,并被人工智能和常识推理[77,78]采用,指的是随时间变化的对象的瞬态,例如杯子是空的或装满的,Y. Zhu等人/工程6(2020)310315图7.第一次会议。(a)动画说明代理人的意图,情绪和角色[73]。在二维平面上移动的四个不同圆盘的运动和相互作用由潜在的物理性质和动力学定律(例如质量、摩擦力以及全局力和成对力)支配。(b)关于场景动态的直觉理论和反事实推理[74]。两个台球A和B之间的碰撞事件的示意图,其中实线表示球门被锁上了,汽车闪烁着左转的信号,电话铃响了; 2见图8中“黑暗”流畅的其他例子在心理学文献中,流利程度与感知的因果关系有关[79]。即使是接触视觉经验有限的婴儿,也具有从日常观察中学习因果关系的先天能力,这导致对事件语义的复杂理解[80]。流畅度和感知的因果关系不同于物体的视觉属性[81,82]。后者在观察过程中是永久性的;例如,短视频剪辑中的人的性别应该是一种属性,而不是流畅性。有些流畅是可见的,但许多是“黑暗的。”人类的认知具有先天的能力(在婴儿中观察到)[80]和强烈的倾向性,能够感知动作和流体变化之间的因果关系;例如,意识到拨动开关会使灯打开。要识别动作引起的物体变化,必须能够感知和评估物体的可变化特征的状态;因此,感知流畅性,例如灯开关是设置在向上还是向下的位置,对于识别动作和理解展开的事件是必不可少的。大多数关于动作识别的视觉研究都非常关注人体在行走、跳跃和鼓掌等活动过程中的位置、姿势和运动,以及饮酒和吸烟等姿势-物体相互作用[83-86] ;但大多数日常动作,如开门,都是由因果关系定义的(门的流畅性从“关闭”变为“打开”,不管它是如何打开的),而不是由人的位置,运动或时空特征[87,88]。同样,像穿衣服或搭帐篷这样的动作也无法定义简单地通过它们的外观特征;它们的复杂性需要因果推理来理解。总的来说,场景的状态可以被看作是记录动作历史的流畅性的集合。然而,流畅性和因果推理尚未在机器视觉中得到系统研究,尽管它们在图像和视频中无处不在。2.3.2. 直觉物理学心理学研究表明,近似牛顿原理是人类对动力学和稳定性判断的基础[89,90]。Hamrick等人[71]和Battaglia等人[70]表明,牛顿原理和概率表示的知识通常应用于人类物理推理,直观的物理模型是人类复杂场景理解的重要方面。其他研究表明,人类对场景中的物体是否违反了某些已知的物理关系或似乎是物理不稳定的高度敏感[91不可见的物理场控制着人造场景中通过人类的设计,物体应该在物理上是稳定和安全的,相对于重力和其他各种潜在的干扰[96因此,任何3D场景解释或解析(例如,对象定位和分割)必须是物理上合理的(图。 9)[36,96 -100]。这种观察为场景理解设置了有用的约束,对机器人应用很重要[96]。例如,在救灾现场的搜索和救援任务中,机器人必须能够推理各种物体的稳定性,以及哪些物体在物理上支撑着其他物体,然后使用这些信息谨慎地移动,避免产生新的危险干扰。2.3.3. 功能大多数人造场景被设计为服务于多种人类功能,例如坐,吃,社交和睡眠,并满足人类对这些功能的需求,例如如照明、温度控制和通风。这些功能和需求在图像中是不可见的,但塑造了场景通过功能性磁共振成像(fMRI)和神经生理学实验,研究人员在运动前皮质区发现了镜像神经元,这些神经元似乎通过姿势以及与物体和场景的互动来编码动作[102]。人类头脑中的概念不仅由原型(即当前计算机视觉和机器学习方法中的范例)表示,而且还由功能表示[80]。图8.第八条。水和其他清澈的液体在人类的日常生活中扮演着重要的角色(a)水只引起外观的微小变化(b)水、流体(在此,杯子和水龙头,由三角形表示)和人的意图的动作(菱形)涉及代理(五边形)和杯子(圆圈中的对象)。316Y. Zhu等人/工程6(2020)310见图9。推断物体从人类活动和自然干扰中坠落的可能性。(a)想象的人体轨迹;(b)主运动空间的分布;(c)次运动场;(d)通过整合主运动和次运动构建的整合人体动作场五个物体a-e是一个典型的干扰场:位于桌子边缘的物体b和沿着路径的物体c比其他物体(如位于桌子中心的物体a、位于桌子下方的物体e和位于房间凹角的物体d)表现出更大的复制自Ref。[96]经IEEE许可,©2014。2.3.4. 意图和目标认知研究[103]表明,人类有一种强烈的倾向,将事件解释为由代理人的意图驱动的一系列目标。这种目的论的立场启发了认知文献中的各种模型,将意图估计作为一个逆向规划问题[104,105]。我们认为,意图可以被视为代理人(人类和动物)的短暂状态,如“口渴”,“饥饿”或“疲惫”。它们类似于物体的流畅性,但比物体的流畅性更复杂,并具有以下特征:①它们是按目标序列分层组织的,是驱动场景中动作和事件的主要因素。②它们是完全“暗”的,也就是说,不是由像素表示的。③与语言随动作的瞬间变化不同,意图的形成往往跨越很长的时空范围。例如,在图10[72]中,当一个人饿了,看到一辆食品卡车在在院子里,这个人决定(打算)走到卡车那里。在这个过程中,在很长的距离上建立了吸引关系正如本文后面所述,每个功能对象(如食品卡车、垃圾桶或自动售货机)在场景上发射吸引场,与重力场或电场。因此,场景具有多层吸引或排斥场(例如,恶臭,或草,以避免踩上),这是完全“黑暗”。具有特定意图的人穿过这些场的轨迹遵循拉格朗日力学中的最小作用原理,该原理通过最小化随时间积分的势能和运动能来导出所有运动方程。对意图和目标的推理对于以下视觉和认知任务至关重要:①早期事件和轨迹见图10。人们的轨迹是彩色编码的,以表明他们共同的目的地。三角形表示目的地,点表示起始位置;例如,人们可能会走向食品卡车购买食品(绿色),或到自动售货机解渴(蓝色)。由于分辨率低、照明差和遮挡,仅根据其外观和形状很难检测到目的地的对象。复制自Ref。[72]在IEEE的许可©2018年。预测[106];②发现物体的不可见吸引/排斥场并通过分析人类轨迹识别其功能[72];③通过功能和活动理解场景[25],其中吸引场在场景中的范围比最近文献中研究的功能图[27,107]和示能图[108-2.3.5. 效用与偏好给定一个智能体与3D场景交互的图像或视频,我们可以假设观察到的智能体做出了接近最优的选择,以最小化某些任务的成本;也就是说,我们可以假设没有欺骗或伪装。这就是所谓的理性选择理论;也就是说,一个理性的人在经济学和博弈论中的机制设计领域,这与揭示原则有关,在该原则中,我们假设每个代理人都如实地报告其偏好;见参考文献104。[116]第116话一个小插曲建立人类效用的计算模型可以追溯到英国哲学家杰里米·边沁(Jeremy Bentham)及其被称为功利主义的伦理学著作[117]。通过观察一个理性人效用或价值也用于人工智能领域的规划方案,如马尔可夫决策过程(MDP),并且通常与任务的状态相关联然而,在MDP的文献中,我们认为,这种效用驱动的学习可能比传统的监督训练更不变性,计算机视觉和AI2.3.6. 总结尽管乍一看有明显的差异,但这五个FPICU域以理论上重要的方式相互连接。这些互连包括以下特征:①FPICU的五个领域通常不容易投射到显式视觉特征上;②大多数现有的计算机视觉和人工智能算法在这些领域既不胜任,也不适用(在大多数情况下);③人类视觉在这些领域仍然非常高效,人类水平的推理通常建立在FPICU的先验知识和能力之上。我们认为,这五个关键要素的结合将至少在三个方面推进愿景或人工智能系统:(1) 一般化。作为更高级别的表示,FPICU概念倾向于在整个人类生活空间中全局不变。因此,在一个场景中学到的知识可以转移到新的情况。(2) 小样本学习FPICU编码基本的先验知识,以了解环境,事件和Y. Zhu等人/工程6(2020)310317代理人的行为。由于FPICU比外观或几何特征更具有不变性,因此即使没有大数据,也可以在不同领域和数据源之间进行更加一致和无噪声的FPICU学习。(3) 双向推理。FPICU推理需要结合基于抽象知识的自顶向下推理和基于视觉模式的自底向上推理这意味着系统将继续从可见的像素表示场景方面的观察中进行数据驱动的推断,就像他们今天所做的那样,并根据FPICU的理解进行推断。这两个过程可以相互补充,提高整体系统的性能。在以下几节中,我们将更详细地讨论这五个关键要素。3. 因果知觉和推理:理解因果关系是从我们感知的环境中衍生出来的因果关系的抽象概念,因此可以用作构建时间和空间概念的先验基础[119人们对原因有着天生的假设,因果推理几乎可以自动地被激活[122,123]。 在我们看来,因果关系是FPICU其他四个要素(功能、物理、意图和效用)的基础。例如,代理必须能够推理其他人行为的原因,以便理解他们的意图,并理解他们自己的行为可能产生的影响,从而适当地使用功能对象。在某种程度上,人类的理解很大程度上取决于理解因果关系的能力。如果不了解是什么导致了一个行动,就很难考虑接下来可能发生的事情并做出有效的反应。在本节中,我们首先简要回顾了心理学中的因果我们以计算机视觉和人工智能中因果学习的案例研究结束本节3.1. 人类的因果感知和推理人类通过高级认知推理来推理因果关系。但是,我们能像看到颜色和深度一样,直接从视觉中“看到”因果关系吗?在一系列行为实验中,Chen和Scholl[124]表明人类视觉系统可以通过常识视觉推理感知因果历史,并且可以根据推断的潜在因果历史来表示对象-基本上通过想知道“它们是如何变成那样的”来表示形状。从本质上讲,因果事件不能仅仅从视觉中直接解释;它们必须由理解远端世界的代理人来解释。早期的心理学工作集中在作为人类因果学习和推理基础的联想机制上[126]。在此期间,然而,最近的研究表明,人类因果学习是一个理性的贝叶斯过程[125,128,129],涉及抽象因果结构[130,131]和因果关系强度值的获取[132]。心理学家米肖特[79]通过观察一个台球(A)击中另一个台球(B),首次系统地研究了因果关系的感知;详细说明见图11[133]。在经典的演示中,球A在接触B的那一刻停止,B立即开始移动,以与A相同的速度移动。这种视觉显示不仅描述了kine-见图11。米肖特关于知觉因果关系的一些基本论证的例子,关于两个物体A和B的知觉(这里分别显示为红色和绿色圆圈)。(a)发射效应;(b)夹带效应,其中A似乎将B一起带走;(c)发射效应通过在A和B的运动之间增加时间间隙而被消除;(d)触发效应,其中B的运动被视为自主的,尽管仍然是由A引起的;(e)发射效应也通过在A的最终位置和B的初始位置之间增加空间间隙而被消除;(f)工具效应,其中中间项目(灰色圆圈)似乎仅仅是A引起整个运动序列的工具。这些是人类直观理解的对象之间的许多因果关系中的一些经Elsevier Science Ltd.许可,转载自参考文献[133],© 2000年。matic motions,but a causal相互作用in which哪一个A“launches发射”B.这种“发射效应”的感知(1) 易怒。即使一个人被明确地告知A和B只是像素的补丁,不能进行机械交互,这个人仍然被迫感知发射。人们无法停止看到显著的因果关系,就像不可能停止看到颜色和深度一样。(2)受时空运动模式的严格控制。通过在A的停止和B的运动之间增加甚至很小的时间间隔,发射效果的感知将被打破;相反,B的运动将被感知为自我推进的。(3) 富有。即使只有两个球的相互作用也可以支持各种因果效应。例如,如果B的运动速度比A快(与A相同),那么感知就不会是A知觉因果关系还包括最近的认知科学研究[134]提供了更多令人震惊的证据,证明人类视觉是如何深深植根于因果关系的,这使得颜色和因果关系之间的比较更加有说服力。在人类视觉科学中,在特定类型的适应中,刺激必须出现在由视网膜和视觉皮层共享的参照框架定义的相同视网膜定位位置这种类型的视网膜适应已被视为该刺激的早期视觉处理的有力证据例如,众所周知,颜色的感知可以诱导视网膜适应[135]。引人注目的是,最近的证据表明,视网膜适应也发生的因果关系的看法。在长时间观看发射效果后,随后观看的显示器318Y. Zhu等人/工程6(2020)310只有当显示器位于相同的视网膜位置坐标内时,才更经常被判断为非因果关系。这意味着物理因果关系是在早期视觉处理过程中提取的。通过使用视网膜适应作为工具,Kominsky和Scholl[136]最近探索了发射是否与夹带是一个根本不同的类别,其中球A在接触后与球B一起移动结果表明,视网膜特异性适应并没有转移之间的发射和夹带,这表明确实有根本不同类别的因果知觉的因果感知的重要性不仅仅是给不同的因果事件贴上标签。因果关系的一个独特功能是支持反事实推理。观察者运用他们的反事实推理能力来解释视觉事件。换句话说,解释不仅基于所观察到的,而且基于本来会发生但没有发生的。在一项研究中[137],参与者判断一个台球是否会导致另一个台球离开或阻止它通过大门。参与者的观看模式和判断表明,参与者模拟了如果从场景中删除可能的原因,目标球会去哪里。参与者越确定结果会有所不同,因果判断就越强。这些结果清楚地表明,自发的反事实模拟在场景理解中起着至关重要的作用。3.2. 因果转移:机器智能尽管所有上述证据都证明了因果关系在人类视觉中的重要和独特作用,但在文献中仍然存在许多关于因果关系理解对于高级机器智能是否必要的争论。然而,学习因果关系的概念是最重要的代理,预计将在观察不同的领域与共同的潜在动态。具体来说,我们地球上的环境遵循相对恒定的环境动力学,例如恒定的重力。也许更重要的是,我们的世界大部分都是由其他人设计的,并且在很大程度上遵循共同的因果概念:开关关闭和打开东西,旋钮打开门,等等。尽管不同环境中的物体看起来不同,但它们的因果效应是恒定的,因为它们都符合一致的因果设计。因此,对于期望在变化但人为设计的环境中工作的代理,学习可概括和可转移的因果理解的能力至关重要。最近成功的系统,如深度强化学习(RL)展示了广泛的应用[138这导致在当今占主导地位的机器学习范式下迁移学习面临重大挑战解决这一挑战的一种方法是学习环境的因果编码,因为因果知识固有地编码了世界的可转移表示。假设世界的动态是恒定的,因果关系将保持真实,无论观察到的环境变化如何(例如,改变对象在一项研究中,Edmonds et al.[131]提出了一个复杂的分层任务,要求人类对抽象的因果结构进行推理。这项工作提出了一套虚拟的“逃生室”,在那里,代理人必须操纵一系列杠杆打开一扇门;见图1中的例子。 12 [131]。关键的是,这个任务的目的是迫使代理人形成一个因果结构,要求代理人找到所有的方式逃离房间,而不仅仅是一个。这项工作使用了三层和四层的房间和两个因果结构:共同原因(CC)和共同效果(CE)。这些因果结构将不同的组合编码到房间图12.参考文献[131]中介绍的OpenLock任务。(a)三杆试模的初始配置。所有的控制杆都被拉向机械臂,机械臂的底座固定在显示器的中心。臂通过向外推或向内拉这是通过分别点击杠杆径向轨道的外部或内部区域来实现的在每个锁定情况下,仅需要推动动作来解锁门浅灰色的杠杆总是锁定的,这在训练开始时对人类受试者和RL训练的代理都是未知的。一旦门被解锁,可以点击绿色按钮来命令手臂推开门。位于车门红色铰链对面的黑色圆圈(b)推一个杠杆。(c)点击绿色按钮打开门。在完成一个房间后,代理人然后被放置到一个房间,在那里感知的环境已经改变,但基本的抽象,潜在的因果结构保持不变。为了重用在前一个房间中获得的因果结构信息,智能体需要学习其对新环境的感知与动态的恒定潜在因果结构之间的关系。最后,在实验结束时,代理人被放置在一个房间里,房间里有一个额外的杠杆;这个新房间可能遵循相同的(一致的)或不同的(不一致的)潜在因果结构,以测试代理人是否可以将其获得的知识推广到更复杂的情况。这种任务设置是独特的和具有挑战性的两个主要原因:①在房间之间转移代理测试代理是否形成环境的抽象表示;②在三层和四层房间之间的转移考察了主体在相似但不同的因果环境中适应因果知识的能力。在这种环境中,人类受试者在观察上不同但结构上等同的因果环境下表现出非凡的获取和转移知识的能力;参见图13中的比较[131,145]。人类接近最佳性能,并表现出积极的转移效应,在房间里的额外杠杆在一致和不一致的条件。相比之下,最近的深度RL方法未能解释必要的因果抽象,并显示出负迁移效应。这些结果表明,在当前机器学习范式下运行的系统无法学习环境的适当抽象编码;也就是说,它们无法学习抽象的因果编码。因此,我们将从感知和交互中学习因果理解作为当前人工智能系统面临的一种3.3. 统计学习Rubin[146]在他的开创性论文《在随机和非随机研究中估计治疗的因果效应》中为统计学习中的因果分析奠定了基础这项工作所展示的公式通常被称为鲁宾因果模型。鲁宾因果模型中的关键概念在最简单的情况下,每个受试者有两种治疗(例如,吸烟或不吸烟),因果效应被定义为潜在的Y. Zhu等人/工程6(2020)310319图十三.人类因果学习者和典型RL代理之间的比较[145]。共同原因4(CC4)和共同效应4(CE4)表示Edmonds等人[131]使用的两种转移条件。(a)人类参与者在四杠杆共同原因(CC 4;左)和共同效应(CE 4;右)条件下找到所有唯一解决方案所浅灰色条和深灰色条分别表示共同原因3(CC3)和共同效果3(CE3)训练。误差条表示平均值的标准误差(b)相比之下,RL代理很难将学到的知识转移到解决类似的任务上。基线(无转移)结果表明,性能最佳的算法(邻近策略优化(PPO)和信任区域策略优化(TRPO))在CC4和CE4的基线训练结束时分别在10次和25次尝试中取得成功。优势DQN:深度Q网络; DQN(PE):具有优先经验重放的深度Q网络; MAML:模型无关元学习。两种治疗方法下的结果。因果推理的困难在于,对于每个受试者,我们只观察到实际分配给受试者的一种治疗的结果;如果分配了其他治疗,则观察到潜在的结果与这个主题相关的信息不见了如果每例受试者的治疗分配取决于两种治疗的潜在结局,则比较实际分配给受试者的治疗的观察平均结局的天真分析将导致误导性结论。该问题的常见表现是影响治疗分配和潜在结果的潜在变量(例如,影响吸烟倾向和健康的遗传因素)。为了解决这个问题,已经进行了大量的研究。一个非常突出的例子是倾向评分[148],这是在给定受试者背景变量的情况下,为受试者分配一种治疗的一致概率。通过比较具有相似倾向分数的受试者,可以进行有效的因果推断在Pearl的概率图形模型中进一步发展了因果关系因果贝叶斯网络(CBNs)[149]。CBN使经济学家和流行病学家能够对现实世界中无法干预的下在该框架中,专家建模者通常提供CBN的结构给定结构,模型的参数由专家提供在模型中使用do运算符进行推理,这允许建模者回答这个问题,如果X被干预并设置为特定值,Y会受到什么影响?与此同时,研究人员开始寻求从观测数据中恢复因果关系[150]。这些努力试图确定在什么情况下结构(CBN中两个变量之间的边缘的存在和方向)可以从纯观测数据中确定[150这个框架在现实世界的干预是困难的(如果不是不可能的话)领域是一个强大的工具-例如经济学和流行病学-但缺乏许多人性化AI所必需的属性。首先,尽管试图从观测数据中学习因果结构,但大多数结构学习方法通常无法成功识别可能结构的马尔可夫等价类[152];因此,结构学习仍然是一个
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功