探索人工智能的安全度：通用性能力与控制

112 浏览量更新于2023-09-05 收藏 581KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Copyrightc 2020，由作者举行 All rights reserved.探索AI安全性：通用性、能力和控制约翰·伯顿约克大学jjb531@york.ac.ukJose'Herna'ndez-OralloUni versitat Polite` cnica deV ale` ncia，西班牙Leverhulme未来智能中心，剑桥，英国jorallo@upv.es摘要通过对比专门的AI与一般的AI（或AGI），通过分析具有有限能力的系统的短期危害与“超智能”带来的更长期的风险，以及通过概念化AI系统对其环境和自身的复杂控制方式（影响，对人类的伤害，自我伤害，遏制等），人工智能安全的前景经常被不同地探索。在这份立场文件中，我们将AI安全的这三个方面重新考虑为定量因素-作为一个例子，我们说明了如何定义这些metrics和一些简单的代理在玩具场景中的强化学习设置的值。介绍尽管近年来人工智能取得了令人印象深刻的进步，但人工智能系统仍然很狭窄。他们通常在一项任务或一种类型的任务上解决或表现这些系统缺乏通用性，并且在其目标域之外表现不佳通用性是“智能”概念的内在属性，我们显然希望人工智能（无论是否通用）对人类安全和有益。并不是说狭义的人工智能系统就能做到虽然AGI不会带来风险，从未经适当验证的系统所犯的错误，到滥用研究和技术，但AGI似乎会带来独特的安全问题。Bostrom描述了许多场景，在这些场景中，假设的超级智能AGI可能会给人类带来生存风险AGI系统所使用的环境控制可能进一步增加系统的安全风险。系统操纵其环境的能力可能会克服以前的系统安全保证，并对共享的其他实体造成损害环境保护已经提出了用于控制智能系统的各种策略（Armstrong、Sandberg和Bostrom 2012），尽管没有一个是完全令人满意的。然而，这种对非常强大的系统所带来首先，虽然Bostrom据推测，随着人工智能系统变得更加智能，一些风险更有可能发生，但除了超人智能的概念之外，智能这些遗漏不一定是疏忽，但可能只是源于主要的未解决的问题，以更丰富，更可预测的方式表征智能系统的行为最近的方法，如（Armstrong和Levinstein 2017）和（Drexler 2019），以及（Amodei et al. 2016年），引入超越智能整体观的框架，但不旨在表征和测量智能体的不同维度。行为我们相信，许多关于智力的观点都将不同层次的一般性、能力和控制混为一谈，将它们分开可以获得更丰富的理解，特别是在安全方面。例如，我们能不能有一个非常有能力但范围很窄的系统？以及对环境控制能力较低的非常一般的系统在这份立场文件中，我们分析了三个独立的因素，这些因素经常被整合，但可能会对风险产生不同的影响。我们使用代理特征曲线来解开它们，并分析它们与AI风险的关系。最后，我们介绍了一个玩具的情况下，我们精确地定义度量gener- ality，能力和控制，并评估代理和情况与他们。在这些明确定义的帮助下，该场景突出了对这三个因素的感知可能存在的分歧这应该会鼓励富有成效的讨论，讨论如何为更复杂的情况定义或概括这些指标，以一种可用于探索具有不同级别的广泛AI系统的版权所有© 2020由其作者。在知识共享许可署名4.0国际（CC BY 4.0）下允许使用。平均值：0.28差异：0.09容量：3.32能力、通用性和对环境的控制解开因素在我们分析能力、性别和控制等因素如何影响人工智能风险之前，我们需要了解这些术语在文献中的含义，并将它们与AGI或超级智能等术语区分开来。能力：能力是一个系统解决问题的能力。在其设计的领域中运行或执行评估系统性能指标，最好与系统可用的资源相关联，例如可用的计算能力、内存和时间（Mart´ınez-Plumed等人，2018）。能力的一个关键问题是其规模。忽略这一点，迫使我们用不太理想的术语来谈论能力--要么模糊地比较能力，要么只比较非常相似领域中非常狭窄的人工智能系统。当任务有无限多个实例时，会出现另一个问题，而代理只能解决其中的有限数量，这正是因为资源的原因。成功的百分比将为0，因此是无用的度量。这个问题的一个巧妙的解决方案来自心理测量学，特别是项目反应理论（ IRT ）（ Embretson 和 Reise2000）。项目反应理论试图为考生的能力评分提供一种有充分依据的统计方法项目反应理论在给一个人打分时不仅关注应试者的能力，而且关注问题或然后，IRT可以为每个项目生成“项目特征曲线”（ICC），根据个人的能力，近似估计从ICC中，可以通过使用测试者的项目响应的最大似然估计来评估测试者的能力这些允许为每个考生创建图1示出了ACC。0 2 4 6 8小时图1：ACC示出了Q学习代理在增加难度的环境（h，在X轴上）上的性能Ψ。数据来自（Insa-Cabrera et al.2011）。在IRT中，ACC通常是S形的，而能力只是x轴位置在0.5.对于非参数曲线，我们仅将容量视为面积（示例中为3.32）。通过这种方式，如果我们在池中引入无限多个智能体无法解决的极其困难的问题实例，则能力不会改变。请注意，这种情况不会发生当我们计算一组问题实例的平均期望得分时（在图中，这是0.28）。通用性：通用性是对系统能够处理和执行良好的域的数量和类型的度量。一般性并不总是容易评价的或者量化，特别是当我们没有明确的领域类型定义，而只是一组广泛的任务时。这个问题的一个新的解决方案再次通过查看ACC来实现。随着项目难度的增加，我们通常会看到性能下降。这种情况发生的速率捕获了问题空间上的一般性，其可以被计算为ACC的斜率的某种代理一个在问题空间中表现缓慢、逐渐下降的应试者，比一个在这一点之后表现急剧下降、覆盖一致的项目难度水平的代理人要普遍得多这看起来可能非常违反直觉，但关键是要理解，我们通常会比较ACC下具有类似区域的系统-对于更急剧的下降，下降必须开始较晚，因此代理保持其高性能以获得更高的难度水平。这种方法框架的一般性，作为系统性能尽可能多的低难度的任务，没有捕捉的概念，系统执行任务的问题空间的不同领域。但这种普遍性的概念确保了这种突破至少在难度达到一定水平之前不会发生最后，除非我们给出系统表现良好的域类型的指示，否则我们将被迫以聚合术语来谈论一般性。出于本文的目的，我们将使用一般性来指代ACC的梯度。控制：从安全角度来看，系统的另一个重要因素是控制。通过代理控制，我们指的是代理的行为和决策的可靠性和故意意图我们经常希望衡量控制方面特定的行为属性，如完成目标或避免这种控制的想法也与感知科学中的 “ 启示” 有关（Gibson 1979），其中Gibson将启示描述为由代理人与其环境之间的关系产生的启示已经进入了人工智能研究，正如Nye和Silverman（2012）在他们对该主题的文献综述中明确指出的那样。为了我们的论文的目的，我们将控制作为相反的预期熵的访问状态的条件下的行为，我们希望测量控制。因此，控制与可变性是对立的。如果我们观察ACC，控制与沿ACC的分散有关。风险与因素之间的相互作用现在我们讨论因素与AI系统风险相关的方式首先，我们需要了解-我们要评估的东西。风险通常被描述为暴露在某种危险中。虽然对生命或福祉的危险是我们最终要尝试0.00.20.40.60.81.0为了防止，在人工智能安全的背景下，一些特定的场景呈现为潜在地间接地实现这这些类型的场景或行为包括系统误解目标或目标定义不佳。这被称为价值学习问题（Soares 2015）。我们关注的另一个风险是系统抵抗外部的努力，以改变系统的设计者;确保系统允许这被称为corrigibility（Soares et al. 2015年）。有无数其他方式的风险可以体现在人工智能（Amodei et al.2016年）。同样，没有完全令人满意的解决方案来量化风险，但在一个环境中，我们通常可以将特定风险量化为概率或预期惩罚。然后，我们就可以直接在数字上比较我们的现在让我们在一个抽象的层次上探索这种相互作用直观地，存在与更高的能力和通用性以及更低的控制相关联的潜在更多风险然而，这方面的细微差别比最初预期的要多。这些细微差别中的一些来自于这样一个事实，即非常不称职的系统（低能力）是危险的，因为它们没有履行自己的职责，这是一个明显的安全问题。但这些都可以归类为已知的未知数。随着给定域中能力的增加，识别系统可能遍历哪些状态以及作为结果可能导致什么样的副作用变得更加困难这些都是未知的未知。一旦一个智能体变得越来越有能力，我们就会遇到Vingean不确定性--也就是说，如果智能体在某个领域比我们更有能力，那么我们就不能完全预测智能体在那个领域会做什么，否则我们将拥有相同的领域能力。在这种情况下，保证请注意，ACC的视图，其中难度在x轴上，有助于我们理解这一点。随着任务变得越来越复杂，解决方案可能会以我们无法预料的方式实现，特别是如果我们自己没有达到这种能力水平。同样，随着普遍性的增加，我们可以直觉地发现，系统带来的风险也会增加。这是因为该系统变得更擅长于广泛的任务，这使得构建安全保障更加耗时。此外，如果我们使用ACC的一般性概念，在不变的能力下，我们在高难度任务上的表现更差。这些高难度的任务可能比低难度的任务更危险，特别是如果我们不理解它们的话。但一般性使系统在困难的条件下更可预期。例如，它让人放心，知道自动化助理将很好地完成所有简单的任务。Omohundro的“Basic AI Drives”（Omohundro 2008）进一步加剧了高能力和通用性系统的风险即使是看似良性的目标可能会造成重大风险。最后，随着系统对其环境的控制增强，系统造成的相关风险实际上可能会降低。随着控制力的提高，代理人的行为会更加谨慎，因此也更容易预测。当一个系统目标与我们的安全标准保持一致，这种深思熟虑的行动表现可以减少违反安全属性的机会例如，一个个人助理有时会在一些简单的任务上失败，可能是因为它非常随机地解决了这些任务，这将控制视为可靠性（或熵的减少）的观点与这一观点一致。当然，这需要系统动作的安全对准的概念。故意不结盟的行动显然不能保证安全。然而，系统也可能对环境施加过度控制，并减少其中其他代理的自由。这在以前的人工智能安全中已经研究过，通常是从通过最小化或减少对某些因素的环境控制来加强安全的角度来研究的。这方面的例子包括无法撤销的惩罚行为（Krakovna et al. 2018），或通过最大限度地减少系统对环境的影响（ Armstrong 和Levinstein 2017）。这两种方法都试图使对环境施加某些类型的控制不受欢迎。能力、通用性和环境控制也可能在某些方面相互影响，进而进一步增加系统带来的风险虽然这些因素彼此严重解耦，但它们并不完全正交。图2更直观地显示了这些因素之间的相互联系。控制风险通用能力图2：AI系统的属性与其构成的风险之间的关系。这种纠缠的一个例子是，随着环境控制的增加，新的启示对系统变得可用。我们已经知道，这可能会增加系统带来的风险，但这些新的启示可以允许新的行为，这可能会增加系统也可以考虑这种关系的逆。人工智能突破的想法假定，随着系统变得更有能力和更通用，它可能能够检测和利用其所处环境中的漏洞，最终获得对环境的控制并利用该控制来实现其目标，以设计师认为不可接受的方式行事。通用性和能力在系统中也可能可能的情况是，系统越专业化到特定的问题域，留给其他任务类型的计算资源就越少。总的来说，我们可以看到，能力、一般性和控制的因素不太清楚的是它们在多大程度上这样做，或者它们之间的确切关系-这些因素显然不是正交或直接相关。场景：RL环境中的探索虽然图2中所示的关系很难以抽象的方式确定，特别是如果我们不指定我们想要分析的特定风险，则可以针对特定场景进行分析图3显示了一个简单的网格环境，其中代理（指定为较小的橙色方块）必须在分配的步骤数内导航到目标（由绿色方块指定）。代理的不同属性可以影响其能力、通用性和对来自该环境类型的任务的控制。这样的属性可以包括代理比较不同代理的预期成功率可以提供有价值的洞察能力，一般性和控制是如何与风险相关的。我们现在给出一个更正式的描述的环境和措施的能力，一般性和控制。重要的是要注意，这里给出的风险和因素的正式描述是特定于领域的。我们考虑一个有界网格的mn个细胞，其中代理π位于一个细胞，并可以在四个基本方向上移动，在每一步。目标也位于一个单元格中，并且当智能体到达该单元格时产生正奖励rg0。达到目标结束事件。可能有一个或多个坑：细胞，如果代理到达他们，它永远不会出去的其余部分。情节具有固定的Te步长的长度。除非上面另有说明，否则奖励始终为0。环境μ是在代理、目标和坑的位置上以分布ppμq生成的令spπ，µq表示代理π在环境µ上成功（在事件终止之前达到目标）。现在我们定义一个简单的困难度的概念对于每个环境为pµq换句话说，一个环境的难度-概率是1减去随机游走代理的成功概率。现在，我们按如下方式构建ACC。对于每个难度h，我们仅计算该难度环境下的代理π的预期成功，即，我们将p条件化为h。我们将每个难度的成功率表示为：S hpπ，pq“P p s p π，µ q|pµq“h q. 通过绘制困难范围的Sh，我们有一条“曲线”，即π的代理特征曲线，非常类似于智能体的能力（Ψpπ，pq）是其曲线下面积。主体的一般性（Γpπ，pq）是该曲线的陡度（的代理）作为代理的例子，我们可以有解决所有情况的代理（非常有能力和一般），只有当目标在附近时才解决任务的代理（一般但不是非常有能力），或者只有当目标在网格的上半部分时才解决任务的特定代理想象它已经在目标通常在上半部分的分布上训练）。环境μ中的主体的控制被定义为cp π，μ q "H max ´Hp μ，π q，其中H是π在μ中预期访问的状态的熵，Hmax是最大值图3：测试与控制熵相关的风险的可能域。那么代理Cpπ，pq即，对代理预期成功的环境的预期控制1.可以针对环境和代理选择适当的故障概率阈值δP p0，1q例如，随机行走代理被期望具有中等通用性、低能力和非常低的控制。一个最优地到达目标的智能体被期望具有高通用性、高能力和高控制。在环境μ中的一个代理π的风险是υpπ，μq是π在环境μ中的一个事件期间落入坑中的概率。代理在整个任务分布上的风险是Ypπ，pq“E µ n p υ p π，µ q s。这种风险通常被称为安全勘探。值得注意的是，在测试环境中，确实有可能具有高能力和低控制的代理，反之亦然。尽管在许多情况下，控制与能力密切相关。同样，我们环境中的许多有能力和一般的代理人可能具有高风险水平。我们主张，增加代理人的控制将导致代理人的风险降低。也就是说，更高级别的控制产生更安全的探索。当代理的控制Cpπ，pq增加时，我们期望π成功完成的任务的期望控制也增加-这只是代理控制的定义。存在于特定环境中的代理控制定义告诉我们，Eµnp，Ppspπ，µq1´δqrHmax´Hpµ，πqs增加。以来Hmax是固定的，成功环境中的预期熵项Hpµ，πq必须递减。在一个成功的环境中，我们期望智能体在时间限制Te内达到目标。如果期望的熵减少，代理人就更少可能选择不在成功路径上的移动。这降低了进入窝细胞的机会，从而降低了药剂的风险。讨论用平均性能来表征AI代理是过于简单的，因为有许多不同的方法可以获得相同的性能。目前人工智能安全领域的许多积极研究的特点是努力超越这种狭隘的观点。1注意，这里控制的定义似乎与智能体对环境的可观察性有关-具有完美“视觉”和策略的智能体安全性在这里通过以下保证来识别：实现了一定的困难（能力），直到该困难水平，代理没有忽略任何问题（一般性），以及成功策略的结果和策略的可变性低（控制）。在某种程度上，我们将不可预测性限制在一个有界的难度上，这可以用来为系统定义一个安全区域。虽然本文的主要目的是提高对将绩效分解为更精细的因素的必要性和相关性的认识，以及根据这些因素分析风险的机会，但作为未来的工作，我们计划自己探索不同类别环境的这些想法。我们还鼓励AI安全研究人员在这里介绍的因素下获得理论和实验结果，例如能力和控制之间的相关程度。可能需要新的配方。例如，随着问题变得更难，最大熵也增加，并且将控制与难度相关或归一化可能更合适。确认我们感谢匿名评论者的评论。这项工作由FLI未来生命研究所资助，拨款RFP 2 -152，并由欧盟（FEDER）和西班牙 MINECO 在 RTI 2018 -094403-B-C32 下以及Generalitat Valenciana在PROMETEO/2019/098下提供支持。引用Amodei ， D.; Olah ， C.; Steinhardt ， J.; Christiano ， P.;Schulman，J.; 和Man e′，D. 2016年。 AI安全中的具体问题。arXiv预印本arXiv：1606.06565。Armstrong，S.，Levinstein，B. 2017.低影响力的人工智能。arXiv预印本arXiv：1705.10720。Armstrong，S.; Sandberg，A.;和Bostrom，N. 2012.在盒子里思考：控制和使用oracle ai 。 Minds and Machines22（4）：299-324.Bostrom，N. 2012.超级智能将：先进人工智能体的动机与工具理性。Minds and Machines22（2）：71-85.Bostrom，N. 2014. 超级智能：道路，危险，策略。北京：北京大学出版社.Drexler，K.大肠2019年。重构超级智能：作为一般智能的综合人工智能服务。Embretson，S. E.，和Reise，S. P. 2000。心理学家的项目反应理论。法律厄尔鲍姆Gibson，J. J. 1979. 视觉感知。霍顿米夫林。Insa-Cabrera，J.; 我们，D。L.的; 特别是n~ a-Cubillo，S.;Her na'ndez- Lloreda ， M.V.;和 Her na'ndez-Orallo ， J.2011年。比较人类和人工智能。在国际人工智能会议上，122-132。斯普林格。Krakovna，V.; Orseau，L.; Martic，M.;和Legg，S. 2018.使用相对可达性测量和避免副作用CoRRabs/1806.01186。Mart´ınez-Plumed，F.; Avin，S.; Brundage，M.; Dafoe，A.;h E′igeartaigh，S. O′.; 和Hern a'ndez-Orallo，J. 2018年。解释人工智能进步中被忽视的维度arXiv预印本arXiv：1806.00610。奈湾D、Silverman，B.例如2012. AI中的启示。Boston，MA：Springer US. 183-187Omohundro ， S. 先生 2008. 基本的 AI 驱动器。 ArtificialGeneral Intelligence171：483-493.Soares ， N.;Fallenstein ， B.;Armstrong ， S.; 和Yudkowsky，E. 2015.可纠正性。在第二十九届AAAI人工智能上。Soares，N. 2015.价值学习问题。第25届国际人工智能联合会议人工智能伦理研讨会。

下载后可阅读完整内容，剩余1页未读，立即下载