新论文:“先进机器学习系统的校准”亚博体育苹果app官方下载

||文件

先进机器学习系统的校准亚博体育苹果app官方下载到目前为止,M亚博体育官网IRI的研究主要集中在2014年末研究议程亚博体育官网,特别是关于形式化的最优推理有界的,反思的决策理论代理人嵌入到他们的环境中. 此后,我亚博体育官网们的研究团队有了长足的发展,我们在这一议程上取得了实质性进展,包括在未来几周将宣布的逻辑不确定性方面的重大突破。

今天我们宣布了一项新的研究议程亚博体育官网先进机器学习系统的校准亚博体育苹果app官方下载“向前看,我们的一半时间将花在这个新议程上,而另一半时间则花在我们以前的议程上。摘要如下:

我们调查了围绕一个问题组织的八个亚博体育官网研究领域:随着学习系统变得越来越智能和自主,什么样的设计原则能够最好地确保他们的行为与运营商的利益相一致亚博体育苹果app官方下载?我们关注人工智能校准的两个主要技术障碍:指定正确的目标功能的挑战,以及设计即使目标功能与设计者的意图不完全一致的情况下也能避免意外后果和不良行为的人工智能系统的挑战。

本研究计画探讨的开放性问题包括:如何训练强化学习者,使其采取更亚博体育官网适合由智慧监督人进行有意义评估的行动?什么样的目标函数能激励一个系统“没有过大的影响”或“没有太多的副作用”?我们讨论这些问题,相关的工作,以及未来研究的潜在方向,目的是突出机器学习中的相关研究课题,这些课题在今天看来是可行的。亚博体育苹果app官方下载

我们的新报告由杰西卡·泰勒、埃利泽·尤德科夫斯基、帕特里克·拉维克泰尔和安德鲁·克里奇合著,讨论了八条新的研究路线(亚博体育官网以前在这里总结). 下面,我将解释这些问题背后的基本原理,以及它们如何与我们的旧研究议程和新研究议程联系在一起。”亚博体育官网人工智能安全中的具体问题由谷歌大脑的达里奥·阿莫迪和克里斯·奥拉领导的议程。

通过减少自主性提高安全性

前三个研究领域关注与亚博体育官网行为由代理,基于用户短期工具偏好亚博体育苹果app官方下载的概念系统:

1.归纳模糊识别:我们如何培训ML系统,以检测并通知我们测试亚博体育苹果app官方下载数据分类严重不足的情况?

2.强健人类模仿:我们如何设计和训练ML系统,以有效地模仿从事复杂和困难任务的人类亚博体育苹果app官方下载?

三。通知监督:我们如何训练一个强化学习系统去采取行动,以帮助一个聪明的监督者,如人类,准确地评估系统亚博体育苹果app官方下载的表现?

这三个问题涉及到我们在能力/自主性和安全性之间进行权衡的不同方式。在一个极端,一个完全自主的、具有超人能力的系统会让建立任何强有力的安全保障变得异常困难。亚博体育苹果app官方下载我们可以通过构建仍然相当智能和自主的系统来在一定程度上降低风险,但是在操作人员的行为亚博体育苹果app官方下载特别具有高风险的情况下,我们会停下来咨询操作人员。模糊性识别是一种方法,它可以使哪些场景是“高风险”的:在这些场景中,系统迄今为止的经验对于它试图学习的某些事实或人类价值没有提供足够的信息。亚博体育苹果app官方下载

在另一个极端,我们可以考虑并不比用户更聪明的ML系统,然后采用亚博体育苹果app官方下载以外的行动他们的用户会做什么,或用户会告诉他们做什么. 如果我们能正确地设计一个系统,让它做它认为可信、知情的人会亚博体育苹果app官方下载做的事情,我们就可以用先进的ML系统的一些潜在好处来换取更温和的故障模式。

这两个极端,人类模仿和(主要是)自主目标追求,是有用的研究对象,因为它们有助于简化和分解问题的关键部分。然而,在实际应用中,模糊识别本身可能是一种过于温和的限制,严格的人工模拟可能无法有效地实现。知情监督考虑更温和的方法来保持人在循环中:设计更透明的ML系统,帮助操作员理解所选操作背后的原因。亚博体育苹果app官方下载

在不降低自主性的前提下提高安全性

无论我们通过让人类参与人工智能系统的决策来获得何种保证,我们都希望在无法进行监督的情况下提高系统的可靠性。亚博体育苹果app官方下载我们的其他5个问题集中在提高系统的可靠性和容错性,这些系统自主地追求真实的目标,首先是用健壮和可靠的方式指定这些目标的问题:亚博体育苹果app官方下载

四。可概括的环境目标:我们如何才能创造出这样一个系统,它能有亚博体育苹果app官方下载力地追求根据环境状态确定的目标,而不是直接根据感官数据确定的目标?

5个。保守的概念:如何训练分类器开发排除高度非典型示例和边缘案例的有用概念?

6。影响措施:什么样的规章制度能够激励一个系统去追求它的目标而产生最小的副作用?亚博体育苹果app官方下载

7号。轻微的优化:我们如何设计系统来追求他们的目标,“不亚博体育苹果app官方下载太努力”——当目标已经很好地实现时停止,而不是花费更多的资源去寻找实现绝对最优期望得分的方法?

8个。避免工具性激励:我们如何设计和培训系统,使其在操纵和欺骗运营商、争夺稀缺资亚博体育苹果app官方下载源等方面明显缺乏默认动机?

尽管歧义识别学习者被设计来预测他们可能遇到边缘情况的潜在方式,并在这些情况下遵从人类操作,但保守学习者被设计来在边缘情况下安全地犯错。如果一个烹饪机器人注意到冰箱里的食物不足,它应该试着煮猫吗?模棱两可的识别方法说,要注意什么时候回答“猫是食物吗?“还不清楚,请停下来咨询人类操作员;保守的概念方法是假设猫在不确定的情况下不是食物,因为烹饪机器人低估食物的数量比高估食物更安全。然而,人们如何将这种推理形式化仍不清楚。

影响措施为限制人工智能事故的潜在范围提供了另一条途径。如果我们能够定义一些“影响”的度量标准,我们就可以设计出能够直观地区分高影响和低影响的系统,并且通常选择低影响的选项。亚博体育苹果app官方下载

另一种选择是,我们可以设计“温和”的系统,而不是设计尽可能努力工作以获得亚博体育苹果app官方下载低影响的系统。限制系统将投入决策的资源(通过轻度优化)与限制系统亚博体育苹果app官方下载将决定引起的更改的数量(通过影响度量)是不同的;这两种方法都没有得到充分的研究。

最后,我们将探讨在“避免工具性激励”的保护伞范畴下,防止违约制度激励对经营者不利的各种不同方法。我们同时追求所有这些研究方向的希望是,结合这些特征的系统将比实现亚博体育苹果app官方下载其中任何一个特征的系统允许更高的置信度。这种方法也可以作为一种对冲,以防其中一些问题在实践中无法解决,并允许在一个问题上运行良好的想法重新应用到其他问题上。亚博体育官网

与其他研究议程的联系亚博体育官网

我们的新技术议程,2014年议程,以及人工智能安全中的具体问题“在将人工智能系统与人类利益结合起来的问题上,采取不同的方法,尽管他们提出的研究方向有相当一部分重叠。亚博体育官网亚博体育苹果app官方下载

我们把2014年的议程改为机器智能与人类利益协调的Agent基础(源自“将超级智能与人类利益结合起来”),以帮助人们了解它与我们的新议程的不同之处。原因在我们的讨论提前声明在“高级机器学习系统的校准”中,我们的新议程旨在帮助更接近高级人工智能的场景,并且相对直亚博体育苹果app官方下载接地从当代人工智能技术中派生出来,而我们的代理基础议程对于何时以及如何开发高级人工智能更不可知。

就像我们最近写,我们相信,发展一个高度可靠的推理和决策的基本形式理论“可以使先进人工智能系统的行为得到非常有力的保证——比许多人目前认为的可能强,在一个对最成功的机器学习技术了解甚少的时代,“没有这样的理论,人工智能的校准将是一项更困难的任务。亚博体育苹果app官方下载

“人工智能安全中的具体问题”的作者写道,他们自己的重点“是对现代机器学习系统中的实际安全问题的实证研究,我们相信这可能在短期和长期的各种潜在风险中非常有用。”ML议程(或密切相关的议程)的调整,但更多地指向在现有工作的基础上构建和在当前系统中查找应用程序。亚博体育苹果app官方下载

其中,代理基金会的议程可以说遵循的原则是“从最不了解的长期人工智能安全问题开始,因为这些问题似乎需要做的工作最多,最有可能严重改变我们对整个问题空间的理解,具体问题议程遵循的原则是“从目前最适用于系统的长期人工智能安全问题开始,因为这些问题最容易与人工智能研究界的现有工作联系起来。”亚博体育官网亚博体育苹果app官方下载

与“人工智能安全中的具体问题”相比,泰勒等人的新议程不太关注当前和近期的系统,但比“代理基金会议程”更注重ML。此图表有助于映射代理基础议程(纯文本亚博体育苹果app官方下载)、具体问题议程等主题之间的一些对应关系(斜体字),以及ML议程的对齐(大胆的)讨论:

与高可靠性相关的工作

  • 现实世界模型~可概括的环境目标~避免奖励黑客攻击
    • 归化归纳法
    • 本体识别
  • 决策理论
  • 逻辑不确定性
  • 文根反射

与误差容限有关的工作

  • 归纳模糊识别模糊识别~对分布变化的稳健性
  • 强健人类模仿
  • 知情监督~可扩展的监督
  • 保守的观念
  • 影响措施=家庭生活~避免负面副作用
  • 温和优化
  • 避免工具性激励
  • 安全勘探

“~”表示相似点和对应点(有时非常粗略),而“=”表示同一概念的不同名称。

例如,“现实世界模型”和“可推广的环境目标”都是为了使像AIXI这样的强化学习形式的环境和目标表示更加健壮,并且都可以被看作是避免奖励黑客的特殊策略。代理基础下我们的工作主要集中在正式议程的人工智能模型没有明确代理/环境系统设置边界(归化感应),而我们的工作在新的议程将更加关注世界模型的建设,规范的承认的目标环境而不是简亚博体育苹果app官方下载单的知觉(本体标识)。

有关这些研究主题之间关系的更充分讨论,请参见亚博体育官网泰勒等人的论文


注册以获得最新的MIRI技术结果

每发表一篇新的技术论文就会得到通知。