关于人体模型的思考

||分析

这是一个联合后通过MIRI副研究员和DeepMind研究员亚博体育官网拉玛纳Kumar和MIRI研究员斯科特Garrabrant,从交叉贴AI对准论坛LessWrong


人的价值和喜好是很难规定,特别是在复杂的领域。因此,很多AGI安全研究都集中在引用人的价值观和偏好的方法亚博体育官网来设计的AGI间接地,通过学习一个基于人类价值观表达的模型(通过陈述的偏好、观察到的行为、认可等)和/或生成这些价值观表达的真实世界的过程。此外,还有一些方法旨在模拟或模仿人类认知或行为的其他方面,但没有明确的目标是捕捉人类的偏好(但通常是为了最终满足这些偏好)。让我们把所有这些模型称为人体模特

在这篇文章中,我们讨论了对使用人体模型的AGI设计保持谨慎的几个原因。我们建议AGI安全研究团体在开发没有人体模型的方法以及依赖人体模型的方法时,投入更多的精力。这将是对当前安全研究领域的一个重大补充,特别是如果我们专注于制定和尝试具体的方法,而不是发展理亚博体育官网论。我们也承认避免人类模型看起来很困难的各种原因。

与人体模型的问题

为了清楚地了解人类模型,我们粗略地区分了我们的实际偏好(我们可能无法完全获得)和评估我们偏好的程序。第一件事,实际的偏好,是人类在思考时真正想要的。满足我们的实际偏好是一种胜利。第二件事,评估偏好的程序,是指我们实际偏好的各种代理,比如我们的认可,或者我们认为好的东西(信息或思考时间必然有限)。人类模型属于第二类;举个例子,考虑一个高度精确的ML模型,即人类对结果描述集的是/否批准。我们的第一个担忧,如下所述,是关于过度适合人类的认可,从而打破它与我们的实际偏好的联系。(这是古德哈特定律的一个例子。)

减独立审计

试想一下,我们已经建立了一个AGI系统,我们希望用它来设计亚博体育苹果app官方下载的公共交通系统,一个新的城市。与此类项目有关的安全问题是公认的;假设我们尚不能完全确定,我们已经解决了他们,但有足够的信心去尝试呢。我们在对一些假城市输入亚博体育苹果app官方下载数据的沙箱中运行的系统,并检查其输出。然后,我们对一些稀奇古怪的假城市的数据运行,以评估鲁棒性分配转变。该AGI的输出看起来合理的交通运输系统的设计和考虑,包括参数,指标和其他有关证据,他们是很好的亚博体育苹果app官方下载。我们应该感到满意,并准备运行在真正的城市的数据系统,并实施所产生的建议设计?亚博体育苹果app官方下载

我们认为,回答这个问题的一个重要因素是AGI系统是否使用了人类建模。亚博体育苹果app官方下载如果它能在没有人类模型的情况下为交通设计问题(人类认可的)提供一个解决方案,那么我们就更容易相信它的输出。如果它提出了一个我们认可的解决方案与人类造型,那么尽管我们预计输出将在约好的交通系统设计的许多方面(我们的实际喜好),并在该适合于批准人类多种方式,在某种程度上,这两个指标来分开我们必须担心有过度亚博体育苹果app官方下载拟合到在良好的设计牺牲人体模型。(为什么不是其他方式呢?因为我们的沙盒结果的评估使用人的判断,不是一个独立的度量我们的实际喜好的满意度。)

人类有没有听错设计的质量,更别说被愚弄它的偏好。多少钱,我们要依靠已经正确地捕捉在我们的系统中的这些偏好?亚博体育苹果app官方下载如果系统建模人亚博体育苹果app官方下载类,我们强烈地依赖系统学习和满足这些喜好,否则我们期望被愚弄的是好看,但实际上糟糕的交通系统的设计更容易比实际好设计组成的程度。在另一方面,如果系统没有建模人类,那么实际上它的输出亚博体育苹果app官方下载看起来像一个良好的设计是更好的证据表明,它实际上是一个很好的设计。Intuitively, if we consider sampling possible outputs and condition on the output looking good (via knowledge of humans), the probability of it being good (via knowledge of the domain) is higher when the system’s knowledge is more about what is good than what looks good.

这里有一个解决这个问题的方法:希望独立审计系统的输出。亚博体育苹果app官方下载当系统使用人的亚博体育苹果app官方下载造型,相互信息在它的输出和审计过程(人的判断)之间是更高的。因此,使用人工模型会降低我们进行独立审计的能力。

避免人体模型并不能完全避免这个问题。仍然有一个“外环优化”版本的问题。如果系统在沙箱中产生一个奇怪的或有缺陷的设计,并且我们在审计过程中发现了这个问题,那么我们可能会拒绝该解决方案,并尝试调试产生它的系统。这会导致对整个过程(在审计和调试阶段涉及系统的多个版本)的偏见,倾向亚博体育苹果app官方下载于欺骗审计过程的输出。

然而,外环优化压力较弱,因此同样令人担忧,比环优化的压力。我们会认为这个问题是非常糟糕的,即朝向愚弄偏强,当一个使用人体模型。这是因为相关的优化是在环代替并且遇到更频繁。

作为一个更比喻来说明这一点,考虑应试教育的经典古德哈特定律的例子。如果你研究的材料,然后去考试,你的测试成绩表明你对教材的知识相当好。如果你不是研究过去的测试,测试成绩表明您通过考试的能力,这可能与你的材料的知识相关,但越来越不太可能使你的分数上升有关。这里人的造型类似于过去的测试和实际偏好类似的材料。以测试类似于审计,这是我们希望独立于研究方案。

错误的风险

我们可能会错误地执行我们的第一个AGI系统在一个平凡的意义。亚博体育苹果app官方下载特别是,即使我们充分发挥安全或对齐AGI的理论,我们可能无法实现这一理论由于错误或问题,我们的实现技术。在这种情况下,我们会相对更好,如果AGI的知识和人的喜好之间的互信息是低的。我们预计该系统的行为依赖于它亚博体育苹果app官方下载在某些方面的知识,我们希望实现的错误,从我们的意图和期望的转变,依赖的性质了。依赖于人的喜好不正确的行为似乎比不正确的行为是不更危险。

考虑AGI系统实现的空间,下一个度量信息,如相似的预亚博体育苹果app官方下载期设计(等同:从设计由于错误偏差的严重性)。我们希望我们建立是安全的,因为我们可以用一个稍微不同的设计比预期等原因而被混淆关于我亚博体育苹果app官方下载们正在做什么或作出的执行错误结束第一AGI系统附近的所有点。

至少有三种方式从错误的风险才能体现。

不正确编码值:假设我们打算在第一次使用AGI的是解决一些束缚和良好的特定的任务,但我们误解或错误执行它,以至于我们用实际无粘结部分优化目标函数结束。然后,它似乎更好,如果这一目标是抽象的东西就像解谜,而不是更多的东西直接连接到人的偏好考虑,作为玩具例如,如果符号(正/负)周围的目标是错误的。

操纵:早期关于独立审计的论证不仅适用于我们计划审计的特定任务,还适用于AGI系统可能执行的、人类可能不赞成的任何活动。亚博体育苹果app官方下载例如,设法侵入我们本应安全的系统,对我们隐藏其意图和活动,或直接操纵我们。亚博体育苹果app官方下载有了一个良好的人类心理模型,这些任务就容易得多。这个模型可以用来推断我们可能会犯什么错误,或者我们可能会忽略什么漏洞,或者我们可能会对系统中的不同行为做出怎样的反应。亚博体育苹果app官方下载

在设计空间中,人体造型与人体操纵非常接近。一个拥有精确的人类模型的系统接近一个成功地利用这些模型操纵人类的系统。亚博体育苹果app官方下载

威胁:从错误另一个风险不是来自于AGI系统错误地关心我们的价值观,但其安全性不足。亚博体育苹果app官方下载如果我们的价值观在一个AGI系统精确地编码,大约满足他们的关心,他们成为从谁可以操纵第一系统获亚博体育苹果app官方下载得其他行为威胁的目标。在这个问题上更多的例子和观点进行了说明在这里

从人体建模的bug的风险增加可以总结如下:即AGI系统产生灾难性的后果,由于错误的任何风险,最坏的结果似乎更有可能,如果系统是使用人体模型的培训,因为这些最坏的结果取决于信息亚博体育苹果app官方下载在人体模型。

更少的独立审计,并从错误的风险既可以通过保留从人体模型信息系统的独立性得到缓解,因此系统不能过度拟合该信息或刚愎使用它。亚博体育苹果app官方下载我们认为剩下的两个问题,头脑犯罪和意想不到的代理商,在很大程度上依赖的说法,模拟人类的偏好会增加模拟一些类似人类的机会。

思想犯罪

很多计算可能产生在道德上是相关的,因为,例如,它们构成众生那段经历痛苦或快乐的实体。博斯特伦来电治疗不当这样的实体“心灵犯罪”。以某种形式建模人类似乎更容易导致比不是建模他们这样一个计算,因为人类在道德上是相关的,人类的系统的模型,最终可能共享的任何特性使人类道德相关。亚博体育苹果app官方下载

意想不到的代理

与上面提到的精神犯罪观点类似,我们认为使用人类建模的AGI设计更有可能产生类似于代理的子系统,因为人类是类似于代理的。亚博体育苹果app官方下载例如,我们注意到试图预测结果主义推理机的输出可以简化为结果主义推理机的优化问题。一个亚博体育苹果app官方下载被设计用来很好地预测人类偏好的系统似乎更有可能遇到与不一致的子代理相关的问题。(尽管如此,我们认为它更有可能的数量是小的。)

没有人体模型的安全AGI被忽略

鉴于独立审计的关注,加上附加分以上提到的,我们希望看到实际的办法做更多的工作来开发不依赖于人体建模安全AGI系统。亚博体育苹果app官方下载目前,这是在AGI安全研究景观被忽视的领域。亚博体育官网具体来说,形式的作品“这里有一个建议的方法,这里是接下来的步骤来尝试,或进一步调查”,这是我们长期可能工程研究亚博体育官网,几乎完全是在人类建模的背景下完成的。我们确实看到一些避开人体模型的安全工作,它往往是理论研究亚博体育官网例如,MIRI关于代理基础的工作。这并不能填补没有人体模型的以工程为重点的安全工作的空白。

为了充实差距的主张,请考虑安全研究中下列各项工作的常用公式:迭代蒸馏和放大、辩论、递归奖励建模、合作逆强化学习和价值学习。亚博体育官网在每种情况下,方法的基本设置中都内置了人工建模。然而,我们注意到,在某些情况下,这些领域的技术结果可以在没有人工建模的情况下移植到设置中,如果将人工反馈源(等等)替换为纯粹的算法的、独立的系统。亚博体育苹果app官方下载

一些现有的工作,不依赖于人体建模,包括公式安全代理中断中,该制剂影响措施(要么副作用),接近涉及有明确的正式规范(例如,工具认可的某些版本),甲骨文认可的一亚博体育苹果app官方下载些版本,和拳击/壳建筑物AI系统。虽然他们不依赖于人的造型,其中的一些办法还是让最有意义的方面,其中人体模型正在发生的事情:例如,影响的措施似乎使最有意义的,这将在现实世界中直接代理经营,而这种代理商很可能需要人体模型。然而,我们希望看到所有这些类型的更多的工作,以及新技术,构建安全的AGI是不依赖于人的造型。

在避免人为模型困难

一种可能的原因,我们还没有看到关于如何构建安全的AGI无需人工造型,这是很难大量的研究。亚博体育官网在本节中,我们将介绍一些独特的方法,使这是困难的。

有用性

如何使用一个不适合人体建模的系统并不明显。至少,这并不像那些进亚博体育苹果app官方下载行人体建模的系统那么明显,因为它们直接利用有用行为的信息来源(如人类偏好)。换言之,目前尚不清楚如何解决规范问题,即如何在没有人为建模的情况下,在复杂领域中正确地指定所需(且仅指定所需)行为。“反对人类建模”的立场要求解决规范问题,其中有用的任务被转化为明确规定的、独立于人类的任务,要么由人类单独完成,要么由不建模人类的系统完成。

举例来说,假设我们已经解决了一些特定的、复杂的但与人类无关的任务,比如定理证明或原子精确制造。那么我们如何利用这个解决方案来创造一个好的(或更好的)未来呢?让每个人,甚至是少数人,都能使用超级智能系统,而这个系统并没有以某种方式直接编码他们的价值观,这显然并不能创造一个实现这些价值观的未来。亚博体育苹果app官方下载(这似乎与魏代有关人类安全问题。)

隐式人体模型

即使是看似“独立”的任务,也至少会泄露一些关于其人类动机起源的信息。再考虑一下公共交通系统的设计问题。亚博体育苹果app官方下载由于问题本身涉及到供人类使用的系统的设计,因此在指定任务时似乎很难完全避免对人类进行建模。亚博体育苹果app官方下载更微妙的是,甚至高度抽象或通用的任务,如解谜,也包含有关谜题的源/设计者的信息,特别是当它们被调整为编码更明显的以人为中心的问题时。(工作Shah等人。研究如何利用隐藏在这个世界中的人类喜好信息。)

规范竞争/做我想做的

我们知道,以优化目标(强化学习问题是一种特殊情况)的形式对任务进行明确的说明是不可靠的:我们关心的事情通常没有明确的说明。这是寻求越来越多的高层次和间接规范的动机之一,留下了更多的工作来弄清楚究竟应该对机器做什么。然而,目前很难看到如何在不模拟人的情况下将任务(定义模糊)转换为正确规范的过程自动化。

人类模型的绩效竞争力

这可能是人类建模是实现各种任务,高性能的最佳方式,我们希望AGI系统应用于其原因不是简单地做与理解问题以及规范。亚博体育苹果app官方下载例如,有可能是人类的认知方面,我们要在AGI系统更多或重复更少,竞争力在自动化的认知功能,而这些方面可能携带了很多关于他们的人偏好的信息了难以分离亚博体育苹果app官方下载道路。

没有人体模型该怎么办?

我们已经看到了支持和反对使用人体模型解决AGI安全问题的观点。回顾这些论据,我们注意到,在某种程度上,人体建模是一个好主意,很重要的是要做得很好;在某种程度上,它是一个坏主意,最好是根本不做。因此,是否进行人体建模是一个配置位,在考虑建立安全AGI的方法时,可能应该提前设置。

应该指出的是,上述论据并非旨在起决定性的作用,而且可能存在一些抵消性的考虑,这意味着尽管本文概述了风险,我们仍应促进使用人体模型。但是,如果有人体模型的AGI系统比没有人体模型的AGI系统更危险,我们可能会尝试两种广泛的干预方法。首先,通过推广一些研究路线,可能值得尝试降低先进人工智能“默认”开发人类模型的可能性。例如,在程序生成的虚拟环境中训练的人工智能似乎比在人工生成的文本和视频数据上训练的人工智能更不可能开发人体模型。亚博体育官网亚博体育苹果app官方下载

其次,我们可以专注于不需要人体模型的安全研究,这样,如果我们最终建亚博体育官网立的AGI系统在不使用人体模型的情况下具有很高的能力,我们就可以使它们更安全,而无需教它们建模人类。我们前面提到的一些此类研究的例子包括开发独立于人亚博体育苹果app官方下载类的方法来测量负面影响,防止规范博弈,建立安全的遏制方法,以及扩展以任务为中心的系统的有用性。

致谢:感谢丹尼尔Kokotajlo,罗布·本辛格,理查德翱翔,扬雷科,和Tim Genewein对这篇文章的草稿有益的意见。