子系统亚博体育苹果app官方下载对齐

||分析


emmy嵌入式代理人

你想弄清楚一些东西,但你不知道该怎么做。

您必须以某种方式将任务分解为子计算。没有“思维”的原子行为;智能必须由非智能部件建立。

由部分制成的代理是所做的一部分反应性努力,因为代理可能必须推理这些部分的不可能的配置。

由零件制成是什么自我推理和自我修改甚至可能。

然而,我们主要在本节中讨论的是另一个问题:当代理由部件制成时,可能存在对手不只是在外部环境中,但在代理商内也是如此。

这种问题是子系统亚博体育苹果app官方下载对齐:确保子系统不在交叉目的工作;亚博体育苹果app官方下载避免为意外目标优化的子过程。

  • 良性诱导
  • 良性优化
  • 透明度
  • Mesa-Optimizers.


这是一种稻草代理设计:

具有认知和乐器子系统的吸管剂亚博体育苹果app官方下载

认知子系统只是希望准确的信仰。亚博体育苹果app官方下载乐器子系统使用这些信仰来追踪它在做的程度亚博体育苹果app官方下载。如果乐器子系统相对于认知子系统过于能力,它可能亚博体育苹果app官方下载决定尝试如所描绘的那样愚弄认知子系统。

如果认知子系统过于强烈,那么这也可能产生亚博体育苹果app官方下载不良成果。

该代理设计将系统的认知和工具子系统视为具有自己目标的离散代亚博体育苹果app官方下载理,这并不是特别逼真。但是,我们在本节中看到了线头头以交叉目的工作的子系统问题很难避免。亚博体育苹果app官方下载如果我们没有故意构建相关子系统,这是一个难的问题。亚博体育苹果app官方下载


避免启动想要不同事物的子代理的一个原因是我们想要的对相对规模的鲁棒性

一种方法是强大的规模如果它仍然有效,或者优雅地失败,因为您的规模功能。有三种类型:稳健性扩大;缩小稳健性;和对相对规模的鲁棒性

  • 稳健性扩大意味着如果在优化时变得更好,您的亚博体育苹果app官方下载系统不会停止表现得很好。检查这一点的一种方法是考虑如果AI优化的功能实际上是什么最大化。思考耶和华的法律

  • 缩小稳健性意味着如果您的系统仍然有效亚博体育苹果app官方下载不那么强大。当然,它可能会停止有用;但它应该安全地失败,没有不必要的成本。

    如果它可以亚博体育苹果app官方下载完全最大化某些功能,但您的系统可能会工作,但如果您近似是安全的?例如,如果它可以非常精确地学习人类价值,也亚博体育苹果app官方下载许系统是安全的,但近似使得它越来越错了。

  • 对相对规模的鲁棒性意味着您的设计不依赖于代理的子系统类似强大的子系统。亚博体育苹果app官方下载例如,(生成的对抗网络)培训如果一个子网络变得太强烈,因为不再有任何训练信号。

GaN训练

缺乏规模的稳健性不一定是杀死提案的东西,但是要意识到;缺乏规模的稳健性,你需要强烈的理由认为你是正确的规模。

对相对规模的鲁棒性对子系统对齐尤为重要。亚博体育苹果app官方下载具有智能子部分的代理人不应依赖于能够超越它们,除非我们有强烈的陈述为什么始终可能。


大局道德:旨在拥有一个统一的系统,不适用于自身的交叉目的。亚博体育苹果app官方下载

为什么有人会把代理人与零件相互反抗?有三个明显的原因:亚军指针, 和搜索

分配一个任务亚军可能是有效地找到解决方案的唯一方法。但是,子群计算不应该完全忘记大局!

旨在构建房屋的代理商不应启动一个仅关心建筑楼梯的子代理。

一个直观的冒失者是,尽管子系统需要拥有自己的目标,以便将问题分解为部分,但是特性需要亚博体育苹果app官方下载“点回来”强大地达到主要目标。

房屋建筑代理人可能旋转一个仅关心楼梯的子系统,但只关心楼梯的背景亚博体育苹果app官方下载房屋

但是,您需要以一种不仅仅是您的房屋建筑系统的方式执行此操作,其中有一个在其头部的第二个房屋建筑系统。亚博体育苹果app官方下载这让我带到下一个项目:


指针:子系统可能难以携带亚博体育苹果app官方下载全系统亚博体育苹果app官方下载与他们一起的目标,因为他们需要减少问题。然而,这种间接似乎鼓励不同的子系统激励措施的情况。亚博体育苹果app官方下载

正如我们在认知和乐器子系统的示例中看到的那样,我们一开始我们开始优化某种亚博体育苹果app官方下载期待,而不是直接反馈关于我们在实际重要的指标上做的事情,我们可能会产生歪曲激励 - 那是耶和华的法律。

我们如何要求子系统“do do x”而亚博体育苹果app官方下载不是“说服我正在执行x”的“说服我做x”,而不通过整个总体目标系统?

这类似于我们想要的方式继任者代理人以重量为值,因为它太难编写了值。但是,在这种情况下,学习较大代理的值也不会有任何意义;子系统亚博体育苹果app官方下载和子公司需要成为较小


它可能并不难以解决人类完全设计的子系统的子系统对齐,或者ai明确地旋转的子系统。亚博体育苹果app官方下载如果您知道如何避免设计不对准并强大地委派了你的目标,这两个问题似乎是可解脱的。

但是,似乎似乎可能如此明确地设计所有子系统。亚博体育苹果app官方下载在某些时候,在解决问题时,你就像你知道如何,你必须依赖一些试验和错误。

这将我们带到第三个原因子系统可能是优化不同的东西,亚博体育苹果app官方下载搜索:通过透过丰富的可能性来解决问题,这本身可能包含错位的子系统。亚博体育苹果app官方下载

足够强大的搜索可能导致子系统未对准亚博体育苹果app官方下载

ML研亚博体育官网究人员非常熟悉这一现象:编写一个节目更容易为您找到高性能机器翻译系统,而不是直接写一个。亚博体育苹果app官方下载

从长远来看,这个过程可以进一步走一步。对于丰富的问题​​和令人印象深刻的搜索过程,通过搜索发现的解决方案本身就是智能优化某物。

这可能是偶然发生的,或被故意设计成作为解决困难问题的策略。无论哪种方式,它都有一个很好的机会,加剧了Goodhart型问题 - 你现在有效地有两个可能的错位机会,你以前有一个。

这个问题在亨格林格等人中描述了“高级机器学习系统中学到的学习优化风险亚博体育苹果app官方下载“。

让我们调用原始搜索过程基础优化器,并通过搜索找到的搜索过程Mesa优化器

“Mesa”与“meta”相反。虽然“元优化器”是一个旨在生产新优化器的优化器,但是“Mesa-Optimizer”是由原始优化器产生的任何优化器 - 是否程序员通缉他们的基础优化器正在寻找新优化器。

“优化”和“搜索”是含糊不清的条件。我会将它们视为任何可以自然地解释为执行重要的计算工作的任何算法,以“查找”对某些客观函数高度评分的对象。

目标职能基本优化器不一定与MESA优化器的结果相同。如果基础优化器想要制作披萨,新优化器可以享受揉面团,切碎的成分等等。

新的优化器的目标函数必须是乐于助人对于基础目标,至少在示例中,基本优化器正在检查。否则,不选择MESA优化器。

但是,MESA优化器必须以某种方式减少问题;无法再次运行完全相同的搜索点。所以它似乎它的目标往往会像好的启发式;更容易优化,但与基础目标不同。

如果新的优化器在基本目标上得分高度评分,为什么基地目标和台面目标之间可能会有所差异?这是关于与真正想要的相互作用。即使我们得到价值规范完全正确,总会有一些分布转移在训练集和部署之间。(见Amodei,等。的“AI安全的具体问题“。)

在普通情况下,在普通情况下的分布换档可能会对有能力的MESA优化器产生很大的差异,这可能会观察到轻微的差异并弄清楚如何为自己的目标进行资本化。

实际上,甚至使用“分布转移”一词似乎是错误的嵌入式机构。世界不是I.I.D.“没有分布转移”的模拟将是有一个与您想要优化的内容相关的整个未来的确切模型以及能力跑过来在训练中。所以我们需要处理大规模的“分布转移”。

我们可能还希望优化不完全是我们想要的东西。避免代理商在整体目标成本上追求子公司的显而易见的方法是让子系统不是代理人。亚博体育苹果app官方下载只需搜索一堆方式来制作楼梯,不要让某些人关心楼梯。

问题是,强大的台面优化器正在优化基础系统不关心的东西,并且台面优化器将具有常规激励为代理商。亚博体育苹果app官方下载

Additionally, there’s the possibility that the mesa-optimizer becomes aware of the base optimizer, in which case it might start explicitly trying to do well on the base objective function purely in order to be kept around, while looking for any signs that it has left training and can stop pretending. This creates a version of Nick Bostrom’s “奸诈“。

这是我们看到的同一个故事对抗古老:搜索空间中有一些代理人,这响应我们选择代理的代理,这使我们的代理是一个坏人。

在培训期间,在培训期间,您可能会尝试避免危险的转变,反复模拟培训期间的“培训结束”,以一种嵌套梦想设置。目标是测试足够的模拟层,您可以在真实部署案例中结束,在真正的部署情况下不会有危险的转弯。

模拟部署

不幸的是,这种学习的融合将是穷人。通常在机器学习中,良好的性能意味着良好的平均例子。但是危险的回合是一个“错误”,可以仔细地放置到做最多的伤害。我们希望确保这不会发生。

部分问题是,一些输出比其他输出要重要得多。部署比培训更重要,部署期间的某些关键或脆弱的时刻将尤为重要。我们希望特别肯定会获得重要的事情,而不是获得低平均损失。

但是我们无法通过告诉系统重要事项来解决这个问题。亚博体育苹果app官方下载事实上,似乎我们希望它无法想象出来 - 我们正在能够在更重要的情况下从表现概括到更重要的案件。这就是为什么研究ml的原亚博体育官网因技术这避免了罕见的灾难(或“陷阱”)与确保MESA优化器与基本优化器对齐的问题相关。

很难信任任意代码 - 这是富型模型类的模型仅基于经验测试。考虑高度简化的问题:我们想找到一个只输出\(1 \)的程序。\(0 \)是一种灾难性的失败。

如果我们可以自己检查代码,这个问题很容易。但是机器学习的产量往往难以分析;所以让我们假设我们根本无法理解代码。

现在,在某种意义上,我们可以更多地信任更简单的功能。短片代码不太可能包含硬编码的异常。让我们量化。

考虑所有长度的所有程序集(l \)。一些程序\(p \)将长时间打印\(1 \),但然后打印\(0 \)。我们正试图避免这种情况。

调用Time-to-Fizo \(w_ {p})。(\(w_ {p} = \ infty \)如果程序\(p \)是值得信赖的,即,如果它永远不会输出\(0 \)。)

所有长度的最高有限\(w_ {p} \) - \(l \)程序是繁忙的beaver函数的一种形式,因此我将把它引用为\(bb(l)\)。如果我们完全确定长度的随机计划\(l \)是值得信赖的,我们需要观察该计划的\(bb(l)\)。

现在,关于Busy Beaver函数的事实是\(bb(n)\)比任何可计算函数更快地增长。因此,在最坏的情况下,这种经验信托建设需要无明显漫长的措辞。

平均案例怎么样?

如果我们假设所有其他长度 - \(l \)程序轻松案例,则存在呈指数级的长度 - \(l \)程序,因此平均值是\(bb(l)\ / \ \ mathrm {exp}(l)\)。但是指数是可计算的。所以\(bb(l)\ / \ \ mathrm {exp}(l)\)仍然比任何可计算函数更快。

因此,在使用短节目的同时使我们对理论有一些信心,因此形成关于行为的广义结论的难度随着长度的函数而迅速地增长。

如果长度限制不那么实用,可能限制计算复杂性可以帮助我们?直观地,MESA优化器需要时间来思考,以便成功地执行危险的转弯。因此,一项速度结论的计划可能更值得信赖。

然而,遗憾的是,限制复杂性课程不会围绕忙碌的海狸类型行为。在输出\(0 \)之前等待长时间的策略可以进一步放慢下来,只有稍长的程序长度\(l \)。


如果所有这些问题似乎太假设了,请考虑地球上生命的演变。进化可以被认为是生殖健身最大化器。

(Evolution can actually be thought of as an optimizer for many things, or as no optimizer at all, but that doesn’t matter. The point is that if an agent wanted to maximize reproductive fitness, it might use a system that looked like evolution.)

智能生物是迈马优化器的进化。虽然智能生物的驱动肯定与生殖健身有关,但生物想要各种各样的东西。甚至有Mesa-Optimizers甚至要了解进化,甚至有时操纵它。强大且未对齐的MESA优化器似乎是一个真正的可能性,那么,至少有足够的处理能力。

出现问题似乎是因为你试图解决你尚未知道如何通过搜索解决问题的问题空间并希望“有人”可以解决它。

如果问题的来源是通过大规模搜索解决问题的解决方案,也许我们应该寻找不同的方法来解决问题。也许我们应该通过难以解决问题来解决问题。但是如何解决您尚未知道的问题,而不是通过尝试的东西来解决


让我们走一步。

嵌入式世界型号关于如何作为嵌入式代理人思考;决策理论是关于如何采取行动。强大的代表团是关于构建值得信赖的继承者和帮助者。子系统亚博体育苹果app官方下载对齐是关于建设代理商不受标准部分

嵌入式机构

问题是:

  • 我们不知道如何在我们的时候考虑环境较小
  • 在我们的范围内能够这样做,我们不知道如何思考行动的后果在这些环境中。
  • 即使我们能做到这一点,我们也不知道如何思考我们是什么
  • 即使我们没有这些问题,我们也不知道如何可靠地输出动作这让我们得到了我们想要的!

这是斯科特盖拉德坦特和亚伯兰德斯基的倒数第二篇文章嵌入式机构顺序。结论:嵌入式好奇心。