我们的2018年筹款活动正在进行中!!

强大的代表团

γγ分析


自我完善

因为世界很大,代理人本身可能不足以实现其目标,包括思考能力。

因为代理的是做的部分,它可以提高自己,变得更有能力。

改进可以采取多种形式:代理可以制作工具,代理可以让继任者代理,或者经纪人可以随着时间学习和成长。然而,继任者或工具需要更有能力实现这一目标。

这产生了一种特殊类型的委托/代理问题:

稳健委托中的三个委托代理问题

你有一个最初的代理,以及接班人。初始代理将精确地决定后续代理的外观。接班人,然而,比最初更聪明和强大的代理。我们想知道如何有继任者代理强劲优化初始代理的目标。

问题不仅在于后续代理可能是恶意的。问题是,我们甚至不知道“不”意味着什么。

这个问题似乎很难从两个观点。

接班人

最初的代理需要找出可靠和值得信赖的更强大的比,这似乎很难。但继任者代理必须找出在什么情况下,最初的代理甚至不能理解,试着尊重接班人可以看到的目标不一致的,这看起来也很难。

起初,这看起来不像是一个基本问题”做决定”或“”有模特”。但视图有多种形式的“建立继任者问题是一个二元视图。

对于嵌入式代理,未来的自己没有特权;这只是另一个环境的一部分。没有建立一个继任者,深区别股票你的目标,只是确保你自己的目标随时间保持不变。

所以,虽然我谈论““初始”和“继任者代理人,请记住,这不仅仅是关于人类目前面临的以继任者为目标的狭隘问题。这是关于作为代理人的基本问题,随着时间的推移,代理人会坚持和学习。

我们称之为集群的问题强大的代表团。示例包括:


想象你玩赛尔游戏和一个蹒跚学步的孩子在一起。

黄道眉鹀意味着合作逆强化学习。黄道眉鹀背后的理念是为机器人定义意味着什么与人合作。机器人试图挑选有益的行动,同时试图找出人类想要什么。

学习价值

通常,我们从人的角度来考虑这个问题。但是现在考虑机器人面临的问题,他们试图帮助很困惑关于宇宙的人。想象一下试图帮助一个蹒跚学步的孩子优化他们的目标。

  • 从你的观点来看,孩子可能太不理性被视为优化。
  • 孩子可能本体的优化,但是你可以看到本体没有意义。
  • 也许你注意到如果你用正确的方式提出问题,你可以让孩子似乎几乎任何东西。

部分问题是帮助”代理必须是更大的在某种意义上,为了更有能力;但这似乎意味着帮助”代理人不可能是帮手。

儿童和成人

例如,,updateless决策理论通过以下方法消除决策理论中的动态不一致性:而非期望效用最大化你的行动鉴于你知道什么,期望效用最大化反应观察结果,从一个状态无知

这可作为一种实现反射一致性的方式而具有吸引力,它创建了一个奇怪的情况在计算复杂性方面:如果行动类型\ (\),和观察类型\ (O \),反应观测类型\ (O \ \)——一个更大的空间来优化比独自\ (\)。我们期待我们的自己就能做到这一点!!

这似乎很糟糕。

更清楚地说明问题的一种方法是:我们应该相信我们的未来自我是运用其智慧的追求我们的目标没有能够准确地预测我们未来的自我将会做什么。这个标准称为文根反射

例如,你可以计划你的行驶路线在参观一个新城市,但你不计划你的步骤。你计划某种程度的细节,和信任,未来的自己可以算出休息。

Vingean反射检查通过经典的贝叶斯决策理论是困难,因为贝叶斯决策理论假设逻辑全知。鉴于逻辑全知,假设”代理人知道其未来的行为是合理的是假设的同义词代理知道未来的自己会根据一个特定的最优政策的代理可以提前预测”。

我们有一些有限的Vingean反射模型(参见)”瓷砖变为无效来人工智能代理,和Lobian障碍”Yudkowsky和赫列斯果夫倍烧)。成功的方法必须在两个问题之间走一条窄线:

  • Lobian的障碍因为信任自己推理的输出而信任自己未来的代理人是不一致的。
  • 拖延悖论:信任自己未来的代理人没有原因往往是一致的但不健全的和不可靠的,和永远推迟任务,因为他们可以做他们。

迄今为止,Vingean反射结果仅适用于有限种类的决策过程,如满足者瞄准一个阈值的可接受性。所以有很多改进的余地,让瓷砖的结果更有用的决策程序,在较弱的假设条件下。

然而,有更强大的代表团的问题不仅仅是瓷砖和Vingean反射。

当你构建另一个代理,,而不是委托给未来的自己你更直接面对的问题值加载

这里的主要问题:

misspecification-amplifying效应被称为古德哈特定律,命名的查尔斯·古德哈特的观察:“一旦为了控制目的施加压力,任何观察到的统计规律将趋于崩溃。””

当我们指定一个目标优化,它是合理的期望与我们需要高度相关,在某些情况下。不幸的是,然而,这并不意味着优化会让我们更接近我们want-especially高水平的优化。


至少有四类古德哈特及,因果,极值,和敌对的。

回归古德哈特

回归古德哈特当代理和目标之间存在不完美的关联时发生。这是通常被称为优化器的诅咒,它回归到平均水平有关。

的无偏估计\ (Y \) \ (X \)不是一个无偏的估计\ (Y \)当我们选择最好的\ (X \)。从这个意义上说,我们可以期待感到失望当我们使用\ (X \)代替\ (Y \)为优化目的。

无偏估计

使用贝叶斯估计代替无偏估计,我们可以消除这种可预见的失望。

贝叶斯估计

这并不一定允许我们获得更好的值,因为我们仍然只有\ (X \)的信息内容。然而,有时可能会。如果\ (Y \)正态分布方差\ (1 \)和\ (X \) \ (Y \ pm10 \)连的几率\(+ \)或\ (\),贝叶斯估计通过几乎完全消除噪声将给出更好的优化结果。

因果古德哈特

因果古德哈特当你观察一个代理之间的相关性和目标,但当你介入增加代理时,你不能增加目标因为观察到的相关性没有因果以正确的方式。取笑相关性除了因果关系是普通的反事实的推理。

极值古德哈特

极端古德哈特,优化使你存在的关联范围外,成部分的分布,表现的很不一样。这是特别可怕,因为它往往相移。你可能无法观察代理分解弱优化时,但是一旦优化变得足够强大,您可以输入一个截然不同的领域。

极值Goodhart类似于回归Goodhart,但是如果我们没有正确的模型,我们就不能用贝叶斯估计来校正它,否则,似乎没有理由贝叶斯估计量本身不应该容易极值古德哈特。

如果概率分布\(Q(y)\使得代理(X)平均仅是(Y)的有界坏近似,,quantilization通过\Q(y|xgeq c)\随机选择某个阈值\c\来避免极值Goodhart。如果我们选择一个阈值,高但不极端,我们可以从局外人希望选择的风险有不同的行为会很小,而这个“Y”很可能很大。

Quantilizer

这很有帮助,但与贝叶斯估计及古德哈特,不一定像故事的结局。也许我们可以做得更好。

敌对的古德哈特

最后,有敌方古德哈特,所代理积极让我们的代理更糟智能操纵它。这是更难观察较低的优化级别,两者都是因为对手在测试时间结束之前不想开始操纵,因为对手来自系统的优化才出现的优化是足够强大。亚博体育苹果app官方下载

这些不同类型的Goodhart效应以非常不同的方式工作,而且,粗略地说,它们往往开始出现在连续的更高级别的优化能力上,所以要小心不要认为您已经征服了Goodhart定律,因为您已经解决了其中的一些问题。


除了反古德哈特措施之外,显然,能够精确地指定我们想要的内容会有所帮助。

不幸的是,这很难;所以我们建立的人工智能系统能亚博体育苹果app官方下载帮助我们吗?更普遍的是,继任者代理能帮其前身解决这个?也许它能够利用它的智力优势找出我们想要的??

AIXI学习如何通过奖励信号从环境中。我们可以想象人类有一个按钮,按当AIXI他们喜欢的东西。

问题在于AIXI将其智能控制问题的奖励按钮。这是问题航向

也许我们建立奖励按钮进入之内代理,作为一个黑盒,奖励的基础上发生了什么问题。这个盒子可以是智能子代理在它自己的权利,这数据出人类想要给奖励。这个盒子甚至可以通过惩罚旨在修改盒子的行为来保护自己。

最后,不过,如果代理了解情况,它将激励控制。

在优化之间有一个关键的区别\(())在引号和优化直接\ (U () \)。如果代理提出计划,试图达到一个高的输出这个盒子,它包含了其计划不确定性关于盒子的输出,然后它会想破解。然而,如果通过实际框运行计划的预期结果,然后计划攻击盒评估当前盒、所以他们看起来不特别吸引人。

丹尼尔·杜威调用第二个代理的一个observation-utility达到极大。(包括其他observation-utility代理在一个更一般的强化学习的概念。)

我发现它非常有趣的你可以尝试各种各样的东西如何阻止RL代理有经验玩家,代理还在继续工作着。然后,你转向observation-utility代理问题就消失了。

似乎间接方式本身就是问题。RL代理最大化盒子的输出;观察-效用代理最大化\U()\因此,挑战在于创造稳定指向我们的价值:“间接”这是没有直接可以优化的点值。

Observation-utility代理解决经典的有经验玩家问题,但是,我们仍然存在指定(U()的问题。所以我们在添加一个间接层:我们代表不确定性\(U()\)并试着学习。丹尼尔·杜威没有就如何做到这一点提供任何建议,但黄道眉鹀就是一个例子。

不幸的是,有经验玩家问题可以以更糟糕的方式回来。例如,如果有一种药物修改人类偏好使用药物,只关心CIRL代理人可能会非常积极地给人类提供这种药物,以使其工作更容易。这就是所谓的人类操纵问题。


教训我想从这是””强化学习与一个损坏的奖励通道”(汤姆·埃维里特et al .):你设置反馈回路产生巨大的差异。

他们画了以下图画:

标准和分离RL

  • 在标准RL中,关于状态值的反馈来自状态本身,所以腐败的国家可以自我强化。
  • 在RL分离,反馈的质量状态来自于其他国家,即使某些反馈被破坏,也能够学习正确的值。

在某种意义上,挑战在于要原创,小代理反馈回路以正确的方式。然而,前面提到的无更新推理的问题使这个问题变得困难;原来的代理不知道足够了。

解决这个问题的一种方法是智能放大试着把原来的代理变成一个具有相同值的更有能力的代理,而不是从头开始创建一个继任者代理和试图让加载正确的值。

例如,保罗global提出一个方法的小代理多次模拟在一个大的树,可以通过把问题分解为部分

然而,这仍然是相当小的代理要求:它不仅仅需要知道如何把问题分解成更容易处理的块;它还需要知道如何没有引起恶性子运算。

例如,自从小代理可以使用的副本本身的计算能力,它可以很容易地试图用蛮力搜索解决方案,最终运行与古德哈特定律。

这个问题是下一节的主题:子系统亚博体育苹果app官方下载对准


这是阿布拉姆·德姆斯基和斯科特·加拉布兰特的嵌入式代理序列。继续下一部分

你喜欢这篇文章吗??你可以享受我们的其他分析帖子,包括: