嵌入式代理

||分析

假设你想建造一个机器人来为你实现一些现实世界的目标,这个目标需要机器人自己学习,找出很多你还不知道的东西。1

这里有一个复杂的工程问题。但也有搞清楚什么它甚至意味着构建学习型剂这样的问题。但什么是物理环境优化现实的目标?从广义上讲,它是如何工作的?

在这一系列文章中,我将指向四种方式我们目前知道它是如何工作的,以及活跃的研究四个方面旨在计算出来。亚博体育官网

这是阿列克谢和阿列克谢正在玩视频游戏。

阿列克谢二元代理

最喜欢的游戏,这个游戏有明确输入和输出通道。阿列克谢只有通过观察电脑屏幕的游戏,只有通过控制器操纵游戏。

游戏可以被认为是这需要在按下按钮的序列,并且在屏幕上输出的像素的顺序的功能。

阿列克谢也很聪明,能够拿着整个视频游戏他的脑海里。如果阿列克谢有任何不确定性,但仅限于经验事实就像他在玩什么游戏,而不是通过逻辑事实喜欢它的输入(对于给定的确定性游戏)将产生哪些输出。这意味着,阿列克谢也必须保存他的脑海里每一个可能的比赛他可以打。

阿列克谢不,但是,要想想自己。他只是优化了游戏,他是玩,而不是优化他使用去想比赛的大脑。他仍然可以选择的信息价值为基础的关动作,但是这仅仅是帮助他排除可能的比赛他是打,并没有改变他的思维方式。

事实上,阿列克谢可以把自己作为一个不变的不可分割原子。由于有关,阿列克谢没有他是否会随时间而改变,或任何子程序,他可能必须运行的担心,他不会在环境中存在,他的思想。

请注意,所有我讲的性质是部分的事实,阿列克谢被干净地从他是优化环境中分离出来成为可能。

这是艾美奖。艾美奖是玩现实生活中。

艾美奖的嵌入式代理

现实生活中并不像视频游戏。差异主要来自于事实,艾美奖是环境中,她试图优化。

阿列克谢认为宇宙作为一个功能,他通过选择输入到该功能导致比任何其它可能的输入,他可能会选择更大的奖励优化。艾美奖,而另一方面,不具备的功能。她只是有一个环境,这个环境包含了她。

艾美奖要选择最好的行动,但行动艾美奖选择采取仅仅是对环境的另一个事实。艾美奖CAN原因有关环境的一部分,那是她的决定,但由于只有一个艾美奖最终实际采取行动,目前还不清楚是什么,甚至手段艾美奖“选”的动作是比其他人更好。

阿列克谢可以拨开宇宙,看看会发生什么。艾美奖是宇宙戳本身。在艾美奖的情况下,我们如何正式“选择”在所有的想法?

更糟糕的是,既然艾美奖是由环境控制的,艾美奖也必须是比环境更小。这意味着,艾美奖是不能她的脑海中存储环境的准确详细车型。

这导致了一个问题:贝叶斯推理的工作原理是用一个大的集合可能的环境出发,如你发现有一些这样的环境中不一致的事实,你排除他们。是什么理由看,当你甚至不能存储单个有效假说世界的方式的作品是怎样的?艾美奖将不得不使用不同类型的推理,并做出不符合标准的贝叶斯框架的更新。

由于艾米是她操纵的环境中,她也将能够自我提升。但是艾美奖如何可以肯定的是,她学会更多的发现越来越多的方式来提高自己,她只能改变自己在实际上是有帮助的方法呢?她怎么可以肯定的是她不会改变她原来的目标,意想不到的方式?

最后,由于艾美奖包含在环境中,她不能把自己喜欢的原子。她是由相同的片出来该环境的其余部分是做出来的,这是什么使她能够去考虑她自己。

除了她的外部环境的危害,艾美奖将不得不担心来自内的威胁。同时优化,艾美奖可能会旋转起来等优化的子程序,无论是有意还是无意的。如果他们太强大,不亚博体育苹果app官方下载对齐与艾美奖的目标,这些子系统可能会出现问题。艾美奖必须弄清楚如何没有理由旋转起来智能化子系统,或以其他方式找出如何让他们弱,包含的,或与她的目标完全一致。亚博体育苹果app官方下载

艾美奖是混乱的,所以让我们回到阿列克谢。马库斯·特的艾希框架给出了如何剂,如阿列克谢工作奠定了良好的理论模型:

$$
a_k \;:= \;\ ARG \ {MAX_ a_k} \ {sum_ o_k r_k} \ {MAX_ A_ {K + 1}} \ {sum_ {X_ K + 1}}
... \ {MAX_ A_M} \ {sum_ o_m r_m}
[r_k + ... + r_m]
\ HSPACE {-1em} \ {HSPACE -1em} \ {HSPACE -1em} \ \ \ \总和_ {{Q} \,:!!! \,U({Q},{a_1..a_m})= {O-1 R_1 .. o_m r_m}} \ {HSPACE -1em} \ {HSPACE -1em} \ {HSPACE -1em} \!\!\!2 ^ { - \ ELL({Q})}
$$

该模型有一个代理和环境相互作用使用行为,观察和奖励。该试剂发出的动作\(一个\),然后环境发出既观察\(O \)和奖励\(R \)。此过程重复进行,每次\(K ...米\)在。

每个动作都是以前的动作观察奖励三元的功能。和每个观测和奖励是类似这些三元组和紧接在前的动作的功能。

您可以在此框架具有对环境的充分认识到它与交互想象的代理。然而,艾希是根据对环境的不确定性用于模型优化。艾希拥有所有可能的可计算的环境\(Q \),并选择操作的分布导致这种分布下高预期回报。因为它也关心未来的报酬,这可能会导致探索的信息价值。

在一些假设,我们可以证明确实艾希合理地在所有可计算的环境,尽管它的不确定性。然而,虽然环境是艾希与互动是可计算的,艾希本身是不可计算。该代理开出了不同种类的东西,更强大的类东西,比环境。

我们将调用像艾希和阿列克谢剂“二元”。它们存在的环境之外,与代理的东西和环境之间的东西,唯一的集互动。他们要求代理比环境大不倾向于模型的自我指涉的推理,因为代理是由不同的东西比什么有关代理的原因

艾希并不孤单。这些二元假设出现理性的机构都在我们目前最好的理论。

我建立艾希作为位箔的,但可以艾希也可以用作灵感。当我看着艾希,我觉得我真的能理解阿列克谢是如何工作的。这是什么样的理解,我想也有艾美奖。

不幸的是,艾美奖是混淆。当我谈到想有一个理论“嵌入式代理,”我的意思是我希望能够从理论上了解剂,如艾美奖工作。也就是说,嵌入他们的环境,从而内代理:

  • 不具有良好定义的I / O通道;
  • 比他们更小的环境;
  • 能够理由对自己和自我提高;
  • 并提出了类似的环境部分。

你不要以为这四种并发症的分区。他们非常互相纠缠。

例如,原因代理能够自我提高是因为它是由部分组成。和任何时间环境比该试剂足够大,它可能包含所述试剂的其它拷贝,从而破坏任何明确定义的I / O通道。

嵌入式代理之间的子问题有些关系

不过,我会用这四个并发症,激发嵌入式代理的话题分裂成四个子问题。这些是:决策理论嵌入式世界的模型强有力的授权子系统亚博体育苹果app官方下载对齐

决策理论是所有关于嵌入式优化。

二元优化的最简单的模型是\(\ mathrm {argmax} \)。\(\ mathrm {argmax} \)发生在一个函数从行动的奖励,并返回动作导致此功能下的最高奖赏。最优化可以被认为是这方面的一些变种。你有一定的空间;你从这个空间一定成绩,如奖励或效用函数;你想选择的输入的情况下,高度此功能的分数。

但是,我们刚才说的是什么意思,是一个嵌入式代理的很大一部分是你没有的功能环境。所以,现在我们该怎么办?优化显然是机构的重要组成部分,但我们不能说目前它是什么,甚至在理论上没有作出重大错误类型。

在决策理论的一些主要开放的问题包括:

  • 逻辑反事实:你怎么有理由什么发生,如果你采取行动B,因为你可以证明你反而会采取行动?A
  • 包括多个环境代理的副本药剂的,或可靠的预测。
  • 逻辑updatelessness,这是关于如何结合很不错,但很贝叶斯魏岱的世界updateless决策理论与逻辑不确定性的要少得多贝叶斯世界。

嵌入式世界模型是关于你如何制作一个好的模型,这个模型能够适应一个比世界小得多的代理。

这已被证明是非常困难的,首先是因为它意味着真正的宇宙是不是在你的假设空间,废墟大量的理论保障;第二,因为这意味着我们将不得不作出非贝叶斯更新,因为我们知道,这废墟一堆理论保证。

这也是有关如何从看在里面观察者的角度让世界的模型,以及由此产生的问题,如anthropics。在嵌入式世界模型的一些主要开放的问题包括:

  • 合乎逻辑的不确定性,这是关于如何与世界概率的世界相结合的逻辑。
  • 多层次建模,这是关于如何在不同层次的描述具有相同的世界多个模型,以及它们之间的过渡很好。
  • 本体论危机,这是当你意识到你的模型,甚至是你的目标,是使用不同的本体比现实世界中指定该怎么做。

强大的代表团是关于一种特殊类型的委托代理问题。您有希望做出更聪明的继任代理,以帮助它优化目标的初始代理。最初代理了所有的力量,因为它会决定什么继任代理进行。但在另一种意义上说,继任代理了所有的力量,因为它是很多,很多更聪明。

但从最初的代理点,问题是关于创建将有力不会使用其情报对你的继任者。但从继任代理点,问题是关于“你如何稳健地学习或尊重的东西是愚蠢的,可操作的目标,甚至没有使用正确的本体论?”

有来自未来的额外问题Löbian障碍因此无法始终如一地信任的东西,比你更强大。

你可以想想这些问题,在代理的情况下,这只是学习一段时间,或代理的范围内作出显著自强不息,或在代理这只是试图让一个强大的工具的情况下。

在强大的代表团的主要开放问题包括:

  • Vingean反思,这是关于如何推理和信任代理是比你聪明多了,尽管Löbian障碍信任。
  • 值学习,这就是继承代理如何学习初始代理的目标,尽管该代理的愚蠢和不一致。
  • 可以驯服,大约是初始代理如何能得到一个继任代理允许(或甚至帮助)的修改,尽管器乐激励都不到。

子系统亚博体育苹果app官方下载对齐是如何成为一个统一代理不具有正在打击你或对方子系统。亚博体育苹果app官方下载

当代理有一个目标,如“拯救世界”,它最终可能会花费大量的有关子目标的时间去思考,像“赚钱”。如果代理旋转起来一个子剂只是想赚钱,现在有两个代理具有不同的目标,这会导致冲突。子代理可能表明,像他们计划只要赚钱,但实际上毁灭这个世界,为了赚更多的钱。

问题是:你不只是担心剂子,你故意旋转起来。你也不必担心意外旋转起来剂子。你执行搜索或者在足够丰富的空间,这是能够包含代理优化任何时候,你必须了解自己在做优化的空间担心。这种优化可能不完全与优化外系统试图做的线,但它亚博体育苹果app官方下载有一个器乐激励像它的对齐。

在实践中,大量的优化使用这种扯皮的。你不只是找到一个解决方案;你会发现一个东西,能够给自己寻找一个解决方案。

从理论上讲,我不知道该怎么办优化在比看起来像发现了一堆东西,我不明白了,看它是否实现了我的目标方法全等。但是,这是这正是那种东西易纺起来对抗子系统。亚博体育苹果app官方下载

子系统对齐中的一个大的开放问题是如何拥有一个外部优化器亚博体育苹果app官方下载,而不是启动敌对的内部优化器。通过考虑内部优化器是故意的无意,并考虑优化的限制子类,像感应

但要记住:决策理论,嵌入式世界的模型,强大的代表团,以及子系统对准不是四个独立的问题。亚博体育苹果app官方下载他们是同一个统一的概念,它是所有不同的子问题嵌入式代理


这篇文章的第2部分将在未来几天内现身:决策理论


  1. 这是部分1嵌入式代理系列,亚伯兰Demski和Scott Garrabrant。