米里研究指南亚博体育官网

作者:奈特·苏亚雷斯



2019年3月更新:本研究指南自亚博体育官网2015年以来仅进行了少量更新。我们的新推荐适合那些想在网上工作的人AI对齐问题是:

  • 如果你有计算机科学或软件工程背景:申请参加我们的新课程人工智能风险研讨会以及在米里做工程师. 为此,你不需要事先熟悉我们的研究。亚博体育官网

    • 如果你不确定自己是否适合人工智能风险研讨会或工程师职位,给我们发邮件我们可以谈谈这是否有意义。

    • 你可以在我们的网站上找到更多关于我们工程项目的信息2018年战略更新.

  • 如果你想了解更多我们正在研究的问题(不管你对上面的回答是什么):见“嵌入式代理“有关我们的代理基金会研究的介绍,请参阅我们的亚博体育官网路线研究现场指南亚博体育官网关于如何开始AI安全的一般建议。

    • 在查看了这两个资源之后,您可以使用“Embedded Agency”中的链接和参考资料,并在此页面上了解有关您要深入研究的主题的更多信息。如果你想把重点放在某个问题上,我们建议斯科特·加拉布兰特定点练习”斯科特说:

      有时人们问我,为了进入代理基金会,他们应该学习什么数学。我的第一个答案是,我发现每个子领域的入门课程都很有帮助,但我发现后面的课程没有那么有帮助。我的第二个答案是学习足够的数学来理解所有的不动点定理。

      这两个答案其实非常相似。不动点定理横跨整个数学,是(我的)思考主体基础的中心。

    • 如果您想与他人合作和讨论,我们建议您开始或加入yabo app ,发布时间LessWrong公司,申请我们的计算机科学家的人工智能风险研讨会或其他让我们知道你在外面。

如果人类要开发出比人类更聪明、具有积极影响的人工智能,我们就必须迎接三个艰巨的挑战。首先,我们必须设计出比人类更聪明的系统亚博体育苹果app官方下载高度可靠,这样我们就可以证明系统将实现特定目标或偏好的信心。第二,设计必须合理亚博体育苹果app官方下载容错因此,在不可避免的人为错误面亚博体育苹果app官方下载前,系统可以在线修改和修正。第三,系统必须实际学习有益的目标或偏好。

米里目前的研究项目侧重于了解如亚博体育官网何原则上应对这些挑战. 我们甚至在理论上还不了解可靠推理的某些方面;我们甚至在简化的环境中也无法解决有限理性的问题。作为第一步,我们的研究重点是在简化的环境中找到解决方案。因此,我们的现代研究看起来更像纯数学,而不是软件工程或实际的机器学习。亚博体育官网

本指南简要概述了我们的研究重点,并提供了资源,将帮助您在每个主题领亚博体育官网域的前沿。本指南并不旨在证明这些研究主题的合理性;有关我们方法的进一步动机,请参阅文章“米里的方法“,或对我们的技术议程支持文件.

注(2016年9月):本研究指南基于亚博体育官网代理基金会议程. 截至2016年,我们还有以机器学习为中心的议程. 有关我们认为有前途的研究方向的更多信息,请参阅该文档,本指南未涵盖这些方向。亚博体育官网


如何使用本指南

这本指南是为有抱负的研究人员谁还没有在相关学科领域精通。如果你已经是人工亚博体育官网智能专业人士或经验丰富的数学家,可以考虑跳转到我们的网站现有出版物相反。(我们的yabo live 这是一个很好的起点。)这本指南面向那些想知道如果他们将来想成为MIRI研究者应该学习什么的学生,以及其他领域的专业人士,他们想跟上我们的工作。亚博体育官网

亚博体育官网研究人员通常通过两种途径之一加入我们的团队。首先是参加MIRI研讨会,亲自与我们建立关系。你可以用此窗体申请参加研究班。需要注意的是,车间之间往往亚博体育官网有相当长的时间间隔,而且他们的能力有限。

第二种方法是独立地在我们的研究议程上取得一些进展,并让我们知道你的结果。你可以用亚博体育官网我们的在线表单为你的工作申请帮助或意见,但最快的开始投稿的方法是阅读网上的帖子智能代理基础论坛(IAFF),注意人们正在处理的开放性问题,然后解决一个。然后您可以将结果作为链接在论坛上。

(2019年3月更新:LessWrong和AI校准论坛现在是我们去场馆公开讨论AI对齐问题,取代IAFF。有关本节建议的其他更新,请参见本文顶部。)

研究论坛的主要目的是让已经站在同一页的研究人员讨论未完亚博体育官网成的部分结果。因此,论坛上的帖子可能相当不透明。本研究指南可以帮助您快速了解IAFF上讨论的开放性问题。它还可以帮助你发展必要的技能,以获得参加研讨会的资格,或者找到方法解决其他机构在人工智能校准方面的开放性问题。

本指南首先介绍了在尝试这种研究方式之前必须了解的基本主题,如概率论。在那之后,它被分为一系列的主题领域,与论文的链接将让你了解该领域的最新技术。亚博体育官网

这不是一个线性的指南:如果你想成为一个MIRI研究者,我建议你首先确保你了解基础知识,然后选择一个你感兴趣的话题并亚博体育官网深入这个领域。一旦你很好地理解了一个主题,你就可以尝试在IAFF的这个主题领域做出贡献了。

本指南中的所有材料,请不要为了打磨而打磨。如果你已经知道了材料,请跳过。如果其中一个活跃的研究领域不能吸引你的兴趣,那就换一个。如果你不喜欢推荐的教科书中的一本,那就找一本更好的,或者干脆跳过它。这本指南应该作为一个工具,找出你可以贡献,而不是作为一个障碍,这一目标。亚博体育官网


基础知识

在直接进入我们活跃的研究课题之前,精通一些基本的数学概念是很重要的。对计算、逻辑和概率论的基本理解很好地服务于我们所有的研究领域。下面是一些资源,让你开始。亚博体育官网

你不必按所列顺序阅读本节中的书。拿起任何有趣的东西,在必要的时候在研究领域和基础知识之间来回跳跃。亚博体育官网

集合论

现代数学大多是用集合论形式化的,这里列出的教材和论文也不例外。这使得集合论成为一个很好的开端。



第1-18章

数理逻辑附练习题

可计算性理论(以及对角化带来的限制)是理解机器可以做什么和不能做什么的基础。



第1-4章

概率论

概率论是理解理性代理的核心。在我们所有活跃的研究领域中,熟悉不确定性下的推理是至关重要的。亚博体育官网



第1-5章

贝叶斯网络概率推理

这本书将有助于充实的理解如何推理可以使用概率世界模型。


统计

流利的统计建模将有助于我们的面向高级机器学习的对齐“研亚博体育官网究议程。事先熟悉概率推理是一个好主意。


机器学习

为了培养对机器学习的实际熟悉程度,我们强烈建议安得烈吴Coursera课程(课堂讲稿)在这里). 关于ML的更多理论介绍,请尝试理解机器学习.


人工智能

尽管我们的大部分工作都是理论性的,但是现代人工智能领域的知识对于将这项工作放在上下文中是很重要的。

理解VNM合理性的概念也很重要,我建议从中学习维基百科的文章但也可以从原著. Von Neumann和Morgenstern证明了任何服从几个简单一致性公理的agent都具有效用函数所描述的偏好。虽然有些人认为,为了构造可靠的智能代理,我们最终可能需要放弃VNM理性,但VNM框架仍然是我们用来描述任意强大代理行为的最具表现力的框架。(例如,请参见正交论以及工具收敛论“从博斯特罗姆的”超级聪明的意志。)VNM合理性的概念贯穿于我们所有活跃的研究领域。亚博体育官网



真实世界模型

如果你比人类更聪明的系统是不可靠的,那么形式化有益的目标对你没有好处。好的推理有很多方面我们还不了解,甚至在原则上也是如此。通过构建实际的系统来获亚博体育苹果app官方下载得洞察力是可能的,这些系统使用的算法似乎是有效的,即使它们工作的原因还没有很好地理解:通常,理论理解伴随着实际应用。然而,在设计有可能成为超级智能系统的系统时,我们认为这种方法是轻率的:如果我们在试图创建实用的超级智能系统之前,手头有一个通用智能理论,我们会更安全。

基于这个原因,我们很多活跃的研究课题都集中在我们还不知道如何解决的一般智亚博体育官网力部分,甚至在原则上。例如,考虑以下问题:

我有一个计算机程序,叫做“宇宙”。宇宙中有一个函数是未定义的。你的工作是为我提供一个适当类型的计算机程序来完成我的宇宙程序。然后,我会运行我的宇宙程序。我的目标是根据你的代理对原始宇宙程序的了解程度来给它打分。

我怎么能这么做?索洛莫诺夫的归纳推理理论揭示了一种理论解决方案:它描述了一种通过观察做出理想预测的方法,但仅限于预测者生活在环境之外的情况。索洛莫诺夫归纳法为思考归纳推理带来了许多有用的工具(包括Kolmogorov复杂性、普适先验和AIXI),但当agent是由宇宙计算的宇宙子过程时,问题显然变得更加困难。

在代理嵌入到环境中的情况下,归纳问题变得模糊:什么算“学习宇宙程序”?应该针对代理在环境中的分布情况进行评分?在“主体”和“环境”的界限变得模糊的情况下,什么是理想归纳法?这些都是“归化归纳法”的问题

  1. “苏亚雷斯”现实世界模型的两个形式化问题“进一步激发了自然化归纳的问题,因为它与一般智力理论的构建有关。

  2. “牵牛星”索洛莫诺夫归纳法的直观解释解释索洛莫诺夫的归纳推理理论,这是重要的背景知识,当它涉及到理解自然化归纳的开放性问题。

  3. 本辛格的”归化诱导“(系列)更详细地探讨了归化归纳法的问题。

解决自然归纳的问题需要更好地理解现实世界模型:什么是“可能的现实”?理想的代理使用什么样的环境先验知识?对这些问题的回答不仅要有良好的推理能力,还必须考虑到人类目标在这些世界模型中的具体化。

例如,在Solomonoff归纳法(和Hutter的AIXI)中,图灵机器被用来模拟环境。假设我们唯一看重的是钻石(碳原子与其他四个碳原子共价结合)。现在,假设我给你一台图灵机器。你能告诉我里面有多少钻石吗?

为了设计一个代理来追求其世界模型中指定的目标,代理必须有某种方法来识别其世界模型(图灵机器)中目标(碳原子)的本体。这个“本体识别”问题在“形式化现实世界模型的两个问题”(如上所述)中讨论,并由De Blanc首先介绍:

  1. “德布兰克的”人工智能价值系统中的本体论危机亚博体育苹果app官方下载“询问如何使代理的目标对本体的变化具有鲁棒性。如果代理从一个原子物理模型开始(碳原子是本体论上的基础),那么这可能并不难。但是,当这个代理建立了一个核物理模型(原子是由中子和质子构成的)时会发生什么呢?如果“碳识别器”是硬编码的,那么这个代理可能无法识别这个新世界模型中的任何碳,并且可能开始做出奇怪的行为(寻找隐藏的“真实碳”)。如何设计这种试剂,使其能够成功地识别“六个质子原子”和“碳原子”,以应对这一本体论危机?


“Legg和Hutter的”通用智能:机器智能的定义描述了AIXI,它是一个通用的智能代理,在代理与环境分离的设置中,它是一个“评分指标”,用于在此设置中对各种代理程序的智能进行评分。Hutter的AIXI和Legg的评分标准在精神上非常类似于我们所寻找的对自然化归纳和本体识别问题的回应。两个不同之处在于,爱喜生活在一个主体和环境分离的宇宙中,而自然化归纳需要一个解决方案,主体嵌入到环境中,而爱喜最大化了观察的回报,而我们希望一个解决方案,优化了外部世界的回报。

你可以在赫特的书中了解更多关于艾茜的知识通用人工智能,尽管阅读Legg的论文(见上图)可能足以满足我们的目的。


决策论

假设我给你以下信息:(1)一个描述宇宙的计算机程序;(2)一个描述代理的计算机程序;(3)代理可用的一组操作;(4)一组在宇宙所处状态的历史上指定的偏好。我的任务是,根据这些偏好,确定代理可以采取的最佳行动。例如,您的输入可能是:

def Universe():outcourts={Lo,Med,Hi}actions={One,Two,Three}def Agent():worldmodel={Lo:One,Hi:Two,Med:Three}return worldmodel[Hi]territory={One:Lo,Two:Med,Three:Hi}return territory[Agent()]
def Agent():worldmodel={Lo:One,Hi:Two,Med:Three}返回worldmodel[Hi]
动作={1,2,3}
高>中>低

(注意代理是如何嵌入到环境中的)这是另一个我们不知道如何回答的问题,即使在原则上也是如此。这看起来很简单:只需迭代每个操作,找出代理执行该操作时将得到的结果,然后选择导致最佳结果的操作。但事实上,在这个思维实验中,代理是确定性计算机程序的一个确定性子过程:代理要输出的只有一个动作,如果确定性程序的某个确定性部分做了它不做的事情,那么询问“会发生什么”是定义错误的。

为了评估如果代理采取不同的行动“会发生什么”,必须构建一个“反事实环境”(代理做了它不做的事情)。令人满意的反事实推理理论尚不存在。我们还不知道如何识别嵌入在其环境中的代理的最佳操作,即使在理论上,即使考虑到对宇宙和我们的偏好的充分了解以及无限的计算能力。

解决这个问题需要更好地理解反事实推理;这是决策理论的领域。

决策论

彼得森的教科书宽泛地解释了规范性决策理论的领域。有关更快速的调查,以及更关注新出现的问题,请参见Muehlhauser's“决策理论常见问题.”


博弈论

决策理论中的许多开放性问题都涉及到多智能体的设置。我听过塔德利斯教科书的好东西,但我自己没有读过。你也可能会有幸与斯科特亚历山大的”博弈论导论“在LessWrong。



第1-5章
(+6-9,如果热情)

可证明逻辑

多智能体设置的玩具模型可以在一个环境中进行研究,在这个环境中,智能体的行为基于他们可以证明的关于同一环境中其他智能体的事情。我们当前的玩具模型大量使用可证明性逻辑。

现有的反事实推理方法在短期内(即在某些问题上系统性地取得较差的结果,而在某些问题上可能取得较好的结果)和长期内(即在自我修饰剂使用较差的反事实推理时,根据那些被打破的反事实,决定他们不应该修复所有的缺陷)。“我的谈话”亚博体育苹果app官方下载你为什么不富有?“简单地谈到这两点。要了解更多信息,我建议使用以下资源:

  1. 苏亚雷斯和法伦斯坦的”走向理想化决策理论作为一个总体概述,并进一步推动决策理论的问题,作为相关的米里的研究计划。本文讨论了两种现代决策理论的缺点,并讨论了决策理论中的一些新见解,这些见解指向了执行反事实推理的新方法。亚博体育官网

如果“走向理想化决策理论”进展太快,那么这一系列的博客文章可能是一个更好的起点:

  1. 尤德科夫斯基的”真正的囚徒困境“解释了为什么合作不会自动成为‘正确’或‘好’的选择。

  2. “苏亚雷斯”因果决策理论并不令人满意“使用囚徒困境来说明决策算法之间非因果关系的重要性。

  3. 尤德科夫斯基的”纽科姆的问题与理性的遗憾他主张把注意力放在“赢”的决策理论上,而不仅仅放在直觉上似乎合理的决策理论上。“苏亚雷斯”布莱克问题简介“覆盖相似的地面。

  4. “苏亚雷斯”新来的问题是常态“注意到人类代理在常规的基础上很可能会对彼此的决策标准进行建模。

MIRI的研究亚博体育官网导致了“无更新决策理论”(UDT)的发展,这是一种新的决策理论,解决了上述许多缺点。

  1. “辛茨的”预测困境中的问题类优势总结了UDT在其他已知决策理论中的优势,包括支配CDT和EDT的另一种理论Timeless decision Theory(TDT)。

  2. “费伦斯坦的”逻辑语句上具有具体优先级的UDT模型“提供了一个概率形式化。

然而,UDT绝不是一种解决方案,它本身也有许多缺点,下面将讨论这些缺点:

  1. “斯莱普涅夫的”UDT中自我实现伪证明的一个例子解释了UDT如何由于虚假证明而获得次优结果。

  2. 本森·蒂尔森的”具有已知搜索顺序的UDT“这是一个不太令人满意的解决办法。它包含一个形式化的UDT与已知的证明搜索顺序,并演示了必要性,使用一种技术称为“玩鸡与宇宙”,以避免虚假的证明。

为了研究多智能体设置,Patrick LaVictoire开发了一个模态智能体框架,它还允许我们使用可证明逻辑在决策理论领域取得一些新的进展:

  1. Barasz等人囚徒困境中的有力合作“允许我们考虑代理人,他们只根据自己的能力决定是否相互合作证明关于对方的行为。这防止了无限回归;事实上,两个代理的行为只能根据它们能证明的关于另一个代理的行为来确定,可以在二次时间内使用可证明性逻辑的结果。


UDT是由戴伟和斯莱普涅夫等人开发的。“戴的”走向新的决策理论介绍了这个想法,还有斯莱普涅夫的带有停顿预言符的UDT模型“提供了一个早期的形式化。斯莱普涅夫还描述了UDT的一个奇怪的问题,在这个问题上,特工们似乎因为智力不足而得到奖励代理模拟预测器”.

这些博客文章具有历史意义,但几乎所有内容都在上面的“走向理想化决策理论”。


逻辑不确定性

想象一个黑匣子,有一个输入滑槽和两个输出滑槽。一个球可以放入输入滑槽,它将从两个输出滑槽之一出来。黑匣子里有一台鲁布·戈德伯格机器,它把球从输入滑槽拿到一个输出滑槽。

一个完美的概率推理者如果不知道盒子里是哪台Rube Goldberg机器,就不知道盒子会有什么样的表现,但是如果他们能找出盒子里是哪台机器,那么他们就知道哪个滑槽会把球拿走。这个推理者是环境不确定.

一个现实的推理者可能知道盒子里是哪台机器,也可能确切地知道机器是如何工作的,但可能缺乏推理能力来计算机器将把球扔到哪里。这个推理者是逻辑上不确定。

概率论假定逻辑上的全知;它假定推理者知道他们所知道的事情的所有后果。实际上,有界推理者在逻辑上并不是无所不知的:我们可以精确地知道盒子实现了哪台机器,以及机器是如何工作的,只是没有时间来推断球从哪里出来。我们在逻辑的不确定性下推理。

逻辑不确定性下的形式推理理论尚不存在。在构建高度可靠的一般智能系统时,获得这种理解是非常重要的:每当一个代理对复杂系统、计算机程序或其他代理的行为进行推理时,它必须在至少一点逻辑不确定性的情况下运行。亚博体育苹果app官方下载

要了解最新技术,必须对概率论有扎实的理解;请考虑扩充本课程的前几章杰恩斯具有伐木工人,第1、5、6和9章,然后研究以下论文:

  1. 苏亚雷斯和法伦斯坦的”逻辑不确定性下的推理问题提供了一个概括性的介绍,解释了逻辑不确定性的领域,并激发了它与MIRI研究计划的相关性。亚博体育官网

  2. “盖夫曼的”关于一阶微积分中的测度“很多年前就考虑过这个问题。盖夫曼主要关注的是一个相关的子问题,这是一个正式系统的不同模型的概率分配(假设一旦模型已知,该模型的所有结果都已知)。我们现在正试图将这种方法扩展到一个更完整的逻辑不确定性概念(推理者可以知道模型是什么,但不知道该模型的含义),但盖夫曼的工作仍然有助于获得历史背景和对围绕逻辑不确定性的困难的理解。亚博体育苹果app官方下载

  3. Hutter等人的表达逻辑中句子的概率“主要着眼于逻辑不确定性的问题,假设可以访问无限的计算能力(以及许多级别的停顿预言机)。理解Hutter的方法(以及用无限的计算能力可以做什么)有助于充实我们对困难问题所在的理解。

  4. “德姆斯基的”逻辑先验概率“提供可计算的近似逻辑优先级。继Demski之后,我们的工作主要集中在逻辑语句上可逼近先验概率分布的建立上,因为精炼和逼近逻辑先验的行为与一般逻辑不确定性下的推理行为非常相似。

  5. “克里斯蒂亚诺的”非全知、概率推理和元数学“基本上遵循这种方法。本文提供了一些关于逻辑先验生成的早期实践考虑,并强调了几个开放的问题。


有关这个问题的更多历史著作,请参见盖夫曼的富语言的概率…“和”有限资源推理与算术语句概率分配.”


文氏反射

人工智能问题的独特之处在于,一个足够先进的系统能够比人类程序员做更高质量的科学和工程。高级系统的许多可能的危害和好处都源于它将自身引导到更高级别的亚博体育苹果app官方下载能力,可能导致情报爆炸.

如果一个代理通过递归的自我改进实现了超级智能,那么产生的系统的影响就完全取决于初始系统对比自身更智能的代理进行可靠推理的能力。一个系统可以使用什么样的推理方法来证明对一个更智能的系统的行为有极高的信心?我们把亚博体育苹果app官方下载这种推理称为“文氏反思”,在维诺·文格之后(1993)他指出,通常不可能精确预测比推理者更聪明的代理人的行为。

一个理性的人进行文革式的反思,必然要理性抽象地关于更智能的代理。这几乎肯定需要某种形式的高置信度逻辑不确定性推理,但是代替逻辑不确定性的工作理论,关于证明的推理(使用形式逻辑)是研究抽象推理的最佳可用形式主义。因此,现代文氏反思研究需要形式逻辑背景:

一阶逻辑

米里现有的研究自我修饰剂的玩具模型基本上就是基于这个逻辑。理解一阶逻辑的细微差别对于使用我们为研究正式系统开发的工具是至关重要的,这些系统能够接近类似系统的置信度。亚博体育苹果app官方下载

我们通过构造能够在高度相似的系统中获得某种形式的信任的代理的玩具模型来研究Vingean反射。要到达最前沿,请阅读以下文章:亚博体育苹果app官方下载

  1. 法伦斯坦和苏亚雷斯文氏反思:自我完善主体的可靠推理介绍了文氏反思的领域,并激发了它与米里研究计划的联系。亚博体育官网

  2. 尤德科夫斯基的”拖延悖论他更详细地阐述了需要令人满意的解决办法,在洛比亚障碍(一个源于太少“自信心”的问题)和源于太多“自信心”的不健全之间走一条细线许多的自信。

  3. 克里斯蒂亚诺等人概率逻辑中真值的可定义性“描述了一个早期的尝试,创建一个正式的系统,可以对自己进行推理,同时避免自相矛盾的自我参照。它成亚博体育苹果app官方下载功了,但最终被证明是不健全的。我的演练因为本文可能有助于把它放在一个更大的背景下。

  4. 法伦斯坦和苏亚雷斯自完善时空嵌入式智能中的自参考问题“描述了我们的简单的建议验证者模型,用于研究产生自身稍微改进的版本的代理,或‘平铺’自己。本文演示了一个玩具场景,其中声音代理可以成功地平铺到(例如,获得高度信任)其他类似的代理。


Yudkowsky&Herreshoff's公司自改性人工智能贴砖剂“是一个更古老,更曲折的介绍文氏反射,可能更容易通过使用我的演练.

如果你对这个研究课题很感兴趣,还有一些其他相关的技术报告。亚博体育官网不幸的是,他们中的大多数人并没有很好地解释他们的动机,而且还没有被放进他们的大背景中。

“费伦斯坦的”概率逻辑中的拖延说明了克里斯蒂亚诺等人的概率推理系统是如何不健全,容易受到拖延悖论的影响。尤德科夫斯基的”亚博体育苹果app官方下载允许平铺的分布…采取了一些早期的步骤概率平铺设置。

“费伦斯坦的”数学强度递减描述了参数多态性的一个不令人满意的性质,即Löbian障碍的部分解决方案。“苏亚雷斯”费伦斯坦的怪物描述了一个黑客的正式系统,避免了上述问题。它还展示了一种限亚博体育苹果app官方下载制代理的目标谓词的机制,参数多态性也可以使用该机制创建一个比tiling agents论文中探讨的限制更少的PP版本。“费伦斯坦的”声音理论的无限下降序列“描述了一个更优雅的部分解决方案的Löbian障碍,这是我们目前最喜欢的部分解决方案之一。

对递归序数的理解为理解这些结果提供了一个有用的背景,阅读Franzén的超限级数:对完整性的第二种看法。


可勘误性

随着人工智能系统在智能和能力方面的发展,它们的一些可用选亚博体育苹果app官方下载项可能允许它们抵制程序员的干预。我们称人工智能系统为“可纠正的”,如果它与它的创造者视为纠正性干预的东西合作,尽管理性的代理拒绝关闭它们或修改它们的偏好的尝试的默认激励。

这一研究领域基本上是全新的,亚博体育官网所以要跟上时代的步伐,只需读一两篇论文:

  1. Soares等人的可勘误性“介绍了整个领域,以及一些尚未解决的问题。

  2. 阿姆斯特朗的”从冷漠中学习应有的价值“讨论了一种潜在的方法,使代理人之间的效用函数最大化,这是一个小的步骤,使代理人允许自己被修改无关。

我们目前在可纠正性方面的工作主要集中在一个称为“关机问题”的小问题上:您如何构造一个在按下关机按钮时关机的代理,而这个代理没有导致或阻止按下按钮的动机?在这个子问题中,我们目前关注的是效用无差异问题:如何构造一个代理,允许您切换它最大化的效用函数,而不给它影响是否发生切换的激励?即使我们对效用无差异问题有一个满意的解决方案,这也不会产生对关闭问题满意的解决方案,因为似乎仍然很难以一种不受反常实例化影响的方式来充分指定“关闭行为”。Stuart Armstrong写了几篇关于“减少影响”AGIs规范的博客文章:

  1. 国产化抗冲击AIs
  2. 减少影响AI:没有后通道

这些最初的尝试还不是一个完整的解决方案,但他们应该让你加快我们目前对这个问题的理解。


可更正性的早期工作可以在web论坛上找到更少的错误. 大部分相关结果都在上述论文中得到了体现。其中一个更有趣的是蛋糕还是死亡,一个“动机价值选择”问题的例子。在本例中,效用函数不确定的代理可以从避免减少其不确定性的信息中获益。

阿姆斯特朗的”减少影响的数学:需要帮助列出指定减少冲击剂的初始想法,以及减少实际影响:随机抽样未来“勾勒出一个评估未来是否受到影响的简单方法。

阿姆斯特朗的”效用无差异概述了最初的效用无差异的想法,并在很大程度上是有趣的历史原因。这是包含在“适当的价值观学习,通过漠不关心”的文件上面链接。


重视学习

由于我们自己对价值的理解是模糊和不完整的,也许将价值加载到强大的人工智能中最有希望的方法是为代理指定一个标准学习我们的价值观是递增的。但这带来了一些有趣的问题:

假设你构建了一个包含许多结果的训练集,其中充满了快乐的人(标记为“好”)和其他结果,其中充满了悲伤的人(标记为“坏”)。最简单的概括,从这些数据,可能是人类真的喜欢人类形状的微笑的东西:这个代理然后可能试图建立许多微小的动画电子快乐的人。

价值学习必须是一个在线过程:系统必须能够识别模糊性并向用户提出关于这些模糊性的疑问。它不仅必亚博体育苹果app官方下载须识别不知道如何分类的情况(例如无法分辨一张脸看起来是高兴还是悲伤的情况),而且还必须确定训练数据不提供任何信息的维度(例如,当你的训练数据从不显示结果时,结果充满了看起来很快乐的人形自动机,标记为毫无价值)。

当然,仅凭模糊性识别是不够的:你不希望一个系统在开始的三个星期里要求澄清人类在不同海拔的时候,或者在刮风的时候是否仍然值得,最后(在操作员停止注意亚博体育苹果app官方下载之后)才问它是否重要人类塑造的事物是按自己的意愿行事的。

为了让特工可靠地了解我们意图,代理必须构造和优化其操作符的模型,并使用该模型通知其查询和更改其首选项。要了解有关这些问题和其他问题的更多信息,请参阅以下内容:

  1. “苏亚雷斯”价值学习问题“提供了一些与价值学习相关的开放性问题的概述。

  2. “杜威的”学习价值观进一步探讨了价值学习的难点。

  3. 这个正交论认为价值学习不是默认的解决方法。

  4. “麦卡斯基尔的”规范不确定性“为讨论规范性不确定性提供了一个框架。请注意,完整的工作,虽然包含许多见解,是非常漫长的。你可以略过一些部分和/或跳过一些,特别是如果你对其他活跃研究领域更感兴趣的话。亚博体育官网


解决规范不确定性的一种方法是Bostrom&Ord的议会模式,这表明价值学习在某种程度上等同于选民聚集问题,许多价值学习系统可以建模为议会投票系统(选民是可能的效用函数)。亚博体育苹果app官方下载

欧文·科顿·巴雷特的”归一化的几何原因“讨论效用函数的规范化;这与道德不确定性下推理的玩具模型有关。

Fallenstein&Stiennon's公司响度“讨论了聚合效用函数的一个问题,该问题源于效用函数编码的偏好在正仿射变换下保持不变(例如,当效用函数被缩放或移位时)。这意味着需要特别小心,以便规范化一组可能的函数。


其他工具

掌握任何一门学科都是一个非常强大的工具,尤其是在数学领域,看似不相交的主题实际上是紧密相连的。数学的许多领域都有这样的性质:如果你非常了解它们,那么无论你走到哪里,这种理解都是有用的。考虑到这一点,虽然下面列出的主题不是理解米里积极研究所必需的,但是理解这些主题中的每一个都是数学工具箱中的一个额外工具,在进行新的研究时通常会证明非常有用。亚博体育官网

离散数学

提供教科书在线. 大多数数学研究连续或离散结构。许多人觉得离散数学更直观,而对离散数学的扎实理解将帮助您快速掌握许多其他数学工具的离散版本,如群论、拓扑学和信息论。


线性代数

线性代数是数学中几乎无处不在的工具之一。对线性代数有扎实的理解将有助于许多领域。


类型论

集合论通常是现代数学的基础,但它不是唯一可用的候选者。类型理论也可以作为数学的基础,在许多情况下,类型理论更适合于手头的问题。类型理论也弥补了计算机程序和数学证明之间的理论鸿沟,因此通常与某些类型的人工智能研究有关。亚博体育官网


范畴论

范畴论在一个非常高的抽象层次上研究许多数学结构。这可以帮助您注意到不同数学分支中的模式,并使您的数学工具从一个域转移到另一个域更加容易。


拓扑学

拓扑学是数学中几乎无处不在的另一门学科。在许多意想不到的地方,对拓扑学的深入理解是有帮助的。


可计算性和复杂性

米里的数学研究正致力于最亚博体育官网终与计算机程序相关的解决方案。对计算机能力的良好直觉通常是必不可少的。


程序验证

程序验证技术使程序员能够确信某个特定的程序实际上会按照某种规范进行操作。(当然,仍然很难验证规范是否描述了预期的行为。)虽然MIRI的工作目前并不涉及验证真实世界的程序,但是理解现代程序验证技术可以做什么和不能做什么是非常有用的。

了解任务

为什么首先要做这种研究?亚博体育官网

超智能

本指南主要假设你已经参与了米里的任务,但如果你想知道为什么这么多人认为这是一个重要而紧迫的研究领域,亚博体育官网超智能提供了一个很好的概述。


理性:从人工智能到僵尸

这本电子版的大部头汇集了六卷论文,解释了米里对人工智能的观点背后的哲学和认知科学。


平衡不足

微观经济学和认识论的讨论,因为它们与发现社会失误和盲点有关,包括被忽视的研究机会。试图回答这样一个基本问题:“实现不寻常目标的雄心勃勃的项目什么时候能成功?”?”亚博体育官网