指南MIRI的研究亚博体育官网

,内特苏亚雷斯



2019年3月更新:本研究指南自亚博体育官网2015年以来一直仅更新。我们对想要工作的人的新建议AI对齐的问题是:

  • 如果你有计算机科学或软件工程背景:申请参加我们的新手人工智能风险研讨会作为Miri的工程师工作.为此,您不需要事先熟悉我们的研究。亚博体育官网

  • 如果您想了解更多关于我们正在努力的问题(不管你对上述问题的回答如何):参见“嵌入式代理有关我们代理基金会研究的介绍,请参阅我们的亚博体育官网对齐研究现场指南亚博体育官网有关如何在AI安全开始的一般建议。

    • 在查看这两个资源后,您可以使用“嵌入式代理商”中的链接和引用以及此页面,以了解有关要钻取的主题的更多信息。如果您想要一个特定的问题设置为专注,我们建议斯科特盖拉巴德的“定点练习正如斯科特所指出的:

      有时人们会问我应该学习哪些数学以进入代理基础。我的第一个答案是我找到了每个子场中的介绍性课程,以帮助,但我发现后来的课程要更少有用。我的第二个答案是学习足够的数学来理解所有固定点定理。

      这两个答案实际上非常相似。定点定理跨越所有数学跨越,并且是思考代理基础的核心(我的方式)。

    • 如果你想与人合作和讨论,我们建议你开始或加入一个yabo app ,发布胜败,申请我们的计算机科学家面临的人工智能风险研讨会,或其他让我们知道你在那里。

如果人类要开发出具有积极影响的比人类更聪明的人工智能,我们必须面对三个艰巨的挑战。首先,我们必须设计出比人类更聪明的系统亚博体育苹果app官方下载高度可靠,使我们能够证明该系统符合指定目标或偏好的信心。亚博体育苹果app官方下载其次,设计必须是不变性,这样的系统适合于在不可避免亚博体育苹果app官方下载的人为错误的脸在线修改和校正。三,系统必须真正学会有亚博体育苹果app官方下载利的目标或偏好。

MIRI目前的研究项目专注于理亚博体育官网解如何原则上应对这些挑战.即使在理论上,我们也无法理解可靠推理的某些方面;有一些有限理性的问题,我们甚至在简化的情况下也无法解决。作为第一步,我们的研究重点是在简化的环境中找到解决方案。因此,我们的现代研究看起来更像纯数学,而亚博体育官网不是软件工程或实用机器学习。

本指南简要概述了我们的研究重点,并提供资源,将帮助您获得每个主题领亚博体育官网域的前沿。本指南不是为了证明这些研究主题;亚博体育官网要了解我们方法的进一步动机,请参阅文章“美里的方法“或我们的技术议程支持论文

注意(2016年9月):本研究指南是基于我们亚博体育官网的代理基础议程.截至2016年,我们也有机器学习聚焦议程.有关我们认为有前途的研究方向的更多信息,请参阅该文件,并未被本指南所涵盖。亚博体育官网


如何使用本指南

本指南适用于有抱负在相关主题领域的研究人员。亚博体育官网如果您已经是AI专业人员或经验丰富的数学家,请考虑跳到我们的现有的出版物反而。(我们的yabo live 是一个很好的起点。)本指南针对的是那些想要成为未来MIRI研究人员的学生,以及想要跟上我们工作进度的其他领域的专业人士。亚博体育官网

亚博体育官网研究人员通常通过以下两种途径加入我们的团队。首先是参加一个MIRI研讨会,并与我们建立亲和关系。您可以使用这种形式申请参加研究工作坊。亚博体育官网需要注意的是,车间之间的间隔时间往往很长,而且生产能力有限。

第二条路径是独立的研究议程对我们的研究议程进行了一些进展,并告诉我们您的结果。亚博体育官网您可以使用我们的在线形式申请对你的工作援助或投入,而是开始提供最快的方法是阅读上的帖子智能代理基础论坛(IAFF),注意人们正在研究的开放问题,并解决一个。然后你可以发布你的结果作为一个关联在论坛上。

2019年3月更新: LessWrong and theAI对准论坛现在是我们讨论人工智能对齐问题的首选场所,取代了IAFF。请参阅本文顶部的其他更新建议。)

研究论坛的主要目的是对于已经在同一页面上的研究人员讨论亚博体育官网未抛光的部分结果。因此,论坛上的帖子可能是非常不透明的。本研究指南亚博体育官网可以帮助您加快在IAFF上讨论的开放问题的速度。它还可以帮助您制定有资格获得研讨会所需的技能,或者找到在其他机构的AI对准中开放问题的方法。

本指南始于基本主题的建议,在尝试这种研究方面之前,重要的是理解,例如概率理论。亚博体育官网之后,它被闯入了一系列主题领域,与论文的联系将抓住了你在该地区的最先进的地方。

这不是一个线性的指导:如果你想成为一名MIRI研究员,我建议你首先确保你了解基础知识,然后选择一个你感兴趣的话题,亚博体育官网并深入那个领域。一旦你很好地理解了一个主题,你就可以尝试在IAFF上为这个主题领域做出贡献了。

对于本指南中的所有材料,请不要为了磨掉而磨掉。如果你已经了解了内容,那就跳过吧。如果一个活跃的研究领域不能引起你的兴趣,转亚博体育官网到另一个。如果你不喜欢推荐的教科书,找一本更好的,或者干脆跳过。本指南应该作为一种工具,帮助你找到可以做出贡献的地方,而不是成为实现目标的障碍。


基础知识

在直接进入我们积极的研究课题之前,对基本的数学概念有一定的了解是很重要的。亚博体育官网我们所有的研究领域都有亚博体育官网对计算、逻辑和概率论的基本理解。下面是一些帮助你开始的资源。

你不需要按照列出的顺序阅读这部分的书。拿起任何有趣的东西,不要犹豫,在研究领域和必要的基础知识之间来回跳跃。亚博体育官网

设置理论

大多数现代数学在集合理论中正式化,这里列出的教科书和论文也不例外。这使得设定理论是一个开始的好地方。



队章

可计算性和逻辑

可计算性理论(和对角化的限制)是对理解可以通过机器进行的最理体而无法完成的。



1-4章

概率论

概率论是理解理性能动的核心。在我们所有活跃的研究领域中,熟悉不确定性下的推理是至关重要的。亚博体育官网



第1-5章

概率推断

本书将有助于肉体理解如何使用概率世界模型完成推理。


统计数据

对统计模型的熟练掌握将有助于为我们的对齐方式先进的机器学习“研亚博体育官网究议程。一些先前熟悉的概率推理在这里是一个好主意。


机器学习

为了培养对机器学习的实际熟悉度,我们强烈推荐安德鲁NG的Coursera课程(课堂讲稿这里)。对于ML的更为理论介绍,请尝试了解机器学习


人工智能

虽然我们的大部分工作都是理论性的,但现代人工智能领域的知识对于把这项工作放在背景中来看是很重要的。

了解VNM合理性的概念也很重要,我建议学习维基百科的文章但是这也可以从拾起原来的书.von neumann和morgenstern表明,任何遵守少数简单一致性公理的代理商用公用事业函数的首选项。虽然有些人期望我们最终需要放弃VNM合理性以构建可靠的智能代理,但VNM框架仍然是我们用于表征任意强大的代理的行为的最具表现力的框架。(例如,看看正交论文仪器融合论点从博斯特罗姆的“超级智慧的意志。VNM合理性的概念贯穿于我们所有活跃的研究领域。亚博体育官网



现实世界模型

如果您的智慧比人类系统不可靠,您可以正式化有益目标。亚博体育苹果app官方下载甚至原则上,我们还没有理解的良好推理。它可能通过建立使用算法的实用系统来获得洞察力,这些系统似乎工作的算法,即使他们工作的原因尚未理解:通常,在实际应用的次唤亚博体育苹果app官方下载醒之后,理论理解就遵循。然而,我们考虑这种方法在设计具有潜力的系统时,我们将在尝试创建实际的高层系统之前手头有一般情报理论,更安全。亚博体育苹果app官方下载

出于这个原因,我们的很多活跃的研究课题集中在一般智力的部分,我们还不知道亚博体育官网如何解决,甚至在原则。例如,请考虑以下问题:

我有一个电脑程序,叫做“宇宙”。宇宙中有一个函数是没有定义的。你的工作是给我提供一个适当类型的计算机程序来完成我的宇宙程序。然后,我将运行我的宇宙程序。我的目标是根据你的代理对原始宇宙计划的了解程度来给它打分。

我怎么能这样做呢?索罗门诺夫的归纳推理理论阐明了一种理论解决方案:它描述了一种方法,可以从观察中做出理想的预测,但只在预测者生活在环境之外的情况下。Solomonoff归纳法为思考归纳推理带来了许多有用的工具(包括Kolmogorov复杂性、普遍先验和AIXI),但当agent是宇宙的子过程、由宇宙计算时,问题无疑会变得更加困难。

在嵌入在环境内的代理人的情况下,感应问题会变得朦胧:什么是“学习宇宙计划”?如果代理商评分,则反对环境的分布?在“代理”和“环境”之间的边界变得模糊的情况下,是什么构成理想的诱导?这些是“归化归纳”的问题。

  1. 苏亚雷斯“形式化现实世界模型的两个问题“进一步激发了归化归纳法与一般智力理论构建相关的问题。

  2. “牵牛星”的“索罗门归纳的一种直观解释“解释了Solomonoff的归纳推理理论,这是了解归化诱导的开放问题时的重要背景知识。

  3. Bensinger的“归化诱导“(系列)更详细地探讨归化诱导的问题。

解决归化归纳法的问题需要更好地理解现实世界模型:什么是“可能的现实”?理想的药剂会使用什么样的环境先验?对这些问题的回答不仅必须允许良好的推理,还必须允许根据这些世界模型来规范人类的目标。

例如,在Solomonoff归纳(和Hutter的AIXI)中,图灵机被用来建模环境。假设我们唯一看重的东西是钻石(碳原子与其他四个碳原子共价结合)。现在,假设我给你一台图灵机。你能告诉我里面有多少钻石吗?

为了设计追求世界模型方面规定的目标的代理商,该代理必须有一些方法可以识别世界模型(图灵机)内的目标(碳原子)的本体。这个“本体识别”问题是在“正式的逼真世界模型的两个问题”(上面相关)中讨论,并首先由De Blanc推出:

  1. 德布兰科的“人工代理人价值体系中的本体论危机亚博体育苹果app官方下载问一个人如何使一个代理的目标健壮地适应本体论的变化。如果代理从物理的原子模型开始(其中碳原子是本体论的基础),那么这可能并不困难。但是,当代理人建立一个物理核模型(原子由中子和质子构成)时,会发生什么呢?如果“碳识别器”是硬编码的,那么代理可能无法在这个新的世界模型中识别任何碳,并可能开始奇怪地行动(寻找隐藏的“真正的碳”)。如何设计代理人,使其能够成功地识别“六质子原子”与“碳原子”,以应对这种本体论危机?


Legg和Huth的“通用智能:机器智能的定义“描述了Agent与环境分开的设置中的一个普遍智能代理的AIXI,以及用于评估此设置中各种代理程序的智能的”评分度量标准“。Hutter的Aixi和Legg的评分指标在您正在寻求归化诱导和本体识别问题的问题中的精神非常相似。这两种差异是艾基生活在一个宇宙中,其中代理和环境被分离,而归化诱导需要嵌入在环境中的代理人的解决方案,并且艾西西最大化在观察方面规定的奖励,而我们希望优化中规定的奖励的解决方案外界的条款。

你可以在Hutter的书中了解更多关于AIXI的信息通用人工智能,尽管阅读莱格的论文(链接在上面)可能就足以达到我们的目的。


决策理论

说我给你以下内容:(1)描述宇宙的计算机程序;(2)描述代理人的计算机程序;(3)代理商可用的一组行动;(4)宇宙已经进入的状态历史记录的一组偏好。我在识别这些偏好方面识别代理的最佳动作。例如,您的输入可能是:

DEF宇宙():结果= {罗,中,您好}行动= {一,二,三} DEF代理():worldmodel = {罗:一,HI:二,医学:三}返回worldmodel [高]领土={一:罗二:地中海,三:你好}返回领土[代理()]
def Agent(): worldmodel = {Lo: 1, Hi: 2, Med: 3}返回worldmodel[Hi]
动作= {1,2,3}
嗨,> Med, > Lo

(请注意代理人如何嵌入环境中。)这是我们不知道如何回答的另一个问题。它似乎很容易:只是迭代每个动作,弄清楚代理人会得到的结果,如果它采取这种行动,那么选择导致最佳结果的行动。但事实上,在这个思想实验中,代理是确定性计算机程序的确定性子处理:代理程序将要输出的一个动作,并询问如果是一个确定性部分,则询问什么“会发生”deterministic program did something that it doesn’t do is ill-defined.

为了评估如果代理采取不同的行动“将会发生什么”,必须构造一个“反事实环境”(代理做了它不做的事情)。令人满意的反事实推理理论还不存在。我们还不知道如何识别嵌入在其环境中的代理的最佳行动,即使是在理论上,即使是在充分了解宇宙和我们的偏好,并给予无限的计算能力的情况下。

解决这个问题需要更好地了解反事实推理;这是决策理论的领域。

决策理论

彼得森的教科书对规范决策理论领域进行了广泛的解释。如果想要一个更快速的调查,更关注newcomb类问题,请参阅Muehlhauser的“决策理论常见问题解答.“


博弈论

决策理论中的许多未决问题都涉及到多智能体设置。我听说塔德利斯的教科书不错,但我自己没有读过。你也有可能在斯科特·亚历山大的"博弈论概论“在胜利。



第1-5章
(如果热情+ 6 - 9)

只是逻辑

多代理设置玩具模型可以在代理的基础上的东西,他们可以证明大约在同一环境中的其他代理行为的环境中进行研究。我们目前的玩具模型大量使用可证性逻辑。

现有的反事实的推理方法在短期内都是令人不满意的(在这个意义上他们系统地实现贫困结果在一些问题上好的结果是可能的)和长期(在这个意义上使用坏反设事实将变为无效来代理推理,亚博体育苹果app官方下载根据那些破碎的反事实,决定他们不应该修复他们所有的缺点)。我的演讲”你为什么没钱?”短暂触及这两个点。要了解更多信息,我建议以下资源:

  1. 飙升和堕落者“趋向于理想化的决策理论“作为一般性概述,并进一步激励与Miri研究计划相关的决策理论的问题。亚博体育官网本文讨论了两种现代决策理论的缺点,并讨论了决策理论的一些新见解,这些思想指出了对执行反事实推理的新方法。

如果“走向理想化的决策理论”发展得太快了,这一系列的博客文章可能是一个更好的开始:

  1. Yudkowsky的“真正的囚犯困境“解释为什么合作不是自动”正确“或”良好“选项。

  2. 苏亚雷斯“因果决策理论是不满意的用囚徒困境来说明决策算法之间非因果关系的重要性。

  3. Yudkowsky的“纽康的问题和合理的遗憾“专注于”获胜“的决策理论,不仅仅是似乎直观合理的决策理论。苏亚雷斯“介绍Newcomblike问题涵盖了相似的领域。

  4. 苏亚雷斯“newcomblike问题是常态“注意人类代理概率地根据常规基础逐步模范彼此的决策标准。

MIRI的研究亚博体育官网导致了“无更新决策理论”(UDT)的发展,这是一个新的决策理论,解决了上面讨论的许多缺点。

  1. 欣策的“预测困境中的问题课题统治”总结UDT的比其他已知的决策理论,包括永恒的决策理论(TDT),另一种理论占主导地位CDT和EDT主导地位。

  2. Fallenstein的“UDT的一个模型,它有一个具体的先验逻辑语句提供了一种概率形式。

但是,UDT绝不是解决方案,并且在以下地方讨论了自己的许多缺点:

  1. slepnev的“的例子自我实现的UDT虚假证明解释了UDT如何由于虚假的证明而获得次优结果。

  2. Benson-Tilsen的“UDT已知的搜索顺序“解决方案有点不满意。它包含UDT的形式化,具有已知的证明搜索顺序,并展示使用称为“与宇宙的鸡肉”的技术的必要性,以避免虚假证明。

为了研究多智能体设置,Patrick LaVictoire开发了一个模态智能体框架,这个框架也允许我们使用可证明逻辑在决策理论领域取得一些新的进展:

  1. Barasz等人的“囚徒困境中的稳健合作“允许我们考虑仅根据他们可以的彼此协作的代理人证明彼此的行为。这防止了无限回归;事实上,两个行为体的行为仅取决于它们对另一个行为的证明,这两个行为体的行为可以用二次时间利用可证明逻辑的结果来确定。


UDT由Wei Dai和Vladimir Slepnev等人开发。戴笠的”一个新的决策理论“介绍了这个想法和Slepnev的”一个模型,用暂停甲骨文提供了一个早期的第一个正规化。Slepnev还描述了UDT的一个奇怪的问题,在“代理模拟预测指标“。

这些博客帖子具有历史兴趣,但几乎所有的内容都在上面的“理想化决策理论”。


逻辑的不确定性

想象一下一个黑匣子,用一个输入斜槽和两个输出滑槽。球可以放入输入斜槽中,它将出于两个输出槽中的一个。黑匣子内部是一个RUBE GOLDBERG机器,将球从输入斜槽带到一个输出槽中。

A perfect probabilistic reasoner who doesn’t know which Rube Goldberg machine is in the box doesn’t know how the box will behave, but if they could figure out which machine is inside the box, then they would know which chute would take the ball. This reasoner is环境不确定性

一个现实的推理者可能知道盒子里是哪台机器,也可能确切地知道机器是如何工作的,但可能缺乏推断出机器将在哪里丢球的能力。这个推理是在逻辑上不明朗。

概率论假设逻辑全知;它假定推理者知道他们所知道事物的所有后果。在现实中,有限推理者在逻辑上并非无所不知:我们可以精确地知道盒子使用的是哪台机器,以及机器是如何工作的,只是没有时间推断出球从哪里出来。我们在逻辑不确定性下进行推理。

在逻辑不确定性下的正式推理理论还不存在。在构建一个高度可靠的一般智能系统时,获得这种理解是极其重要的:每当一个代理推理复杂系统、计算机程序或其他代理的行为时,它必须在至少一点逻辑不确定性下运行。亚博体育苹果app官方下载

要了解这一技术的现状,扎实地理解概率论是必须的;可以考虑增加前几章我们弗勒,第1、5、6、9章,然后研究以下论文:

  1. 飙升和堕落者“推理的逻辑下的不确定性问题提供了一个概括性的介绍,解释了逻辑不确定性的领域,并激发了它与MIRI的研究计划的相关性。亚博体育官网

  2. 高脂的“关于一阶微积分的测度”看着这个问题很多年前。Gaifman已主要集中在相关的子问题,这是概率的形式系统(假设一旦模型是已知的,该模型的所有后果都知道)的不同型号的分配。亚博体育苹果app官方下载我们现在正试图扩大这种方法的逻辑不确定性的更完整的概念(其中一个推理就可以知道该模型是什么,但不知道该模型的含义),但是通过Gaifman工作仍取得了历史背景下有用的理解周围的逻辑不确定性的困难。

  3. Hutter等人。的“表达逻辑中句子上的概率“主要着眼于逻辑不确定性的问题,假设可以获得无限的计算能力(和许多停止的预言级别)。理解Hutter的方法(以及使用无限的计算能力可以做什么)有助于充实我们对困难问题所在的理解。

  4. Demski的“合理的先验概率“提供可计算地近似的逻辑。在Demski之后,我们的工作主要侧重于创建逻辑句子的可近似概率分布,因为精炼和近似逻辑事先的行为非常类似于在逻辑不确定性下的推理行为。

  5. global的“非全知、概率推理和元数学“基本上遵循这一方法。本文提供了一些关于逻辑先验生成的早期实际考虑,并突出了一些有待解决的问题。


有关这个问题的更多历史研究,请参阅盖夫曼的丰富语言的概率…“ 和 ”资源有限的推理和算术语句分配概率.“


视频反思

人工智能问题的独特之处在于,一个足够先进的系统将能够比它的人类程序员做更高质量的科学和工程。亚博体育苹果app官方下载一个先进系统的许多可能的危险和好处都来自于它的自我引导能力达到更高水平的潜力,可能导致亚博体育苹果app官方下载智力爆炸

如果一个智能体通过递归自我完善实现了超级智能,那么最终系统的影响将完全取决于初始系统对比自己更智能的智能体进行可靠推理的能力。亚博体育苹果app官方下载一个系统可以使用什么样的推理方法来证明在一个更智能的系统的行为中具有极高的信心亚博体育苹果app官方下载?我们将这种推理称为“文氏反思”,以Vernor Vinge (1993),谁指出,这是不可能的,一般以准确预测的,它们比推理更智能代理的行为。

表演视频反思的推理必须必须推理抽象有关更多的智能代理。这几乎肯定会需要某种形式的高可信度的逻辑不确定推理,但代替逻辑不确定性的工作原理,推理证明(使用形式逻辑)是研究抽象推理最好的形式主义。因此,Vingean反思的现代研究需要在形式逻辑背景:

一阶逻辑

Miri的现有玩具模型用于学习自我修改的代理主要基于此逻辑。了解一阶逻辑的细微差别对于使用我们开发的工具至关重要,用于研究能够在类似系统中接近置信度的正式系统。亚博体育苹果app官方下载

我们通过构建能够在高度相似的系统中获得某种形式的置信剂的玩具模型来研究Vingean反思。亚博体育苹果app官方下载要进入切削刃,请阅读以下论文:

  1. Fallenstein & Soares的"视频反思:自我改善代理商可靠推理“介绍了Vingean反思领域,并激励了与Miri的研究计划的联系。亚博体育官网

  2. Yudkowsky的“拖延悖论“更详细地了解令人满意的解决方案,以便在Löbian障碍物之间走出一条良好的线路(从太少的”自信任“)和来自太少”的问题“)和来自的肆无忌惮的自信。

  3. 克里斯蒂安诺等人的"概率逻辑中真理的可定义性描述了一个早期的尝试,试图创建一个正式的系统,可以对自己进行推理,同时避免自我参照的悖论。亚博体育苹果app官方下载它成功了,但最终被证明是不可靠的。我的演练本文可能有助于将其放入更多的背景中。

  4. Fallenstein & Soares的"自我提升的时空嵌入智能中的自我参照问题“描述了我们的简单建议 - 验证者模型,用于研究产生略微改进的自己或”瓷砖“自己的代理商。本文演示了一种玩具场景,其中声音代理可以成功地铺设到(例如,高度信心)其他类似药剂。


尤多科夫斯基和赫雷肖夫的"平铺剂自修改AI“是一个较旧的,倾斜介绍了Vingean反射,这可能更容易使用我的演练

如果您对此研究主题感到兴奋,则还有许多其他相关技术报告。亚博体育官网不幸的是,他们中的大多数都不会很好地解释他们的动机,并且尚未进入他们的更大背景。

Fallenstein的“概率逻辑中的拖延症“说明了Christiano等人的概率原理系统是如何对拖延悖论的概述和脆弱的。亚博体育苹果app官方下载Yudkowsky的“分布允许瓷砖......“迈出一些早期步骤迈向概率的平铺设置。

Fallenstein的“减少数学强度......“描述了参数化多态性的一个不满意的属性,是Löbian障碍的部分解决方案。苏亚雷斯“Fallenstein的怪物”描述了hackish的正式系统,它避免了上述问题。亚博体育苹果app官方下载它还展示用于限制的药剂的目标谓词一个机构,该机构也可以通过参数多态性用于创建PP的一个比平铺剂纸探索较少限制的版本。Fallenstein的“无限下降的声音理论序列”描述了一个针对Löbian障碍的更优雅的部分解决方案,它现在是我们最喜欢的部分解决方案之一。

理解递归序数为理解这些结果提供了一个有用的上下文,可以通过阅读Franzén的“Transfinite进展:第二个看完整性。


易燃

随着人工智能系统在智能和能力方面的发展,它们的一些可用选亚博体育苹果app官方下载项可能允许它们抵制程序员的干预。我们称一个人工智能系统为“可亚博体育苹果app官方下载纠正的”,如果它与它的创造者所认为的纠正干预合作,尽管理性的代理人有默认的动机来抵制关闭它们或修改它们的偏好的尝试。

这个领域的研究基本上是全新的亚博体育官网,所以要想跟上进度,只需要阅读一两篇论文:

  1. Soares等人。的“易燃“介绍了这个领域,以及一些开放的问题。

  2. 阿姆斯特朗的“正确的价值观是通过冷漠学习“讨论一种在其最大化的实用功能之间漠不关心的一种潜在方法,这是朝向允许自我修改的代理的一小步。

我们目前的浮雕工作主要侧重于称为“关机问题”的小型子问题:如何构建在按下关机按钮时关闭的代理,并且不会导致或阻止按下的激励按钮?在该子问题中,我们目前专注于实用性漠不关心问题:如何构建一个代理,允许您切换它最大化的实用程序功能,而不会使它激励影响开关是发生影响?即使我们对公用事业漠不关心问题有令人满意的解决方案,这不会产生令人满意的解决方案,因为它似乎仍然难以以免受不正常的方式充分指定“关闭行为”。Stuart Armstrong已经编写了几篇关于“减少影响”的规范的博客帖子:

  1. 归化影响减小认可
  2. 减少对环境影响AI:没有后置声道

这些第一次尝试尚未完整解决方案,但他们应该让您加快我们目前对问题的理解。


在可以驯服的早期工作可以在网络论坛中找到少错.大多数相关结果都是在上述论文中捕获的。其中一个更有趣的是“蛋糕或死亡,是“动机价值选择”问题的一个例子。在本例中,对于其效用函数具有不确定性的代理而言,避免信息可以减少其不确定性。

阿姆斯特朗的“减少影响的数学计算:需要帮助“列出指定减少影响代理及其”的初步思想在实践中减少了影响:随机抽样未来勾勒出一种评估未来是否受到影响的简单方法。

阿姆斯特朗的“效用无差异“概述了原始的实用性漠不关心的想法,而且历史原因很有趣。它由上面链接的“通过漠不关心的剪切”纸张括起来。


价值学习

由于我们对我们的价值观的理解是模糊和不完整的,可能是将值加载到强大的AI中最有希望的方法是指定代理的标准学习我们的价值观不断。但这也带来了一些有趣的问题:

假设您构建了一个训练集,其中包含许多结果,其中充满了快乐的人(标记为“好”),其他结果则充满了悲伤的人(标记为“坏”)。从这些数据中,最简单的概括可能是,人类真的喜欢人形微笑的东西:这个代理可能会尝试构建许多看起来快乐的微型电子人。

价值学习必须是一个在线过程:系统必须能够识别歧义,并向用户提出关于这些歧义的查询。亚博体育苹果app官方下载它不仅必须识别它不知道如何分类的情况(例如它不能分辨一张脸是高兴还是悲伤的情况),而且必须确定哪些方面的训练数据没有提供任何信息(例如,当您的训练数据从来没有显示充满人形机器人的结果,这些机器人看起来很高兴,但被标记为无用)。

Of course, ambiguity identification alone isn’t enough: you don’t want a system that spends the first three weeks asking for clarification on whether humans are still worthwhile when they are at different elevations, or when the wind is blowing, before finally (after the operators have stopped paying attention) asking whether it’s important that the human-shaped things be acting of their own will.

为了让一个agent可靠地学习我们的意图,代理必须构造和精制其运算符的模型,并使用该模型通知其查询并改变其偏好。要了解有关这些问题和其他问题的更多信息,请参阅以下内容:

  1. 苏亚雷斯“价值学习问题“提供与价值学习相关的一些公开问题的一般概述。

  2. 杜威的“学会珍惜什么进一步讨论了价值学习的困难。

  3. 正交论文认为价值学习不会在默认情况下得到解决。

  4. Macaskill的“规范性不确定性“提供讨论规范性不确定性的框架。被警告,全部工作,同时包含许多洞察力,很长。你可以逃脱掠夺零件和/或跳过一些,特别是如果你对其他积极研究的其他领域更兴奋。亚博体育官网


解决规范不确定性的一种方法是Bostrom & Ord的“议会模型这表明,价值学习在某种程度上相当于选民聚集问题,而且许多价值学习系统可以建模为议会投票系统(其中选民是可能的效用函数)。亚博体育苹果app官方下载

欧文棉巴勒特的“正常化的几何原因讨论了效用函数的规范化;这与道德不确定性下的推理玩具模型有关。

法伦斯坦和斯蒂农的"响度讨论了对聚合效用函数的关注,因为效用函数编码的偏好在正仿射变换下被保留(例如,效用函数被缩放或移位)。这意味着,为了规范化可能的函数集,需要特别注意。


其他工具

对任何学科的精通都可能是一个非常强大的工具,尤其是在数学领域,在这个领域,看似不相关的主题实际上是紧密相连的。数学的许多领域都有这样一种特性:如果你对它们理解得非常非常好,那么无论你去哪里,这种理解都是有用的。考虑到这一点,虽然下面列出的主题对于理解MIRI的积极研究来说是不必要的,但对这些主题的理解在数学工具箱中构成了一个额外的工具,在进行新的研究时,它通常会被证明是非常有用的。亚博体育官网

离散数学

教科书可用在线的.大多数数学研究的不是连续结构就是离散结构。许多人发现离散数学更直观,对离散数学的扎实理解将帮助您快速掌握许多其他数学工具的离散版本,如群论、拓扑和信息论。


线性代数

线性代数是几乎在数学中出现的那些工具之一。坚实地了解线性代数将有助于许多域。


类型理论

集合论通常用作现代数学的基础,但它不是唯一可用的人选。类型理论也可以作为数学基础,并且在很多情况下,类型理论是手头的问题更适合。类型理论也桥梁多计算机程序和数学证明之间的理论差距,因此,往往是某些类型的人工智能研究有关。亚博体育官网


类别理论

范畴理论在一个非常高的抽象层次上研究许多数学结构。这可以帮助您注意到不同数学分支中的模式,并使您的数学工具更容易从一个领域转移到另一个领域。


拓扑

拓扑是其中一个题目的另一个,其中几乎在数学中出现。坚实地了解拓扑结果在许多意想不到的地方有助于帮助。


可计算性和复杂性

MIRI的数学研究正致力亚博体育官网于最终与计算机程序相关的解决方案。对计算机能力的良好直觉通常是必不可少的。


程序验证

程序验证技术允许程序员变得自信,一个具体的方案将根据一些规范实际上行事。(当然,依然难以验证说明书描述了预期的行为。)虽然MIRI的工作当前未验证真实世界的程序而言,它是非常有用的了解现代程序验证技术可以和不能做什么。

理解任务

为什么这类研究首先?亚博体育官网

超明

本指南在很大程度上假设您已经载有Miri的使命,但如果您想知道为什么这么多人认为这是一个重要而紧急的研究领域,亚博体育官网超明提供良好的概述。


理性:从AI到僵尸

这本电子大部头收录了六卷文章,解释了MIRI对人工智能的观点背后的大部分哲学和认知科学。


不平衡

对微观经济学和认识论的讨论,他们承担了对社会误解和盲点的讨论,包括被忽视的研究机会。亚博体育官网试图回答基本问题,“雄心勃勃的项目何时可以实现不寻常的目标希望成功?”