嵌入式代理是写了由亚伯兰Demski和Scott Garrabrant,可在AI对准论坛这里。还有的岗位作为一个较短的版本手绘序列,和轻改写版本上的arXiv。
我们在下面提供了链接和参考,按照它们在相关主题/部分中出现的顺序列出。
一般
- 马库斯·特。2012“。通用人工智能的一个十年“。在强人工智能的理论基础4。
- 内特·苏亚雷斯。2017年“确保智慧超人类智能已经取得积极成果“。MIRI博客。
- 尤德科夫斯基。2018年。“火箭对准问题“。MIRI博客。
决策理论
- 埃利泽·尤多科斯基和内特·苏亚雷斯。2017年“功能定位理论:工具理性的新理论“。的arXiv:1710.05060 [cs.AI]。
- 斯科特Garrabrant。2017年“两大障碍为逻辑电感决策理论“。智能代理基金会论坛。
- 帕特里克LaVictoire。2015年。简介吊射定理在MIRI研究亚博体育官网. 2015-6年MIRI技术报告。
- 罗伯本辛格。2017年。“决定是为了使坏的结果不一致“。MIRI博客。
- 魏岱。2009年。“迈向一个新的决策理论“。少错。
- 弗拉基米尔涅索夫。2009年。“反抢劫“。少错。
嵌入式世界模型
- 亚伯兰Demski。2018年“对技术解释的新技术注解“。少错。
- 内特·苏亚雷斯。2015年。现实世界模型的形式化的两个问题。MIRI技术报告2015-3。
- 扬雷克。2016年非参数一般强化学习。博士论文,澳大利亚国立大学。
- 洛朗Orseau和标记环。2012“。时空嵌入式智能“。在第五届国际人工智能大会。斯普林格。
- 贝尼亚Fallenstein,杰西卡泰勒,和保罗·克里斯蒂。2015年“反光神谕:一个基金会的经典博弈论.” 阿十四:1508.04145[人工智能].
- 扬雷科,杰西卡泰勒和Benya Fallenstein。2016年“真理问题的形式解在第32届人工智能不确定性会议上发表的论文。
- 奈特·索雷斯和本贾·费伦斯坦。2015年。推理的逻辑下的不确定性问题。MIRI技术报告2015-1。
- 亚伯兰Demski。2018年“一个Untrollable数学家画报“。少错。
- 埃利泽·尤多科斯基。2017年“相干决定意味着一致公用事业“。任意。
- 斯科特Garrabrant,Tsvi本森 - Tilsen,安德鲁·玛琳,内特·苏亚雷斯和杰西卡泰勒。2016年“逻辑归纳“。的arXiv:1609.03543 [cs.AI]。
- 埃利泽·尤多科斯基。2015年“本体鉴定“。任意。
- 彼得·德布兰科。2011年。“人工智能体价值体系中的本体论危机亚博体育苹果app官方下载.” 第十四章:1105.3821[人工智能]
- 卡斯帕Oesterheld。2017年“自然化感应 - 一个挑战证据和因果决策理论“。少错。
- 罗布本辛格。2013年。“建造现象学桥梁“。少错。
- 托马斯·内格尔。1986年。无处可寻的景色。牛津大学出版社。
强大的代表团
- 斯图尔特·阿姆斯特朗和索伦Mindermann。2017年“奥卡姆剃刀不足以推断不合理代理的首“。的arXiv:1712.05812 [cs.AI]。
- 贝尼亚Fallenstein和内特·苏亚雷斯。2015年。Vingean反思:可靠推理的自我改进剂。MIRI技术报告2015-2。
- 埃利泽·尤德科夫斯基和马塞洛·赫雷霍夫。2013年。“平铺剂自修改AI和Löbian障碍“草稿。
- 大卫·曼海姆和斯科特Garrabrant。2018年“古德哈特定律的变种分类“。的arXiv:1803.04585 [cs.AI]。
- 内特·苏亚雷斯。2018分之2015。“价值学习问题“。在人工智能安全和安保。查普曼和霍尔。
- 内特·索雷斯、本贾·法伦斯坦、埃利泽·尤德科夫斯基和斯图尔特·阿姆斯特朗。2014/2015年。“可以驯服“。论文发表在2015年AAAI道德与人工智能研讨会。
- 保罗·克里斯蒂。2016年“该知情监督问题“。AI对齐。
- 迪伦哈德菲尔德 - Menell,斯图尔特罗素,彼得Abbeel和安卡德拉甘。2016年“合作逆强化学习“。在神经信息处理系统研究进展亚博体育苹果app官方下载(NIPS)29。
- 斯科特Garrabrant。2017年“逻辑Updatelessness作为鲁棒团问题“。少错。
- 埃利泽·尤多科斯基。2015年“价值的复杂性“。任意。
- 斯科特Garrabrant。2018年“优化放大“。少错。
- 查尔斯·古德哈特。1981年“货币管理的问题:英国的经验。”在通货膨胀、萧条与西方经济政策。Rowman&尔德。
- 詹姆斯·史密斯和罗伯特·温克勒。2006年。“优化器的诅咒:怀疑与Postdecision惊喜的决策分析“。在管理科学52:3。
- 杰西卡·泰勒。2016年。“量子化器:有限优化中最大化器的一种更安全的选择“。论文发表在AAAI 2016 AI,伦理与社会研讨会。
- 丹尼尔·杜威。2011年。“学习什么价值“。在2011 AGI的诉讼。斯普林格。
- 亚伯兰·德姆斯基。2017年。“稳定的指针,以价值:一个代理在其自己的效用函数嵌入“。智能代理基金会论坛。
- 汤姆·埃弗里特、维多利亚·克拉科夫纳、劳伦特·奥索、马库斯·赫特和谢恩·莱格。2017年。“强化学习损坏的奖赏通道“。在人工智能的第26届国际联合会议论文集。
- 保罗·克里斯蒂,巴克Shlegeris和达里奥Amodei。2018年“通过放大弱专家监督学习者强“。的arXiv:1810.08575 [cs.LG]。
子系统亚博体育苹果app官方下载对齐
- 埃利泽·尤多科斯基。2017年“非对抗性原则“。任意。
- 斯科特Garrabrant。2018年“规模稳健性“。少错。
- 埃利泽·尤多科斯基。2015年“万能试验AI安全“。任意。
- 伊恩·古德费洛,让POUGET - 阿巴迪,梅迪·米尔扎,丙戌,大卫·沃德 - 法利,Sherjil Ozair,亚伦库维尔和约书亚·本焦。2014年“生成对抗性篮网“。在神经信息处理系统研究进展亚博体育苹果app官方下载(NIPS)27。
- 埃利泽·尤多科斯基。2016年“优化后台程序“。任意。
- 埃文Hubinger,克里斯·范·Merwijk,弗拉基米尔Mikulik,Joar Skalse,和斯科特Garrabrant。即将出版。“内层序列问题”。草案。
- 达里奥Amodei,克里斯·奥拉,雅各布·斯坦哈特,保罗·克里斯蒂,约翰·舒尔曼,和丹鬃毛。2016年“在AI安全的具体问题“。的arXiv:1606.06565 [cs.AI]。