新论文:“委托强化学习”

||论文

Delegative强化学习MIRI研亚博体育官网究助理Vanessa Kosoy写了一篇新论文,”委派强化学习:学习在一点帮助下避免陷阱Kosoy将在ICLR 2019年大会上发表论文SafeML车间在两个星期。抽象的写着:

对于强化学习来说,大多数已知的后悔界限要么是情景性的,要么是假定在一个没有陷阱的环境中。通过允许算法偶尔将一个操作委托给外部顾问,我们得到了一个遗憾界限,而不做任何假设。因此,我们得出了一种基于一次性模型的主动强化学习,我们称之为DRL(委托强化学习)。

我们为了证明后悔界限而构造的算法是后验抽样强化学习的一种变体,并辅以一个子程序来决定应该委托哪些操作。由于参数必须根据目标时间折扣进行调整,因此该算法不是随时都可以使用的。目前,我们的分析仅限于有限数量的假设、状态和行为的马尔科夫决策过程。

Kosoy关于DRL的工作的目标是让我们深入了解具有“人在回路”和正式性能保证(包括安全保证)的学习系统。亚博体育苹果app官方下载DRL试图通过提供可以获得这种性能保证的模型,将我们推向这个方向。

虽然这些模型仍然做出了许多不切实际的简化假设,但Kosoy认为DRL已经捕捉到了问题的一些最基本的特征——她对如何进一步开发这个框架有一个相当大胆的设想。

Kosoy之前在帖子中描述过DRL委派一个理智的顾问进行强化学习。这里描述的DRL Kosoy的一个特性(由于空间原因)在本文中被省略了,那就是DRL的应用腐败。给定特定的假设,DRL确保一个正式的代理将永远不会有它的奖励或建议通道被篡改(损坏)。作为一种特殊情况,代理自身的顾问不能导致代理进入损坏状态。类似地,对“委托强化学习”中描述的陷阱的一般性保护也保护了主体免受有害的自我修改。

另一组DRL结果没有被写到论文中使用DRL减轻灾难。在这个变体中,DRL代理可以减轻建议者自己无法减轻的灾难——在标准DRL中,关于建议者的更严格的假设并不支持这一点。

注册以获得最新的MIRI技术结果

每发表一篇新的技术论文就会得到通知。