新论文:“真理之粒问题的形式化解决”

||文件

真理问题的形式解

未来人类研究所研究员亚博体育官网简·雷克MIRI的研究员杰亚博体育官网西卡·泰勒和本雅·费伦斯坦刚刚在阿联酋2016解决了博弈论中一个长期存在的开放性问题:真理问题的形式解.”

博弈论者有专门的技术,只要他们的信念包含一个“真理颗粒”,即分配给他们正在玩的实际博弈的非零先验概率,那么他们最终在迭代博弈中对其他博弈者表现出色。在多人游戏中,获得这种真实感以前是一个未解决的问题,因为当代理试图对依次建模的代理建模时,它们可能会遇到无限的回归。这个结果显示了如何打破这个循环:通过反射神谕.

在这一过程中,Leike、泰勒和Fallenstein为研究多Agent困境提供了一个严密而通用的基础。这项工作为近似纳什均衡在重复博弈中,把决策和博弈论中的各种问题合并成一个共同的框架。

该报摘要写道:

在多智能体环境中,贝叶斯智能体在其先验概率为正的情况下学习预测其他智能体的策略(换句话说,其先验包含一针见血). 找到一个相当大的策略类,其中包含与该类相关的Bayes最优策略,称为真理问题. 只有少数阶级知道有一点真理,而文献中也包含了一些相关的不可能的结果。

本文给出了一类完全真值问题的形式解和一般解:我们构造了一类包含所有可计算策略的策略以及类上每一个下半可计算先验的Bayes最优策略。当环境未知时,Bayes最优代理可能无法以最优甚至渐近的方式工作。然而,基于汤普森抽样的智能体在任意未知的可计算多智能体环境中收敛到发挥ε-Nash均衡。虽然这些结果是纯理论的,但我们证明它们可以任意近似计算。

传统上,当对模拟其他程序属性的计算机程序进行建模时(例如,当对一个游戏的代理推理进行建模时),假设第一个程序可以访问一个oracle(例如一个停止的oracle),该oracle可以回答关于第二个程序的任意问题。这是可行的,但是它对建模代理没有帮助彼此.

虽然停止的oracle可以预测任何孤立的图灵机的行为,但它不能预测访问停止的oracle的另一个图灵机的行为。如果这是可能的,第二台机器可以使用它的oracle来计算第一台机器oracle对认为它会做什么,此时它可以做相反的事情,设置说谎者悖论脚本。出于类似的原因,两个拥有相似资源的代理,在现实环境中运行而没有任何停顿的预言,不能完全通用地相互预测。

博弈论者知道如何建立弱博弈者和强博弈者之间非对称博弈的形式模型,其中强博弈者理解弱博弈者的策略,而不是相反。然而,由于上述原因,实力相似的代理之间的博弈一直未能完全形式化。因此,博弈论到目前为止还没有为设计在包含类似强度的其他代理的复杂迭代博弈中表现良好的代理。

通常,构建理想代理的方法是让代理考虑大量可能的策略,预测世界将如何响应每个策略,然后通过某种度量选择最佳策略。然而,在多人游戏中,如果你的代理考虑了一大串它和对手都可能玩的策略,那么对对手来说最好的策略通常是一些不在你列表中的替代策略。(如果您将该策略添加到列表中,那么对于对手来说,新的最佳策略现在是一个不在列表中的新替代策略,依此类推。)

这是一个真实的问题,首先由卡莱和莱勒1993年:定义一类足够大的政策,使之有趣和现实,并且对认为策略类在类内的代理的最佳响应.1个

Taylor和Fallenstein发展了一种形式主义,使解决方案能够:反思的神谕能够回答关于有同等能力的神谕的代理人的问题。Leike领导了一项工作,证明了这种形式主义可以解决真实问题,并且在此过程中,Bayes最优策略一般不会收敛到Nash均衡。汤普森抽样然而,它确实收敛到纳什均衡——这一结果来自于另一篇发表在2016年联合国大学国际研究所、莱克、拉蒂莫尔、奥索和赫特的论文。”汤普森抽样在一般环境下是渐近最优的.”

反射神谕的主要特点是它们通过在相关情况下随机化来避免对角化和悖论。2个这使得能够访问反射甲骨文的代理能够始终如一地对同样可以访问反射甲骨文的任意代理的行为进行推理,这反过来使得能够通过自己的能力(而不是通过菲亚特或假设)来建模收敛到纳什均衡的代理。

此框架可用于定义多个副本之间的游戏阿喜. 原来的配方,爱喜不能接受关于它自身存在的假设,或关于类似强大代理的存在性;经典Bayes最优代理必须比其环境更大、更智能。然而,通过访问反射式oracle,费伦斯坦、索罗斯和泰勒AIXI在避免对角化的同时,能够有意义地接受关于自身和自身副本的假设。

本文的另一个主要创新之处在于,反射神谕是有限可计算的,因此允许通过任意算法进行近似。因此,反射神谕范式对于研究一般智能主体之间相互理解和建模的博弈论问题很有价值。


注册获取新的MIRI技术结果的更新

每次发布新的技术论文时都会收到通知。


  1. 对于非常小的政策阶层来说,解决一点真相问题并不难。考虑一个囚徒困境,在这个困境中,另一个玩家只能选择“合作直到对手失败,然后永远失败”或“合作”的策略n个连续几次(或直到对手失败,以先发生者为准),然后永远失败。”莱克、泰勒和费伦斯坦注意到:

    Bayes最优行为是合作直到后验相信下一个代理在下一个时间步中的缺陷大于某个常数(取决于折扣函数)然后再缺陷。

    但这本身就是我们正在考虑的一个策略。如果两个参与者都是Bayes最优的,那么他们都会有一个事实(即,他们的实际策略被另一个参与者指定为非零概率)“因此他们都收敛到Nash均衡:要么他们永远合作,要么在某个有限的时间后他们都永远失败。”

    不过,稍微扩展代理可能部署的策略列表可能会使您很难找到包含一点真实信息的策略类。例如,如果在policy类中添加了“以牙还牙”的内容,那么根据前面的内容,可能会丢失一点真相。在这种情况下,如果第一个代理认为第二个代理很可能“总是有缺陷”,但可能是“针锋相对”,那么最好的策略可能是类似“缺陷直到他们合作,然后打针锋相对”,但这个策略不在策略类中。本文解决的问题是如何为更富裕的政策阶层找到包含一点真理的先验知识。

  2. 具体地说,如果指定机器返回概率大于指定概率的1,则反射oracles输出1第页,如果机器输出0的概率大于1,则输出0-第页. 当概率是第页,但是,或者机器有可能不会停止,并且第页达到此概率质量时,oracle可以输出0、1或在两者之间随机。这使得反射神谕可以避免说谎者悖论的概率版本:任何试图向反射神谕提出一个无法回答的问题的尝试都将产生一个无意义的占位符答案。
  3. 感谢Tsvi Benson Tilsen、Chana Messinger、Nate Soares和Jan Leike帮助起草了这份声明。