我们的2018年筹款活动正在进行中!!

新纸:古德哈特定律的变体分类“

γγ论文

Goodhart定律变量的分类古德哈特定律规定一旦为了控制目的而施加压力,任何观察到的统计规律将趋于崩溃。”然而,这不是一个单一的现象。在货物分类学,我提出(至少)存在四种不同的机制,通过它们可以对代理度量进行优化:回归,极值,因果关系的,对抗性的。

David Manheim现在帮助撰写了我的分类法,作为一篇深入研究这些机制的论文。“古德哈特定律变体的分类."从结论来看:

本文试图对任何用于优化的算法系统中出现的简单统计失调进行分类,亚博体育苹果app官方下载在许多依赖于度量进行优化的人类系统中亚博体育苹果app官方下载。所强调的动态对于解释政策设计中的许多感兴趣的情况很有用,在机器学习中,以及关于AI对准的具体问题。

在政策上,这些动态性通常被遇到,但很少被清楚地讨论。在机器学习中,这些误差包括由于使用有限的数据和选择过于简约的模型而引起的极值Goodhart效应,由于对目标的短视考虑而产生的错误,以及忽略系统中的因果关系时出现的错误。亚博体育苹果app官方下载最后,在AI对准中,这些问题是使系统朝着目标一致的基础,亚博体育苹果app官方下载并且确保一旦系统开始针对它们的优化,系统的度亚博体育苹果app官方下载量就不会产生反常的影响。

V指真正的目标,虽然U引用与此目标相关的代理V并且正在以某种方式对其进行优化。那么古德哈特定律的四个亚类如下:


回归古德哈特-在选择代理措施时,你不仅为真正的目标而选择,同时也因为代理和目标的不同。

  • 模型什么时候U等于V+X,在哪里?X有些噪音,大点U价值可能很大V价值,而且还很大X价值。因此,什么时候?U是大的,你可以期待V可以预见,小于U.
  • 身高与篮球能力相关,而且确实有直接的帮助,但是最好的球员只有6'3″,而一个20多岁的随机7′人或许就不那么好了。

极端古德哈特-代理采取极端值的世界可能与观察代理和目标之间的相关性的普通世界非常不同。

  • 模型图案往往在简单的关节处断裂。世界的一个简单子集是那些世界,其中U非常大。因此,两者之间有很强的相关性UV观察自然发生U价值观可能不会转移到U非常大。此外,因为自然发生的世界可能相对较少,其中U很大,非常大的U可能和小巧巧巧合V不破坏统计相关性的值。
  • 有记录以来最高的人,罗伯特·沃德洛,是8“11”(2.72米)。由于脑垂体紊乱,他长到了那个高度;他会努力打篮球的,因为他他需要腿撑才能走路,而且他的腿和脚几乎没有感觉。”“

因果报应-当代理和目标之间存在非因果关系时,对代理进行干预可能无法对目标进行干预。

  • 模型如果V原因U(或)VU两者都是由第三种原因引起的。然后两者之间的相关性VU可以观察到。然而,当你干预增加时U通过一些不涉及其中的机制V,你也不会增加V.
  • 例如:那些想长高的人可能会注意到身高与篮球技术相关,并决定开始练习篮球。

敌方古德哈特-在优化代理时,你鼓励对手将他们的目标与你的代理人联系起来,这样就破坏了与你目标的相关性。

  • 模型考虑代理商带着不同的目标W.因为它们依赖于共同的资源,,WV当然是反对的。如果优化U作为代理V,和知道这一点,,鼓励做大U值大相符W价值观,从而防止它们与大型数据重合V价值观。
  • 例子:有抱负的NBA球员可能只是谎报身高。

有关此主题的更多信息,看尤德考斯基的文章,,古德哈特诅咒.

注册获取新的MIRI技术结果的更新

每次发表新的技术论文时都要得到通知。