纯贝叶斯神经网络没有意义?OpenAI科学家何出此

近日,OpenAI 研究科学家 Carles Gelada 发布推文,表示「贝叶斯神经网络没有意义」。一石激起千层浪,社区对此言论展开了激烈的讨论。那么贝叶斯神经网络真的没有意义吗?Carles Gelada 何出此言?我们来看这篇文章。

Carles Gelada 和 Jacob Buckman 认为推文下面的大部分回复忽略了他们对 BNN 批评的重点,于是撰写博客,更加全面地阐述其观点。

以下是标题为《Bayesian Neural Networks Need Not Concentrate》的最新版博客内容(原版博客标题为《A Sober Look at Bayesian Neural Networks》):

贝叶斯神经网络的支持者经常称,训练得到的 BNN 输出分布能够捕捉认知不确定性(epistemic uncertainty)。认知不确定性对大量应用具备宝贵价值,我们认同使用贝叶斯方法的做法。但是,我们认为 BNN 需要信息丰富的先验才能处理不确定性。我们证明,如果先验不能区分可泛化和不可泛化的函数,则贝叶斯推断无法提供有用的不确定性。这就对标准论点提出了质疑,标准论点即:当真实先验分布未知时,「信息不足的先验」是合适的。

什么是贝叶斯推断?

在 Twitter 讨论中,很多研究者认为「贝叶斯」是「不确定性感知」(uncertainty-aware)的同义词,或者使用结果集合或分布的算法一定是贝叶斯算法。我们想要厘清一点,在我们看来,这种描述有失公允。

使用贝叶斯方法处理不确定性,需要利用贝叶斯定理将先验分布更新至后验分布中,这无疑是最流行的方法之一。但还存在其他非贝叶斯方法,例如集中不等式就是非贝叶斯方法,它们允许计算置信区间和不确定性集合。

贝叶斯定理的核心是条件概率分布之间的关系:

毫无疑问,这是非常强大且基础的关系,但任何「信念更新」(belief updating)或「可能世界分布」(distributions over possible worlds)的概念都只是后此谬误(post hoc)的解释。贝叶斯定理表示:对于任意两个非独立随机变量 A 和 B,当 B 取特殊值 b 时,随机变量 A 的分布发生改变。用标准学术语言来说,项 Pr(A=a) 即先验,Pr(B=b∣A=a) 是似然,Pr(A=a∣B=b) 是后验。该用语来源于这一事实:随机变量 A 具备原始(先验)分布,使用观测到的 b 值可提供更新分布(后验)。

我们来想一下如何使用贝叶斯框架解决分类问题。

存在输入空间 χ 和输出空间 Y,假设它们均为离散空间,存在函数族 f:χT 是二者之间的映射。将每个 f 看作向量 f∈Y^χ,在索引 x∈χ 处索引向量相当于估计函数 f_x=f(x)。存在我们感兴趣的真值函数 f^ :χY。用贝叶斯方法解决该问题,即在现实世界中存在随机变量 F^ ,f^ 是其中的一个样本。

我们将使用 Pr(F^ =f) 表示 F^ 的分布。(下文用缩写形式 Pr(f) 表示 Pr(F^ =f))。由于输入-输出对数据集 D={(x_i,F^ (x_i)} 不独立于 F^ ,因此我们可以使用贝叶斯定理来了解 F^ 的分布,前提是我们已经观察了数据集 D。