Beta 分布

对于贝叶斯主义者,从贝叶斯的角度去看伯努利过程,会得到一些重要而且有意思的结果。

伯努利过程

伯努利过程是一系列离散的独立同分布随机试验,当我们具体看伯努利过程的一些分布函数的时候,会发现这一类分布有着相似的结构。

二项分布

几何分布

帕斯卡分布

找到一个统一的公式去描述这些分布,那就是 Beta分布 了:

其中 $B(\alpha,\beta)$ 是标准化函数,他的作用是使总概率为1,$\alpha$ 和 $\beta$ 是形状参数,不同的参数选择不但可以表示常见的二项分布,几何分布等,它更有一个好处,那就是你跟本不用去管某个试验服从什么分布。用 $\alpha,\beta$ 可以调出任意你想使用的分布图像。

抛个硬币吧

写概率论的文章总是一言不合就抛硬币,这就像是达芬奇画鸡蛋,基础的掌握也是思维的形成。抛硬币的试验可以从几何学角度来直观了解beta分布的工作原理。先撇开Beta分布,来看下简单的变体,没有了-1的次方项,也没有了用于归一化的常数。

如果抛硬币,抛出7次正面,3次反面,如何判断这个硬币的概率分布。注意我们都是贝叶斯主义者,硬币的概率是个随机变量,不要用频率主义去把概率当作一个定值。思考最简单的伯努利过程,7次正面,3次反面,概率分布是关于x的函数(随机变量),那么这个类似 beta分布的函数就是:

Beta Distribution Bernoulli Toil

这幅图是很直观的表达,当某次试验出现正面7次,背面3次的情况下,函数图像在0.7附近得到最大值。也就是说,现在的概率极有可能是0.7,当然也有可能是其他的情况,比如说0.5,只是概率更小罢了。这就是我们不知道服从某种特定分布的参数分布曲线。

更笼统的说,$\alpha,\beta$ 决定了分布的形状。

Beta 分布形状

当 $\alpha,\beta$ 取不同的值时,Beta分布会随之变化。其中有几种特殊情况。

Beta_distribution_pdf

首先是 $\alpha=\beta$ 的情况。分别使用动画和3D来演示。

当 $\alpha=\beta$ 时, beta分布都是对称的,如果小于1,分布是u形,这时的pdf也叫做反正弦分布(arcsin distribution),反正弦分布的CDF是反正弦函数。如果形状参数大于1,分布呈山峰状凸起,特别注意,当 $\alpha=\beta = 1$ 时,分布为[0,1]均匀分布。当 $\alpha=\beta = 2$ 时,pdf为抛物线。

beta pdf a = b

当 $\alpha\neq\beta$ 时, Beta pdf 函数呈较大值一方倾斜,$\alpha$ 较大,pdf峰值向1偏移,$\beta$ 越大,pdf峰值向0偏移。

beta pdf a != b

贝叶斯推断 (Bayesian inference)

Beta分布在概率统计中非常好用。因为在贝叶斯推断下,beta分布有个非常棒的特点。那么先来看看贝叶斯推断。

在统计模型中,我们往往关心的是模型的参数,比如说抛出硬币的正面概率是多少,一个射击运动员平均射击环数。在贝叶斯主义看来,这些参数并不是一个明确的数,而是一个概率分布,在某些地方值大一些,就说明参数更有可能分布在这些地方。这个参数,被定义为随机变量 $\Theta$。

随机变量 $\Theta$ 中某一个值 $\theta$ 可能就是模型的真值,在这个真值下,我们有做了一些观察,即

同理这些观察也都是随机变量,更进一步,他们是在某参数下的条件概率,也即联合分布。 可以表示为 或者 。现在有了参数的分布 , 也有了观察量,根据条件概率公式,我们就得到了贝叶斯角度的贝叶斯推断:

这里只给出了离散模型,各部分都可替换成各自的连续模型。等式右边的部分我们都有了,分母部分是用来归一化的, 也被称作先验概率, 也是似然函数,等式左边的部分即为在先验存在下,通过一些观察,更新的参数分布概率,也被称作后验概率。

关于贝叶斯推断更详细的内容可参考贝叶斯推断。既然提到贝叶斯,可不是让他白来的,beta 分布的一些特性,让贝叶斯推断发挥出了巨大作用。

共轭先验 Conjugate prior

暂时先回到抛硬币的例子中,如果观察到了某次试验结果k,选择使用beta分布,不考虑分母常数,也不进行精确计算:

根据前面所讲,我们不论假设先验分布是均匀分布,二项分布,几何分布还是其他伯努利过程中的分布情况,后验概率都可以得到一个统一的形式:

其中 $B(\alpha,\beta)$ 是 beta函数,发现新的beta分布,新的 $\alpha’=\alpha+k$,新的 $\beta’=n-k+\beta$,当 $\alpha=\beta = 1$ 时,形状参数为k+1和n-k+1,如果我们认为 $\alpha$ 是抛出正面的次数,$\beta$ 是抛出反面的次数,这不就是我们抛硬币的例子的beta分布吗?这种特性就是共轭先验。有着这种特性的函数并不多,另一个有共轭先验特性的分布就是正态分布。

后验分布与先验分布是同种类型的分布。这又什么用呢?

首先,可以迭代了。先验分布通过新的观察结果可以更新后验分布,新的后验分布又可以做为先验分布进行下一次的更新。

其次,给贝叶斯推断提供了理论依据,为什么可以用beta分布做为观察模型的先验分布,每次观察试验不会改变分布模型,改变的只是分布形状。

归根结底,共轭先验让计算变简单了。beta分布的众数,期望和方差分别为:

免去了计算指数,阶乘的复杂运算,只用形状参数就足够了,是不是很方便呢?

又要抛硬币了

这次抛硬币是对开始那个例子的完善。我们说观察一枚硬币,观察前有人告诉我以前有人抛过这枚硬币,出现了7次正面,3次反面。我们估计这个硬币是服从beta分布的,即 $X\sim Beta(8,4)$,开始观察5次抛掷结果以后,发现出现了2次正面,三次反面,那我们可以直接计算了:

在新的观察下,概率分布的峰值从0.7移动向0.6。从整个计算过程中,有没有发现,我们根本不用去考虑以前的结果,只要在先验的基础上变更形状参数就行了。

Beta distribution of coin toil

一个更加实际的例子

逛淘宝的时候,想买一双鞋子,同一双鞋子发现了两个不同的商家,商家A有10条评论,9个好评1个差评。商家B有500条评论,400条好评100个差评。那么应该去买哪个商家的鞋子。

鞋子的质量是商家的参数,商家一定存在反应鞋子质量的真值,但是我们不知道。但是,根据大数定理,大量的样本会让结果更趋近于真值。商家A可以使用 $\alpha=10,\beta=2$的Beta分布,商家B可以使用 $\alpha=401,\beta=101$的Beta分布,商家的质量在[0,1]内表示。得到结果:
beta distribution o seller

取一个95%的置信区间,也就是说,真值有95%的概率在这个区间内。商家A[0.58,0.98],商家B[0.76,0.84]。商家A的均值更高,但是方差更大。这里就有两个不同的策略,如果考虑的是产品质量的稳定性,就选择B商家,因为商家B的质量标准底线比商家A更高。另一方面,如果你愿意看脸,商家A的商品有很大机率高达0.98的质量标准。

这就是Beta分布在生活中直观的表现。Beta分布的应用不止于此,当其进化为更加抽象的狄利克雷分布时,就是无监督贝叶斯模型的基础了,而后者,就是现在学术领域非常重要的一个分支了。以后我会慢慢把他补上的。