贝叶斯统计初探

引子:

贝叶斯统计和经典统计是两种不同的思考方法,有不同也有联系,一方面,不能把他们绝对地视为完全对立的不同方法。 另一方面,虽然在某些特殊条件下,贝叶斯统计和经典统计会在数学形式上表现得一模一样,但我们并不能简单的就在两个数学公式之间画个等号。为了探究关于贝叶斯和经典统计的不同思考方式,我像苦行僧一般修行,翻阅大量的资料,苦思冥想,最终悟出一二。就像突然悟出了某本武林秘籍的真谛,激动之情难以言表。现在就慢慢拨开贝叶斯统计的表象,看看他里边究竟是什么。

不论是概率论,随机过程,系统辨识,还是机器学习,概率图模型,模式识别,贝叶斯都是一个不可能抹去的名字。这也是第一次,我感受到数学和哲学之间纠缠不清的暧昧关系,我也想先从哲学的角度去看看贝叶斯统计和经典统计。

简单来说,经典统计是对世界,对事件的客观认识。客观认识是符合直觉的,一个自然界的规律已经存在,如果想要了解这个规律,就要一遍遍的观察。就拿抛硬币这个最简单的例子来说,当一枚硬币造好的那一刻起,抛出正面和抛出反面的可能性就被决定了,只要一个有毅力的人不断的抛这枚硬币,一千次,一万次,根据弱大数定律,最终结果会无限逼近这个可能性,即出现多少次正面,多少次反面。这就是一个最简单的经典统计的例子,有些人发现了,要发现这个出现正反面的可能性,需要重复性的试验,所以这也被称作频率统计。自然规律已经存在,剩下的就是靠样本来发现。

贝叶斯统计,在哲学上完全相反。贝叶斯们认为这个世界是可以由我们主动认识的,不用被动的去接受自然规律,而是主动去找到这个自然规律。我认为,这也是理解贝叶斯统计的核心。为什么这么说呢?还是以抛硬币为例,硬币已经造好,如何通过有限次数的试验得到出现正反面的可能性?贝叶斯们认为,这枚银币什么可能都会有,它有可能每次都能抛出正面,也有可能每次都是反面,当然也有可能正反各占一半,这个概率,就是先验概率。引出另一个重要的概念,这个概率是一个随机变量的概率。硬币的每一种可能性,在贝叶斯们看来仅仅是一个随机变量。在这个假设条件下,即假设银币的正反可能性为某值,开始观察结果,根据条件概率,就可以得到当前结果下的可能性估计,这就是后验概率。

总结来看,经典统计是对世界的客观认识,而贝叶斯统计是对世界的主观认识。但是为什么客观认识的世界能和主观认识的世界是同样的呢?这是一个深奥的哲学问题,我不是哲学家,解答不了,并且这也超出了这篇文章的探索范围。 有好奇的朋友可以去看看杰恩斯的《概率论沉思录》,这本凝聚了他40年心血的著作有对这个问题透彻的思考。在这里我们认为主观和客观的世界完美的统一了。

有坑:

想要了解一个概念,首先看看不要怎样去认为它。在网络上很多分析贝叶斯和经典统计的文章提供了不同的视角和结论。有时候不能说这些结论不对,但是可能太过片面,让我走了不少弯路。

  • 是否有先验分布
    仅仅体现在数学公式上,如果贝叶斯的最大后验估计中的先验分布是均匀分布,那和经典统计的极大似然估计连数学公式都统一了,但是原理并不相同。

  • 概率
    贝叶斯统计的出现解决了一些只能用概率解释的问题。千万不要死磕概率的意义,除非想成为哲学家。