频率学派和贝叶斯学派
概率模型的训练过程就是参数估计的过程。**
对于参数估计,统计学界的两个学派分别提供了不同的解决方案:
- 频率主义学派认为参数虽然未知,但却是客观存在的固定值,因此可以通过优化极大似然函数等准则来确定参数值。
- 贝叶斯学派则认为参数是未观察到的随机变量,其本身也可有分布,因此可以假定参数服从一个先验分布,然后,基于观测到的数据来计算参数的后验分布。
所以,对于贝叶斯公式:
其中$p(data)$与我们所估计的$\theta$是独立的,所以我们不用考虑它。我们称$p(\theta|data)$为后验分布,$p(\theta)$是先验分布,$p(data|\theta)$为似然函数。
频率学派只需对$p(data|\theta)$做极大似然估计。
贝叶斯学派需要根据先指定一个先验概率的分布,再通过先验×似然求出后验。
如何指定先验概率的分布?
下面解释了为何在二分类问题中使先验概率为Beta分布,在多分类问题中使先验分布为狄利克雷分布。
二项分布
二项分布是N重伯努利分布,即为X ~ B(n, p). 概率密度公式为:
多项分布
多项分布,是二项分布扩展到多维的情况. 多项分布是指单次试验中的随机变量的取值不再是0-1的,而是有多种离散值可能(1,2,3…,k).概率密度函数为:
Gamma函数
Gamma函数的定义:
分部积分后,可以发现Gamma函数如有这样的性质:
Gamma函数可以看成是阶乘在实数集上的延拓,具有如下性质:
Beta分布
Beta分布的定义:对于参数$\alpha$ > 0,$ \beta$ > 0, 取值范围为[0, 1]的随机变量x的概率密度函数为:
其中,
共轭先验分布
在贝叶斯概率理论中,如果后验概率P(θ|x)和先验概率p(θ)满足同样的分布律,那么,先验分布和后验分布被叫做共轭分布,同时,先验分布叫做似然函数的共轭先验分布。
Beta分布是二项式分布的共轭先验分布,而狄利克雷(Dirichlet)分布是多项式分布的共轭分布。
共轭的意思是,以Beta分布和二项式分布为例,数据符合二项分布的时候,参数的先验分布和后验分布都能保持Beta分布的形式,这种形式不变的好处是,我们能够在先验分布中赋予参数很明确的物理意义,这个物理意义可以延续到后续分布中进行解释,同时从先验变换到后验过程中从数据中补充的知识也容易有物理解释。
狄利克雷分布
Dirichlet的概率密度函数为:
其中,
根据Beta分布、二项分布、Dirichlet分布、多项式分布的公式,我们可以验证上一小节中的结论 — Beta分布是二项式分布的共轭先验分布,而狄利克雷(Dirichlet)分布是多项式分布的共轭分布。