共轭先验(Conjugate prior)在贝叶斯估计中被广泛应用,本文尝试详细推理一些常见分布的共轭先验证。

贝叶斯公式:

1. 离散分布

1.1 伯努利分布

伯努利分布(Bernoulli distribution)的概率质量函数为:

对于随机变量$X_i \in \{X_1, X_2, \dots, X_m\}$易得,$p$的极大似然估计(Maximum Likelihood Estimator, MLE)为$\hat{p}=\frac{\sum_{i=1}^{m}k_i}{m}$。

该分布的共轭先验为Beta分布$\mathrm{Beta}(\alpha, \beta)$,即对于随机变量$X_i$:

根据$\eqref{eq:3}$易得,$f(p \vert X_1, X_2, \dots, X_m) = \mathrm{Beta}(\sum_{i=1}^{m}k_i+\alpha, \beta+m-\sum_{i=1}^{m}k_i)$,期望$\hat{p}=\frac{\sum_{i=1}^{m}k_i+\alpha}{m+\alpha+\beta}$。特别,当$\alpha=1$和$\beta=1$时,即共轭先验为$0-1$之间的均匀分布,$\hat{p}=\frac{\sum_{i=1}^{m}k_i+1}{m+2}$。

1.2 二项分布

二项分布(binomial distribution)的概率质量函数为:

对于随机变量$X_i \in \{X_1, X_2, \dots, X_m\}$易得,MLE为$\hat{p}=\frac{\sum_{i=1}^{m}k_i}{nm}$。

该分布的共轭先验为Beta分布$\mathrm{Beta}(\alpha, \beta)$。因此,类似于$\eqref{eq:3}$,$f(p \vert X_1, X_2, \dots, X_m) = \mathrm{Beta}(\sum_{i=1}^{m}k_i+\alpha, \beta+nm-\sum_{i=1}^{m}k_i)$,期望$\hat{p}=\frac{\sum_{i=1}^{m}k_i+\alpha}{nm+\alpha+\beta}$。

1.3 负二项分布

负二项(negative binomial distribution)的概率质量函数为:

对于随机变量$X_i \in \{X_1, X_2, \dots, X_m\}$易得,MLE为$\hat{p}=\frac{\sum_{i=1}^{m}k_i}{mr+\sum_{i=1}^{m}k_i}$。

该分布的共轭先验为Beta分布$\mathrm{Beta}(\alpha, \beta)$。因此,类似于$\eqref{eq:3}$,$f(p \vert X_1, X_2, \dots, X_m) = \mathrm{Beta}(\sum_{i=1}^{m}k_i+\alpha, \beta+mr)$,期望$\hat{p}=\frac{\sum_{i=1}^{m}k_i+\alpha}{mr+\sum_{i=1}^{m}k_i+\alpha+\beta}$。

1.4 多项分布

多项二项(multinomial distribution)的概率质量函数为:

对于随机变量$X_j \in \{X_1, X_2, \dots, X_m\}$易得,MLE为$\hat{p_i}=\frac{\sum_{j=1}^{m}x_{ij}}{\sum_{i=1}^{k}\sum_{j=1}^{m}x_{ij}}$。

该分布的共轭先验为Dirichlet分布$\mathrm{Dir}(\alpha_1,\alpha_2,\dots,\alpha_k)$,即对于随机变量$X_i$:

根据$\eqref{eq:7}$易得,$f(p_1,p_2,\dots,p_k \vert X_1, X_2, \dots, X_m) = \mathrm{Dir}(\alpha_1+\sum_{j=1}^{m}x_{1j},\alpha_2+\sum_{j=1}^{m}x_{2j},\dots,\alpha_k+\sum_{j=1}^{m}x_{kj})$,期望为$\hat{p_i}=\frac{\sum_{j=1}^{m}x_{ij}+\alpha_i}{\sum_{i=1}^{k}\sum_{j=1}^{m}x_{ij} + \sum_{i=1}^{k}\alpha_i}$。特别,当$\alpha_1=\alpha_2=\dots=\alpha_k=1$时,$\hat{p_i}=\frac{\sum_{j=1}^{m}x_{ij}+1}{\sum_{i=1}^{k}\sum_{j=1}^{m}x_{ij}+k}$。

1.5 泊松分布

泊松分布(Poisson distribution)的概率质量函数为:

对于随机变量$X_j \in \{X_1, X_2, \dots, X_m\}$易得,MLE为$\hat{\lambda}=\frac{\sum_{i=1}^m k_i}{m}$。

该分布的共轭先验为Gamma分布$\mathrm{Gamma}(\alpha, \beta)$,即对于随机变量$X_i$:

根据$\eqref{eq:9}$易得,$f(\lambda \vert X_1, X_2, \dots, X_m) = \mathrm{Gamma}(\sum_{i=1}^{m}k_i+\alpha, \beta+m)$,期望$\hat{p}=\frac{\sum_{i=1}^{m}k_i+\alpha}{\beta+m}$。

2. 连续分布

2.1 指数分布

指数分布(exponential distribution)的概率密度函数为:

对于随机变量$X_j \in \{X_1, X_2, \dots, X_m\}$易得,MLE为$\hat{\lambda}=\frac{m}{\sum_{i=1}^m k_i}$。

该分布的共轭先验为Gamma分布$\mathrm{Gamma}(\alpha, \beta)$。因此,类似于$\eqref{eq:9}$,$f(\lambda \vert X_1, X_2, \dots, X_m) = \mathrm{Gamma}(\alpha+m, \beta+\sum_{i=1}^{m}k_i)$,期望$\hat{p}=\frac{\alpha+m}{\beta+\sum_{i=1}^{m}k_i}$

2.2 已知均值的正态分布

正态分布的概率密度函数为:

对于随机变量$X_j \in \{X_1, X_2, \dots, X_m\}$易得,MLE为$\hat{\sigma}^2=\frac{\sum_{i=1}^m(x_i-\mu)^2}{m}$。

该分布的共轭先验为inverse Gamma分布$\mathrm{Inv-Gamma}(\alpha, \beta)$,即对于随机变量$X_i$:

根据$\eqref{eq:12}$易得,$f(\sigma^2 \vert X_1, X_2, \dots, X_m) = \mathrm{Inv-Gamma}(\alpha+\frac{m}{2}, \beta+\frac{\sum_{i=1}^m(x_i-\mu)^2}{2})$,期望$\hat{\sigma}^2=\frac{\beta+\frac{\sum_{i=1}^m(x_i-\mu)^2}{2}}{\alpha+\frac{m}{2}-1}$。

3. 一些积分证明

3.1 多元beta函数

$\int_0^1 \int_0^{1-p_1} \cdots \int_0^{1-\sum_{i=1}^{k-2} p_i}p_1^{\alpha_1-1} p_2^{\alpha_2-1} \dots (1-\sum_{i=1}^{k-1}p_i)^{\alpha_k-1} \md p_1 \md p_2 \dots \md p_{k-1} = \frac{\mathrm{\Gamma}\left(\sum_{i=1}^{k}(\alpha_i)\right)}{\prod_{i=1}^{k}\mathrm{\Gamma}(\alpha_i)} \quad \mathrm{for} \quad \sum_{i=1}^k p_i=1$

令$p_{k-1} = (1-\sum_{i=1}^{k-2}p_i)u$,考察积分:

迭代相乘后即得。

3.2 Gamma积分

$\int_0^\infty \frac{x^{\alpha-1}}{\mathrm{e}^{\lambda x}} \md x=\frac{\mathrm{\Gamma}(\alpha)}{\lambda^\alpha}$

令$\lambda x=u$:

参考资料

更新记录

2017年11月9日

Comments