条件概率与贝叶斯
协方差矩阵
\[ \boldsymbol{\Sigma}(\boldsymbol{X})=\left[\begin{array}{cccc} \sigma_{11} & \sigma_{12} & \cdots & \sigma_{1 n} \\ \sigma_{21} & \sigma_{22} & \cdots & \sigma_{2 n} \\ \vdots & \vdots & & \vdots \\ \sigma_{n 1} & \sigma_{n 2} & \cdots & \sigma_{n n} \end{array}\right] \quad \text { 和 } \quad \boldsymbol{R}(\boldsymbol{X})=\left[\begin{array}{cccc} 1 & \rho_{12} & \cdots & \rho_{1 n} \\ \rho_{21} & 1 & \cdots & \rho_{2 n} \\ \vdots & \vdots & & \vdots \\ \rho_{n 1} & \rho_{n 2} & \cdots & 1 \end{array}\right] \]
为 \(\boldsymbol{X}\) 的协方差矩阵和相关系数矩阵,其中,\(\sigma_{i j}=\operatorname{Cov}\left(X_i, X_j\right), ~ \rho_{i j}=\rho_{X_i X_j, ~} i=1,2, \cdots, n\) 且 \(j=1,2, \cdots, n\) 。
常见的概率分布
二项分布
\[ P_b(X=k)=C_n^k p^k(1-p)^{n-k} \space (k=0,1,2,\cdots ,n) \]
泊松分布
记时间 \(t\) 内事件发生次数为随机变量 \(X\) ,则随机变量 \(X\) 服从泊松(Poisson)分布,记作 \(X \sim P(\lambda)\) 。其在该时间内发生 \(k\) 次的概率
\[ P_p(X=k)=\frac{\lambda^k}{k!} \mathrm{e}^{-\lambda} \]
若二项分布的 \(n\) 很大而 \(p\) 很小,则泊松分布与二项分布近似等价。
指数分布与伽马分布
- 指数分布 (Exponential Distribution) 概率密度函数 (PDF): \[ f(x; \lambda) = \begin{cases} \lambda e^{-\lambda x} & \text{如果 } x \geq 0 \\ 0 & \text{如果 } x < 0 \end{cases} \]
其中,\(\lambda > 0\) 是分布的参数,称为率参数
分布函数 (CDF):
\[ F(x; \lambda) = 1 - e^{-\lambda x} \quad \text{对于 } x \geq 0 \] 2. 伽马分布 (Gamma Distribution) 概率密度函数 (PDF): \[ f(x; k, \theta) = \begin{cases} \frac{\lambda^\alpha x^{\alpha-1} e^{-\lambda x}}{ \Gamma(\alpha)} & x \geq 0 \\ 0 & x < 0 \end{cases} \]
其中,\(k > 0\) 是形状参数,\(\theta > 0\) 是尺度参数,\(\Gamma(k)\) 是伽马函数: \[ \Gamma(x) = \int_0^\infty t^{x-1} e^{-t} \, dt \quad \text{对于 } \text{Re}(x) > 0 \] 其中,\(\Gamma(x+1)=x\Gamma(x)\),其离散形式为\(\Gamma(n)=(n-1)!\) ,若\(\alpha=1\)则退化为指数分布
贝塔分布
贝塔函数: \[ \operatorname{Be}(\alpha, \beta)=\frac{\Gamma(\alpha) \Gamma(\beta)}{\Gamma(\alpha+\beta)} \] 则函数 \[ f_{\mathrm{Be}}(x)=\frac{1}{\operatorname{Be}(\alpha, \beta)} x^{\alpha-1}(1-x)^{\beta-1} \] 为贝塔(Beta)分布的概率密度函数。随机变量 \(X\) 服从贝塔分布,可简记作 \(X \sim \operatorname{Be}(\alpha, \beta)\) 。贝塔分布是二项分布的共轭先验分布。
高斯分布及其变形
高斯分布: \[ f(x; \mu, \sigma) = \frac{1}{\sigma\sqrt{2\pi}} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right) \] 1. 多元高斯分布 \[ f_n(\boldsymbol{x})=\frac{1}{(2 \pi)^{\frac{n}{2}} \operatorname{det}(\boldsymbol{\Sigma}(X))^{1 / 2}} \exp \left\{-\frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu})(\boldsymbol{\Sigma}(X))^{-1}(\boldsymbol{x}-\boldsymbol{\mu})^{\mathrm{T}}\right\} \] 其中, \(\boldsymbol{\Sigma}(\boldsymbol{X})\) 为协方差矩阵, \(\operatorname{det}(\boldsymbol{\Sigma}(\boldsymbol{X}))\) 为协方差矩阵的行列式。 2. 卡方分布(具有可加性) \[ \begin{aligned} &f_{\chi^2}(x)= \begin{cases}\frac{1}{2^{\frac{n}{2}} \Gamma(\frac{n}{2})} x^{\frac{n}{2}-1} \mathrm{e}^{-\frac{x}{2}}, & x>0 \\ 0, & x \leqslant 0\end{cases} \end{aligned} \] 3. t分布 \(X\sim N(0,1)\)、\(Y\sim \chi^2(n-1)\),且两者相互独立\(T=\frac{X}{\sqrt{\frac{Y}{n}}}\)为自由度为\(n\)的\(t\)变量 概率密度函数: \[ \begin{aligned} &f_T(t)=\frac{\Gamma((n+1) / 2)}{\sqrt{n \pi} \Gamma(n / 2)}\left(1+\frac{t^2}{n}\right)^{-(n+1) / 2}, \quad-\infty<t<+\infty \end{aligned} \] 4. \(F\)分布
给定任意随机变量 \(X\) 与 \(Y\) ,若 \(X \sim \chi_m^2, ~ Y \sim \chi_n^2\) ,且 \(X\) 与 \(Y\) 相互独立,则称随机变量 \(F=\frac{X / m}{Y / n}\) 为自由度为 \(m\) 和 \(n\) 的 \(F\) 变量,其分布称作自由度为 \(m\) 和 \(n\) 的 \(F\) 分布,
记作 \(F \sim F(m, n)\) ,或简记为 \(F \sim F_{m, n}\) 。其概率密度函数: \[ f_F(x)= \begin{cases}\frac{\Gamma((m+n) / 2)}{\Gamma(m / 2) \Gamma(n / 2)} m^{m / 2} n^{n / 2} x^{m / 2-1}(n+m x)^{-(m+n) / 2}, & x>0 \\ 0 & , x \leqslant 0\end{cases} \]
其他分布
- 均匀分布
- 几何分布
贝叶斯决策
- 贝叶斯公式: \(\mathscr{X}=\bigcup_{i=1} B_i\) 且 \(B_i \cap B_{j \ell, j \neq i}=\varnothing\) ,并且 \(P\left(B_i\right)>0\) 恒成立,则对于任一事件 \(A\) 有条件概率\(P\left(B_i \mid A\right)=\) \(P\left(B_i, A\right) / P(A)\) 。 \[ P\left(B_i \mid A\right)=\frac{P\left(B_i\right) P\left(A \mid B_i\right)}{P(A)}=\frac{P\left(B_i\right) P\left(A \mid B_i\right)}{\sum_{j=1}^n P\left(A \mid B_j\right) P\left(B_j\right)} \]
- 多条件变量贝叶斯公式:\[P\left(B_i \mid A_1, A_2, \cdots, A_m\right)=\frac{P\left(B_i\right) P\left(A_1 \mid B_i\right) P\left(A_2 \mid B_i, A_1\right) \cdots P\left(A_m \mid B_i, A_1, A_1, \cdots, A_{m-1}\right)}{P\left(A_1\right) P\left(A_2 \mid A_1\right) P\left(A_3 \mid A_1, A_2\right), \cdots, P\left(A_m \mid A_1, A_1, \cdots, A_{m-1}\right)}\]
连续型贝叶斯公式
\[ \begin{aligned} &P\left(B_i \mid X=x\right)=\frac{P\left(B_i\right) f_X\left(X=x \mid B_i\right)}{f_X(X=x)}=\frac{P\left(B_i\right) f_X\left(X=x \mid B_i\right)}{\sum_{j=1}^n f_X\left(X=x \mid B_j\right) P\left(B_j\right)} \end{aligned} \] ### 朴素贝叶斯分类
设给定样本特征向量 x 为 d 维行向量,即 \(x=[x_{1}, x_{2}, \cdots, x_{d}]\) ,类别标签集合为 \(y=\{y_{1}, y_{2}, \cdots, y_{L}\}\) 由贝叶斯公式可得,样本 \(x\) 的属于 \(y_{k}\) 类别的后验概率: \[ P\left(y_{k} | x\right)=\frac{P\left(y_{k}\right) P\left(x | y_{k}\right)}{P(x)} \] 后验概率最大==等价于==类先验概率与类条件概率的乘积最大,即 \(\arg max (P(y_{k} | x)) \Leftrightarrow \underset{k}{\arg max }(P(y_{k}) P(x | y_{k}))\) 。属性条件独立性假设是朴素贝叶斯分类中"朴素"二字的真实含义。也就是说,朴素贝叶斯分类中类条件概率进一步等价于 \[ P\left(x | y_{k}\right)=\prod_{i=1}^{d} P\left(x_{i} | y_{k}\right) 。 \]
最小错误率贝叶斯决策
- 对于二类决策问题,设两类样本构成的集合分别记作 \(\omega_1, ~ \omega_2\) ,则贝叶斯后验决策在样本 \(x\) 上的错误概率为 \[ P(\mathrm{e} \mid x)= \begin{cases}P\left(\omega_2 \mid x\right) & \text { 如果决策 } x \in \omega_1 \\ P\left(\omega_1 \mid x\right) & \text { 如果决策 } x \in \omega_2\end{cases} \]
最大后验概率估计
\[ \underset{\theta}{\arg \max }\left(\sum_{j=1}^n (\ln f\left(\boldsymbol{x}_j \mid \theta\right)+\ln f(\theta))\right) \]
贝叶斯估计与共轭分布
对于最小风险贝叶斯来说,将参数 \(\theta\) 估计为 \(\tilde{\theta}\) 带来的损失,定义为 \(\lambda(\tilde{\theta}, \theta)\) ,若样本空间为 \(\mathscr{X}\) ,参数空间为 \(\Theta\) ,则用 \(\tilde{\theta}\) 来估计 \(\theta\) 时总的风险期望定义为 \[ \begin{aligned} R & =\int_x \int_\theta \lambda(\tilde{\theta}, \theta) f(\boldsymbol{x}, \theta) \mathrm{d} \theta \mathrm{~d} \boldsymbol{x} \\ & =\int_x \int_\theta \lambda(\tilde{\theta}, \theta) f(\theta \mid \boldsymbol{x}) f(\boldsymbol{x}) \mathrm{d} \theta \mathrm{~d} \boldsymbol{x} \end{aligned} \]
其中,\(f(\boldsymbol{x}, \theta)\) 为样本 \(\boldsymbol{x}\) 与参数 \(\theta\) 的联合概率密度。定义样本 \(\boldsymbol{x}\) 下的条件风险为 \[ R(\tilde{\theta} \mid \boldsymbol{x})=\int_\theta \lambda(\tilde{\theta}, \theta) f(\theta \mid \boldsymbol{x}) \mathrm{d} \theta \] 则可改写为 \[ R=\int_x R(\tilde{\theta} \mid \boldsymbol{x}) f(\boldsymbol{x}) \mathrm{d} \boldsymbol{x} \] 若损失函数定义为平方差损失,即 \(\lambda(\tilde{\theta}, \theta)=(\theta-\widetilde{\theta})^2\) ,则在样本 \(\boldsymbol{x}\) 条件下参数 \(\theta\) 的贝叶斯估计为 \[ \theta^*=E(\theta \mid \boldsymbol{x})=\int_\theta \theta f(\theta \mid \boldsymbol{x}) \mathrm{d} \theta \] 类似地,给定抽样样本集 \(\mathscr{X}=\left\{\boldsymbol{x}_1, \boldsymbol{x}_1, \cdots, \boldsymbol{x}_n\right\}\) 时,参数 \(\theta\) 的贝叶斯估计为 \[ \theta^*=E(\theta \mid \mathscr{X})=\int_\theta \theta f(\theta \mid \mathscr{X}) \mathrm{d} \theta \] 其中,抽样样本集 \(\mathscr{X}=\left\{\boldsymbol{x}_1, \boldsymbol{x}_1, \cdots, \boldsymbol{x}_n\right\}\) 条件参数概率密度函数可由贝叶斯公式计算得到,即 \[ f(\theta \mid \mathscr{X})=\frac{f(\mathscr{X} \mid \theta) f(\theta)}{f(\mathscr{X})}=\frac{f(\theta) \sum_{i=1}^n f\left(\boldsymbol{x}_i \mid \theta\right)}{\int_\theta f(\mathscr{X} \mid \theta) f(\theta) \mathrm{d} \theta} \] 1. 正态分布的共轭分布 设 \(X \sim N\left(\theta, \sigma^2\right)\) ,其中,\(\sigma^2\) 已知;若 \(\theta \sim N\left(\mu_\theta, \sigma_\theta^2\right)\) ,其中,\(\mu_\theta\) 与 \(\sigma_\theta^2\) 均已知,则: \[ \begin{aligned} f\left(\theta \mid x_1, x_2, \cdots, x_n\right) & \propto \prod_{j=1}^n f\left(x_j \mid \theta\right) f(\theta) \\ & \propto \exp \left(-\frac{1}{2 \sigma^2} \sum_{j=1}^n\left(x_j-\theta\right)^2-\frac{1}{2 \sigma_\theta^2}\left(\theta-\mu_\theta\right)^2\right) \end{aligned} \] 2. 二项分布与贝塔分布共轭
设 \(X \sim B(1, \theta)\) ;若未知参数 \(\theta \sim \operatorname{Be}\) \((\alpha, \beta)\) ,其中,\(\alpha\) 与 \(\beta\) 均已知,则 \[ \begin{aligned} f\left(\theta \mid x_1, x_2, \cdots, x_n\right) & \propto \prod_{j=1}^n f\left(x_j \mid \theta\right) f(\theta) \\ & =\theta^{\sum_{j=1}^n x_j}(1-\theta)^{n-\sum_{j=1}^n\left(x_j\right)} \frac{1}{\operatorname{Be}(\alpha, \beta)} \theta^{\alpha-1}(1-\theta)^{\beta-1} \\ & \propto \theta^{\left(\alpha+\sum_{j=1}^n x_j\right)-1}(1-\theta)^{\left({ }^{\beta+\sum_{j=1}^n\left(1-x_j\right)}\right)-1} \\ & =\theta^{(\alpha+n \bar{x})-1}(1-\theta)^{(\beta+n-n \bar{x})-1} \end{aligned} \]
显然,后验概率仍然服从贝塔分布。也就是说,先验贝塔分布与似然 0-1 分布函数使得后验概率仍服从贝塔分布,即贝塔分布的共轭分布是 0-1 分布 3. 伽马分布与泊松分布共轭