math/probability/mle.md

给定随机变量的分布和未知参数，利用观测到的样本计算似然函数。  
选择最大似然函数的参数作为参数的估计量。  
最大似然估计的基本原理：极大化似然函数  
假设样本$$\{X_1,X_2,...X_n\}$$服从概率密度函数$$f_\theta(x)$$,其中$$\theta=(\theta_1,\theta_2,....\theta_k)$$是未知参数。  
当固定x的时候，$$f_\theta(x)$$就是$$\theta$$的函数，我们把这个函数称为似然函数，记做$$L_x(\theta)$$  
似然函数不是概率，是概率密度函数在x固定时候，$$\theta$$的可能性的函数。  
假设$$x = (x_1,.....x_n)$$是样本的观测值，那么整体样本的似然函数就是：  
$$L_x(\theta)=\coprod_{i=1}^{n} L_{x_i}(\theta)$$  
这是 一个关于$$\theta$$的函数，选取使得$$L_x(\theta)$$的最大化的$$\theta^{'}$$作为$$\theta$$的估计量。  
最大化 似然函数，相当于最大化似然函数的对数$$lx(\theta)=ln(Lx(\theta))$$,一般我们求解似然函数或者对数似然函数的驻点的方程  
$$\frac{\mathrm{d} l_x(\theta))}{\mathrm{d} \theta}=0$$或者$$\frac{\mathrm{d} L_x(\theta))}{\mathrm{d} \theta}=0$$ 由于$$L_x(\theta)$$中包含连乘，转化对数好求解。  
然后判断整个驻点是否是最大点（求解驻点可以采用牛顿法或者梯度下降法）。

---

如何利用极大似然估计法来求极大似然估计量呢？

首先我们来看一个例子：有一个抽奖箱，里面有若干红球和白球，除颜色外，其他一模一样。我们每次从中拿出一个后记录下来再放回去，重复十次操作后发现，有七次抽到了红球，三次是白球，请估计红球所占的比例。

从题目可以分析出本次例子满足二项分布，现在可以设事件 A 为"抽到红球"，那可以得到一个式子：

$$P(A)=P(A)^{7} *(1-P(A))^{3}$$                                                                                                                                       $$(1)$$

现在的目的就是为了求这个 P\(A\)，那要怎么求才又快又准呢？如果用求导解驻点来寻找极值，7 次方好像也不是很大，那要是我们重复进行了一百、一千次操作呢？所以，优化算法势在必行，下面的骚操作就是先辈们经过不懈地探求总结出来的——先取对数再求导！

对\(1\)式取对数，得：

$$\ln P(A)=7 \ln P(A)+3 \ln (1-P(A))$$

对上式求导，整理得：

$$\frac{dln(P(A))}{d P(A)}=\frac{7}{P(A)}-\frac{3}{(1-P(A))}$$

令该导数为零，可得式子：

$$\frac{7}{P(A)}=\frac{3}{(1-P(A))}$$

解得$$P(A)=0.7$$

从这个例子中我们可以得到和《概率论与数理统计》一书中相匹配的抽象结果：设总体 X 为离散型随机变量，且它的概率分布为$$P\{X=x\}=p\left\{x_{i} ; \theta\right\}$$， 其中 θ 为未知参数$$X_{1}, X_{2}, \cdots, X_{n}$$和$$x_{1}, x_{2}, \cdot \cdot \cdot, x_{n}$$分别为 X 的一组样本和样本观察值。则参数 θ 的取值应该使得概率：

$$\begin{aligned} P\left\{X_{1}=x_{1}, X_{2}=x_{2},\right.& \cdots, X_{n}=x_{n} \}=P\left\{X_{1}=x_{1}\right\} * P\left\{X_{2}=x_{2}\right\} * \cdots \\ * & P\left\{X_{n}=x_{n}\right\}=\prod_{i=1}^{n} p\left\{x_{i} ; \theta\right\} \end{aligned}$$

达到最大值，今后我们称 θ 的函数：

$$L(\theta)=\prod_{i=1}^{n} p\left\{x_{i} ; \theta\right\}$$

为 θ 的似然函数，上式是其样本取对应观察值的概率。同时，如果有

$$\exists \hat{\theta}=\hat{\theta}\left(X_{1}, X_{2}, \cdots, X_{n}\right)$$

使得：

$$L(\hat{\theta})=\max _{\theta \in \Theta} L(\theta)=\max _{\theta \in \Theta} \prod_{i=1}^{n} p\left\{x_{i} ; \theta\right\}$$

则称 $$\hat{\theta}$$为 θ 的极大似然估计量。从上述一般结果的抽象描述中，我们可以剥离出求解 $$\hat{\theta}$$的一般步骤：

1. 写出似然函数 $$L(\theta)=L\left(x_{1}, x_{2}, \cdots, x_{n} ; \theta\right)$$ ；
2. 对似然函数取对数（视情况而定）；
3. 求对数似然函数对未知参数的导函数 $$\frac{dln L(\theta)}{d \theta}_{ ; x=y}$$
4. 令导函数为 0，方程的解即为极大似然解；