HOME/nlp/

1. 为什么要用到似然估计

Article Outline
TOC
Collection Outline

1. 为什么要用到似然估计

似然估计,英文为likelihood estimate(LE),而likelihood的意思是可能性。

在传统概率学派中假定的是概率分布的参数固定,样本随机。那么我们该如何通过样本去确定这个概率分布的参数呢?这里就需要用到似然估计的方法了。也就是说,样本出现后,反推模型的参数值,而这个参数值有很多种可能性。

举个例子,假设我们有很多块西瓜皮,瓜皮的纹理分为清晰、稍糊、模糊,现在我们的目的就是通过瓜皮去推断西瓜的成熟度(瓜青、瓜熟、瓜烂).

但是在现实生活中,我们的关注点一般都只希望得到最好的参数(也就是希望当前瓜皮所对应的西瓜最大可能成熟度)。也就是说,我们只希望得到那个使样本发生可能性最大的参数,其余低可能性的我们不做考虑。

一般使用最大(极大)似然估计,英文为maximum likelihood estimate(MLE)来求解参数。所以通俗来说,最大似然就是最有可能的情况。

2.极大似然估计示例

假如一个罐子中有黑白两种颜色的求,数目不知,颜色不知,我们想知道两种球的比例,但不能把球都拿出来数。现在每次从罐中有放回拿一个球,重复一百次,其中有七十次取出的是白球,请问罐中白球所占比例可能是多少?

答案是70%。其中就用到了极大似然估计的思想。

我们用随机变量$X$来表示所抽取的球的颜色,则$X=1$表示白球,$X=0$表示黑球,那么$X$服从伯努利$b(1,p)$,其中$p$是箱子中白球的比例,抽取100个白球得到样本$x_1,x_2,\ldots,x_n$,这批观测值发生的概率为: $$ \begin{align} L(P) &=P(X_1=x_1,\ldots,X_{100}=x_{100};p) \ &=P(x_1;p)P(x_2;p)\ldots P(x_{100;p}) \ &=p^{70}(1-p)^{30}\ \end{align} $$ 根据极大似然思想,我们应该选择使得上式最大的$p$,将上式对$p$求导,并令导数为0: $$ 70p^{69}(1-p)^{30}-p^{70} \cdot 30(1-p)^{29}=0 $$ 得$p=0.7$

3.极大似然估计

  • 用途:给定一个参数待定的模型$(b(1,p))$和一组从该模型里得出的数据(抽取100次有70次是白球),如何确定模型的参数$(p)$,使得这个确定参数后的模型在所有模型中产生已知数据的联合概率最大$(L(p))$
  • $L(p)$被成为似然函数
  • 一般情况,我们使得$lnL(p)$最大来寻找$p$的最大似然估计
  • 似然估计的一般求解过程
    • 写出似然函数$L(p)$
    • 对似然函数取对数(可选)
    • 求似然函数对未知参数的导函数
    • 令导数为0,方程的解即为最大似然解

4.极大似然估计与最小二乘法

  • 我们从最大似然估计的角度考虑线性回归,即我们现在希望能够得到条件概率$p(y|x)$,而不只是得到一个单独的预测$\hat y$,假设有如下概率分布:

$$ p(y|X)=N(y;\hat y(X;w),\beta ^{-1}) $$

$\hat y(X;w)$是预测高斯的均值的函数

  • 模型:$\hat y_i(x_i;w)=W^Tx_i+\epsilon$,其中$\epsilon \backsim (0,\beta ^{-1})$,因此我们有$p(y_i|x_i,w,\beta)=N(w^Tx_i,\beta^{-1})$

  • 最大似然估计

    • 已知数据:$X,y$

    • 确定模型:$p(y_i|x_i,w,\beta)=N(w^Tx_i,\beta ^{-1})$

    • 未知参数:$w,\beta$

    • 似然函数:$p(y|X,w,\beta)=\prod _{n=1}^N N(y_n|w^Tx_n,\beta^{-1})$

    • 似然函数取对数 $$ \begin{align} ln p(y|X,w,\beta) &=\prod {n=1}^N lnN(y_n|w^Tx_n,\beta^{-1}) \ &=\frac {N}{2}ln \beta-\frac{N}{2}ln(2\pi)-\frac{\beta}{2}\sum{n=1}^N(y_n-w^Tx_n)^2 \end{align} $$

    • 求对数似然函数关于$w$的导数 $$ \bigtriangledown lnp(y|X,w,\beta)=\beta \sum_{n=1}^N(y_n-W^Tx_n)x_n^T $$

    • 令导数为0解得: $$ w_{ML}=(X^TX)^{-1}X^Ty $$

    • $\beta$的最大似然解为

    $$ \beta {ML}=\frac{1}{N}\sum{n=1}^N(y_n-w^Tx_n)^2 $$