高斯先验分布与L2正则

本篇博客探讨一下为什么说L2正则等同于高斯先验分布

首先我们假设现在需要从一些样本点$(x_1,y_1)···(x_N,y_N)$中来估计参数 $\beta$,假设输出$y$与输入$x$之间线性相关,并且受噪声$\epsilon$影响:

这里的$\epsilon$服从均值为0,方差为$\sigma^2$的高斯分布,问题转换为如下的似然估计式子:

接下来我们引入高斯先验分布$N(\beta|0, \frac{1}{\lambda})$,这里的$\lambda$是一个正数值,把这个先验分布与上面的似然估计相结合,我们得到:

对这个式子取对数,并且对常数进行化简,因为它们不影响优化的结果,我们得到:

根据最大似然的原则,我们需要最大化上面这个式子,这时就可以看出来为什么说高斯先验分布与L2正则等价了。