L1 L2正则化及贝叶斯解释

前端之家收集整理的这篇文章主要介绍了L1 L2正则化及贝叶斯解释前端之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。


1 L1正则化和L2正则化区别

  • L1得到的是稀疏权值,可以用于特征选择,假设参数服从Laplace分布(贝叶斯角度理解)
  • L2得到的是平滑权值,因为所有权值都趋于最小,假设参数服从Gauss分布,(并趋于一致,因为一致时平方和,最小)

2 L1正则化稀疏解理解

2.1问题转化


2.2图形化解释

2.3其他理解


2.4 L1求导

求导方法:近端梯度下降

参考:

[1]机器学习中的范数规则化之(一)L0L1L2范数

http://blog.csdn.net/zouxy09/article/details/24971995/

[2]l1相比于 l2为什么容易获得稀疏解?

https://www.zhihu.com/question/37096933?sort=created

3贝叶斯角度理解正则化

http://www.jb51.cc/blog/shenxiaoming77/article/p-5011766.html

http://blog.csdn.net/zhuxiaodong030/article/details/54408786

3.1先验知识

  • 正则化是对经验风险函数进行约束,可以理解引入先验知识,具有引导作用,使优化过程中倾向于选择满足约束条件梯度减小的方向进行;
  • 不理解:正则化解决了逆问题的不适定性,产生的解存在、唯一、同时依赖于数据,噪声对不适定性影响弱,解不会过拟合,如果先验合适,其解倾向于符合真解,即使训练集中彼此间不相关样本很少
  • L1 L2正则化可以理解为模型导入了先验分布,对模型进行惩罚,L1正则化引Laplace分布,L2正则化引入Gauss分布

3.2贝叶斯理解

  • 正则化项对应后验概率估计中的先验信息,损失函数对应似然函数,两者乘积得到贝叶斯最大后验概率;
  • 对贝叶斯后验概率,取对,可以转化为:损失函数+正则化项


3.3概率论角度解释平滑与稀疏

  • 高斯分布,对大的w,概率较低,而在接近0的时候,概率变换缓慢,所以对于小概率容忍较好,最终解的w趋于0附近
  • 拉普拉斯分布,只有很小的w,才能得到较大的概率,偏向于0,更加稀疏
  • 分析时要考虑先验,当0较多时,模型偏于简单,先验会较低

3.4极大似然与后验估计

http://www.cnblogs.com/little-YTMM/p/5399532.html

  • 最大后验估计可以根据经验数据,对难以观察的量进行估计,如参数估计,与最大似然不同的是,最大后验融入了估计量的先验分布,即事先知道估计量满足的分布模型,因此最大后验估计可以看作规则化的最大似然估计;
  • L1 L2正则化,都可以转化为:极大似然 * 参数的先验模型

原文链接:/regex/357879.html

猜你在找的正则表达式相关文章