Deep Learning - 第六章:深度学习的正则化

前言

机器学习中的核心问题:模型的设计不仅在训练数据上表现好,并且能在新输入上泛化好;
正则化策略:以增大训练误差为代价,来减少测试误差(如果在训练误差上很小,可能出现过拟合的情况);
最好的拟合模型(最小化泛化误差的意义上)是一个适当正则化的大型模型;

参数范数惩罚

许多正则化方法通过对目标函数 J 添加一个参数范数惩罚 Ω(θ) ,限制模型的学习能力,我们将正则化后的目标函数记为:

J^(θ;X,y)=J(θ;X,y)+αΩ(θ)

当我们的训练算法最小化正则化后的目标函数 @H_404_186@J^ 时,它会降低原始目标 J 关于训练数据的误差并同时减小参数 θ 的规模。
常见的参数正则化函数包括 L2 L1 参数正则化。

L2 参数正则化

Ω(θ)=12||ω||22

加入正则项后,经过具体的公式推导和分析可以知道(推算过程也不是很难懂的。), L2 参数正则化能让学习深度学习的算法“感知”到具有较高方差的输入 x ,因此 与目标的协方差较小(相对增加方差)的特征的权值将会收缩

它是权重衰减一种最常见的方式

L1 参数正则化

Ω(θ)=||ω||1=i|ωi|

加入正则项后,经过一些推导和分析,得到 L1 正则化会产生更加稀疏的解(参数具有0的最优值),它与 L2 正则化不同, L2 正则化不会使得某个权重为 0 ,而 L1 正则化有可能通过足够大的 α 实现稀疏。

@H_301_896@ L1 正则化导出的稀疏性质已经被广泛地用于特征选择 机制,特征选择从可用的特征子集选择应该使用的子集,简化了机器学习问题。

特别是著名的 LASSO(Tibshirani,1995) 模型将 L1 惩罚和线性模型结合,并使用最小二乘代价函数 L1 惩罚使部分子集的权重为零,表明相应的特征可以被安全地忽略。

相关文章

一、校验数字的表达式 1 数字:^[0-9]*$ 2 n位的数字:^d{n}$ 3 至少n位的数字:^d{n,}$ 4 m-n位的数字...
正则表达式非常有用,查找、匹配、处理字符串、替换和转换字符串,输入输出等。下面整理一些常用的正则...
0. 注: 不同语言中的正则表达式实现都会有一些不同。下文中的代码示例除特别说明的外,都是使用JS中的...
 正则表达式是从信息中搜索特定的模式的一把瑞士军刀。它们是一个巨大的工具库,其中的一些功能经常...
一、校验数字的表达式 数字:^[0-9]*$ n位的数字:^\d{n}$ 至少n位的数字:^\d{n,}$ m-n位的数...
\ 将下一字符标记为特殊字符、文本、反向引用或八进制转义符。例如,“n”匹配字符“n”。“\n...