Deep Learning - 第六章：深度学习的正则化

正则表达式 2020-07-03

前言

机器学习中的核心问题：模型的设计不仅在训练数据上表现好，并且能在新输入上泛化好；
正则化策略：以增大训练误差为代价，来减少测试误差（如果在训练误差上很小，可能出现过拟合的情况）；
最好的拟合模型（最小化泛化误差的意义上）是一个适当正则化的大型模型；

参数范数惩罚

许多正则化方法通过对目标函数 $J$ 添加一个参数范数惩罚 $\Omega(\theta)$ ，限制模型的学习能力，我们将正则化后的目标函数记为：

$J^(θ; X, y) = J (θ; X, y) + α \cdot Ω (θ)$ $\hat J(\theta;X,\ y) = J(\theta;X,\ y) + \alpha \cdot \Omega(\theta)$
当我们的训练算法最小化正则化后的目标函数 $\hat J$ 时，它会降低原始目标 $J$ 关于训练数据的误差并同时减小参数 $\theta$ 的规模。
常见的参数正则化函数包括： $L^2$ ， $L^1$ 参数正则化。
$L^2$ 参数正则化：

$Ω (θ) = 1 2 | | ω | | 22$ $\Omega(\theta) = \frac{1}{2}||\omega||_2^2$
加入正则项后，经过具体的公式推导和分析可以知道（推算过程也不是很难懂的。）， $L^2$ 参数正则化能让学习深度学习的算法“感知”到具有较高方差的输入 $x$ ，因此 与目标的协方差较小（相对增加方差）的特征的权值将会收缩。
它是权重衰减一种最常见的方式！

$L^1$ 参数正则化：

$Ω (θ) = | | ω | | 1 = \sum i | ω i |$ $\Omega(\theta) = ||\omega||_1 = \sum_i |\omega_i|$
加入正则项后，经过一些推导和分析，得到 $L^1$ 正则化会产生更加稀疏的解（参数具有0的最优值），它与 $L^2$ 正则化不同， $L^2$ 正则化不会使得某个权重为 $0$ ，而 $L^1$ 正则化有可能通过足够大的 $\alpha$ 实现稀疏。
由@H_301_896@ L1 $L^1$ 正则化导出的稀疏性质已经被广泛地用于特征选择 机制，特征选择从可用的特征子集选择应该使用的子集，简化了机器学习问题。

特别是著名的 $LASSO(Tibshirani,1995)$ 模型将 $L^1$ 惩罚和线性模型结合，并使用最小二乘代价函数。 L1 惩罚使部分子集的权重为零，表明相应的特征可以被安全地忽略。

常用正则表达式-手机号、身份证、邮箱

一、校验数字的表达式 1 数字：^[0-9]*$ 2 n位的数字：^d{n}$ 3 至少n位的数字：^d{n,}$ 4 m-n位的数字...

JS正则表达式详解

正则表达式非常有用，查找、匹配、处理字符串、替换和转换字符串，输入输出等。下面整理一些常用的正则...

组内正则培训记录

0. 注：不同语言中的正则表达式实现都会有一些不同。下文中的代码示例除特别说明的外，都是使用JS中的...

高级正则表达式技术（Python版）

正则表达式是从信息中搜索特定的模式的一把瑞士军刀。它们是一个巨大的工具库，其中的一些功能经常...

史上最全最常用的正则表达式

一、校验数字的表达式数字：^[0-9]*$ n位的数字：^\d{n}$ 至少n位的数字：^\d{n,}$ m-n位的数...

正则表达式基本语法

\ 将下一字符标记为特殊字符、文本、反向引用或八进制转义符。例如，“n”匹配字符“n”。“\n...

Deep Learning - 第六章：深度学习的正则化

前言

参数范数惩罚

相关文章