贝叶斯方法与正则项

从贝叶斯角度,正则项等价于引入参数 w 的先验概率分布。常见的L1/L2正则,分别等价于引入先验信息:参数 w 符合均值为0的拉普拉斯分布/高斯分布。

贝叶斯方法的参数估计

贝叶斯方法的参数估计,就是通过最大化后验概率来估计模型的参数。

假定模型参数为 w ,数据集为 D ,贝叶斯通过最大化后验概率估计模型参数 w ,即:

w=argmaxwp(w|D)=arg@H_404_194@maxwp(w)p(D|w)P(D)=argmaxwp(w)p(D|w)

后验概率的展开形式

假定如下:

  • 样本独立不相关
  • 模型参数独立不相关

p(w)p(D|w)=@H_926_403@@H_679_404@i=1Kp(wi)@H_679_404@i=1Np(D@H_73_502@i|w)i=1Klogp(wi)+i=1Nlogp(Di|w)

最新的优化问题为:

w=argminwi=1Klogp(wi)i=1Nlogp(Di|w)

参数的先验概率与正则项

当参数 w 的先验概率满足高斯分布:

p(wi)=N(wi|μ,σ2)=12πσ2e(wiμ)22σ2

优化问题的左项中,如果 w 满足 N(0,12λ)

i=1K@H_694_1301@logp(wi)=i=1Klog12πσ2+i=1K(wiμ)22σ2=const+i=1K(wiμ)22σ2=const+λi=1Kw2i

这时候的优化函数为:

w=argminwλi=1Kw2ii=1Nlogp(Di|w)

同样地,参数 w 的先验概率满足均值为0的拉普拉斯分布,有:

w=argminwλi=1K|wi|i=1Nlogp(Di|w)

这说明:

  • L2正则,等价于参数 w 的先验分布满足均值为0的正态分布
  • L1正则,等价于参数 w 的先验分布满足均值为0的拉普拉斯分布
  • 拉普拉斯在0附近突出,周围稀疏,对应容易产生稀疏解的模型

模型举例

以参数 w 的先验概率满足均值为0的高斯分布为例,优化问题为:

w=argminwλi=1Kw2ii=1Nlogp(Di|w)

逻辑回归

i=1@H_669_2502@Nlogp(Di|w)=i=1Nlogθ(ynwTxn)=i=1Nlog(1+exp(ynwTxn))

所以有:

w=argminwλi=1Kw2i+i=1Nlog(1+exp(ynwTxn))
@H_915_3017@w = \arg\min_w \lambda \sum_{i=1}^K w_i^2 +\sum_{i=1}^N \log (1+\exp(-y_n w^T x_n) )

总结:逻辑回归,通过贝叶斯法最大化后验概率。在数据的概率满足逻辑函数的假设下得到了cross entropy的误差函数;在样本独立、模型参数独立、模型参数满足均值为0的高斯分布的假设下获得了L2正则项。

线性回归

线性回归,假设误差满足均值为0的高斯分布,该假设符合一般的规律。

p(Di|w)=12πσ2e(wTxi@H_403_3206@yi)22σ2

i=1Nlogp(Di|w)@H_88_3403@@H_607_3404@=i=1Nlog12πσ2e(wTxi@H_403_3206@yi)22σ2i=1N(wTxiyi)2

所以有:

w=argminwλi=1Kw2i+i=1N(wTxiyi)2

总结:线性回归,通过贝叶斯法最大化后验概率。在误差为均值0的高斯分布的假设下得到了square error的误差函数;在样本独立、模型参数独立、模型参数满足均值为0的高斯分布的假设下获得了L2正则项。

相关文章

一、校验数字的表达式 1 数字:^[0-9]*$ 2 n位的数字:^d{n}$ 3 至少n位的数字:^d{n,}$ 4 m-n位的数字...
正则表达式非常有用,查找、匹配、处理字符串、替换和转换字符串,输入输出等。下面整理一些常用的正则...
0. 注: 不同语言中的正则表达式实现都会有一些不同。下文中的代码示例除特别说明的外,都是使用JS中的...
 正则表达式是从信息中搜索特定的模式的一把瑞士军刀。它们是一个巨大的工具库,其中的一些功能经常...
一、校验数字的表达式 数字:^[0-9]*$ n位的数字:^\d{n}$ 至少n位的数字:^\d{n,}$ m-n位的数...
\ 将下一字符标记为特殊字符、文本、反向引用或八进制转义符。例如,“n”匹配字符“n”。“\n...