前端之家收集整理的这篇文章主要介绍了
模型选择-4-贝叶斯统计和正则化,
前端之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。
之前为了降低产生过拟合的可能性,我们从样本的所有属性中选取一部分属性集用以训练模型,这里介绍一种防止过拟合的不同的方法—正则化,它将会保留所有属性。
之前我们一直是通过求最大似然值确定参数(maximum likelihood (ML)):
上式中的
θ
是基于频率学派(frequentist)的观点对待的,频率学派认为,
θ
是一个固定不变的常量,只是我们现在还不知道它的值,而我们的目的就是基于统计学原理获得
θ
的近似值。
然而,贝叶斯学派(Bayesian)对于
θ
的观点与频率学派的观点是不同的,它们认为,
θ
是一个未知的随机变量,因此可以给出关于
θ
分布情况的先验概率
p(θ)
,例如
θ
可能满足高斯分布等等(这是一种假设或者说是统计结果,此时并未考虑我们的训练样本).给定训练样本集
S={(x(i),y(i))}mi=1
, 我们可以求θ的后验概率:
注:
1、显然
θ
是一个向量,包含了
@H_502_338@θ1,θ2...,θm@H_895_403@
.
2、
@H_502_338@θ1,θ2...,θm@H_895_403@
已经是从贝叶斯学派的角度对待,它已经不是一个固定的值,而是“有很多可能值”,例如
θ1
可以是服从正态分布的连续变量。
3、上式中,分母处的积分是对向量
θ
中的元素
@H_502_338@θ1,θ2...,θm@H_895_403@
积分的简写。是一个高维积分。
4、
p(y(i)|x(i),θ)
依赖于所选择的模型,如果是逻辑回归
p(y(i)|x(i),θ)=hθ@H_301_799@(x(i))y(i)(1−hθ(x(i)))1−y(i)
.其中
hθ(x(i))=11+e−θTx(i)
如果新来一个样例特征为 x,那么为了预测 y。我们可以使用下面的公式:
p(θ|S)
由前面的公式得到。假若我们要求期望值的话,那么套用求期望的公式即可:
注:
大多数时候我们只需求使得
p(y|x,S)
中最大的
y
即可(在
y
是离散值的情况下)。这次求解
p(y@H_647_1301@|x,S)
与之前的方式不同,以前是先求
θ
,然后直接预测,这次是对所有可能的
θ
作积分。
在频率学派中最大似然估计没有将
θ
视作
y
的估计参数,认为
θ
是一个常数,只是未知其值而已,比如我们经常使用常数
c
作为
y=2x+c
的后缀一样。因此对于
p(y(i)|x(i);θ)
中的
θ
,对极大似然估计求导后,可以求出一个确定的值
θ
。
而贝叶斯估计将
θ
视为随机变量,
θ
的值满足一定的分布,不是固定值,我们无法通过计算获得其值,只能在预测时计算积分。
然而在上述贝叶斯估计方法中, 虽然公式合理优美,但后验概率
p(θ@H_502_1711@|S)
很难计算,看其公式知道计算分母时需要在所有的
θ
上作积分,然而对于一个高维的@H_404_1763@
θ
来说,枚举其所有的可能性太难了。
因此,为了近似的代替
θ
的后验概率分布,我们一般使用中单点估计代替,这种方法称为最大
后验概率估计(MAP (maximuma posteriori) estimate ):
可以看出,这与我们之前的最大似然值公式很相似,只是后面多了一个关于
θ
的先验概率。
一般情况下我们认为
θ∼N(0,τ2I)
.
其实我觉得
p(θ)
可以理解为权重,对于一些噪音属性,
p(θ)
小,权重小。。。不知可否。
原文链接:https://www.f2er.com/regex/359384.html