1 分类与表达式
例子:
Email:垃圾(span)邮件/非垃圾(not span)邮件
在线交易:是/否欺诈(Fraudulent)
肿瘤:恶性/良性
y∈{0,1}:{Negative,Position@H_301_103@}
→y∈{0,1,2,3,⋯}:多类
逻辑回归
0≤hθ(x)≤1
离散变量:
{0,1}
1.2 假设函数的表达式
@H_373_301@hθ(x)=g(θTx)g(z)=@H_569_404@11+e−z⎫⎭⎬⎪⎪⎪⎪⇒hθ(x)=11+e−θTx
hθ(x)
为
y=1
的概率值,当取输入为
x
时,
→hθ(x)=p{y=1|x;θ}
s.t.p@H_502_843@{y=0|x;θ}+p{y=1|x;θ}=1
1.3 决策边界
hθ(x)=g(θ0+θ1x1+θ2x2)
假定
y=1
,当
hθ(x)≥0.5
(阈值)
则
g(θTx)≥0.5
(阈值),即
θTx≥0
,
θ@H_916_1301@0+θ1x1+θ2x2≥0
1.4 非线性决策边界
hθ(x)=g(θ0+θ1x1+θ2x2+θ3x21+θ4x22)θ0=θ1=θ3=−1θ2=0θ4=1⎫⎭⎬⎪⎪⇒−1+x21+x22=0
训练集
→
(拟合)
→
边界
2.1 代价函数
J(θ)=1m∑i=1mCost(hθ(x(i)),y(i))
其中,
Cost(hθ(x),y)={@H_384_2301@−log(hθ(x)),−log(1−hθ(x)),y=1y=0
其中
J(θ)
为
凸函数。
2.2 简单的代价函数与梯度下降法
Cost(hθ(x),y)=−ylog(hθ(x))−(1−y)log(1−hθ(x))
→J(θ)=−1m[∑i=1my(i)log(hθ(x(i)))+(1−y(i))log(1−hθ(x(i)@H_561_3014@))]
Objection.→minθJ(θ)
梯度下降法
Repeat{θj=θj−α1m∑i=1m(hθ(@H_567_3301@x(i))−y(i))x(i)@H_323_3403@j}
这一迭代形式与“
线性回归”中的梯度下降法相同,但是“
h(x(i))
”是不同的。其中,
特征缩放(归一化)一样适用。
2.3 高级优化方法
用于求解
min@H_668_3502@J(θ)
,收敛速度更快。
优化算法
- 梯度下降法(Gradient descent)
- 共轭梯度法(Conjugate gradient)
- 变尺度法(BFGS)
- 线性变尺度法(L-BFGS)
其中 2,3,4 优化算法无需学习参数
α
,且效率比梯度下降法更好。
3 多类别分类
方法: 一对多算法(One-vs-all)
例子:
Email foldering/tagging: work
(y=1)
,friends
(y=2)
,family
(y=@H_404_3660@3)
,hobby
(y=4)
maxih(i)θ(x)
当
y=1,2,3,…,n
,令
y=i
为
1
,其他为
0
,采用逻辑回归方法,做
n
次分类。
4 解决过拟合问题
4.1 过拟合
@H_502_3956@J(θ)≈0→0
诊断,调试
- 减少特征数量(舍弃特征)
- 正则化(保留所有特征)
@H_589_
4031@4.2 代价
函数
@H_25_4036@
@H_560_4038@@H_813_4039@@H_801_4040@@H_791_4041@@H_320_4042@@H_263_4043@@H_507_4044@@H_224_4047@hθ(x)=θ0+θ1x1+θ2x2+θ3x3+θ4x4
希望
θ3
,
θ4
尽量小,则
minθ12m∑i=1m(hθ(x@H_191_4502@(i))−y@H_403_4543@(i))2+1000θ3+1000θ4惩罚项(实例)
正则化
对某些参数增加惩罚项,其中针对所有参数的为
J(θ)=12m[∑@H_301_4879@i=1m(hθ(@H_403_4939@x(i))−y(i))@H_447_5025@2+λ∑j=1nθ2j]
其中,
λ
为正则化参数,
λ
过大,会使得
θj→0
,以至于欠拟合。
4.3 正则化的线性回归
J(θ)=12m[∑i=1m(hθ(x(i))−y@H_513_5403@@H_752_5404@(i))2+λ∑@H_502_5458@j=1nθ2j]
minθJ(θ)
梯度下降法
θ0=θ0−α1m∑i=1m(hθ(x(i))−y(i))x(i)0θj=θj−α[1m∑i=1m(hθ(x(i))−y(i))x(i)j+λmθj]j=1,2,3,⋯,n
正规方程
θ=(XTX)−1XTy→θ=⎛⎝⎜⎜⎜⎜⎜XTX−λ@H_552_6403@@H_593_6404@⎡⎣⎢⎢⎢⎢⎢0@H_973_6502@1⋱1⎤⎦⎥⎥⎥⎥⎥(n+1)⎞⎠⎟⎟⎟⎟⎟−1XTy
当
(XTX)−1
不可逆时,可将其转化为可逆矩阵。
4.4 正则化逻辑回归
J(θ)=[−1m∑i=1my(i)log(hθ(x(i)))+(1−y(i))log(1−hθ(x(i)))]+λ2m∑j=1nθ2j
minθJ(θ)
采用梯度下降法等优化算法求解。