一种利用 Cumulative Penalty 训练 L1 正则 Log-linear 模型的随机梯度下降法

前端之家收集整理的这篇文章主要介绍了一种利用 Cumulative Penalty 训练 L1 正则 Log-linear 模型的随机梯度下降法前端之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。
 
 Log-Linear 模型(也叫做最大熵模型)是 NLP 领域中使用最为广泛的模型之一,其训练常采用最大似然准则,且为防止过拟合,往往在目标函数中加入(可以产生稀疏性的) L1 正则。但对于这种带 L1 正则的最大熵模型,直接采用标准的随机梯度下降法(SGD)会出现效率不高难以真正产生稀疏性等问题。
 本文为阅读作者 Yoshimasa Tsuruoka,Jun’chi Tsujii 和 Sophia Ananiadou 的论文 Stochastic Gradient Descent Training for L1-regularized Log-linear Models with Cumulative Penalty (2009)后整理的读书笔记,文中提出了一种基于累积惩罚的 SGD 方法,可以克服上述提到的两个问题。
 








作者: peghoty

出处:http://www.jb51.cc/article/p-bedivufk-bn.html

欢迎转载/分享,但请务必声明文章出处.

原文链接:/regex/361642.html

猜你在找的正则表达式相关文章