J (θ)=LOSS
其中loss是损失函数是以θ求导的导数函数,那么在梯度下降法中,最终用于迭代计算参数 θ 的迭代式为:
θj :=θj − loss
其中 α 是学习率,m是训练数据数量。上式是没有添加L2正则化项的迭代公式,如果在原始代价函数之后添加L2正则化,则迭代公式会变成下面的样子:
θj :=θj (1−{αλ/m} )−loss
其中λ 就是正则化参数。从上式可以看到,与未添加L2正则化的迭代公式相比,每一次迭代, θj 都要先乘以一个小于1的因子,从而使得 θ j 不断减小,因此总得来看, θ是不断减小的。在神经网络中,参数越小抗扰动能力越强,可以极大程度地降低噪声数据的影响,所以能防止过拟合的情况出现。
理解了正则化解决过拟合的原理,并且从正则化多层感知机结构图中更加定性地了解到神经网络的训练过程。
感谢您的阅读!
如果看完后有任何疑问,欢迎拍砖。
欢迎转载,转载请注明出处:http://www.yangrunwei.com/a/89.html
邮箱:glowrypauky@gmail.com
QQ: 892413924