欢迎在文章下方评论,建议用电脑看
论文原文:
上面截取了一大段,看起来有些突兀,但我觉的这些都是非常重要的。这里说明了普通动量更新和Nesterov动量更新的主要思想。
算法的整体流程如上图,它看起来像是RMSProp的动量版。简化的代码是下面这样。而关于RMSProp,请看这篇博文。
以上就是这个算法的详细解释,主要在讲的就是怎么自适应学习率的变化
下面就是这个算法的详细的证明过程: