公共ALGO小时,5月25日,2021年 - SGD的步骤尺寸:适应性和融合|小玉李

Algo小时
- 旧金山,加利福尼亚州

标题:SGD的步骤尺寸:适应性和收敛性

过度冲进

谈论摘要:

随机梯度下降(SGD)是培训大型机器学习模型的流行工具。然而,它的性能是高度变化的,这是非常可变的,这是巨大的选择选择阶梯尺寸。这激发了各种调整阶梯尺寸和研究自适应步长尺寸的策略。然而,大多数人缺乏理论保证。在此交谈中,我将介绍一个具有自适应步长和两个SGD的启发式步骤计划的通用adagrad方法:指数步长和余弦步长。我们首次为它们提供理论支持,导出融合保证并显示这些步骤尺寸允许自动适应随机梯度的噪声水平。我还将讨论其实证性能和一些相关优化方法。

日期和时间:

谈话将于5月25日在PST下午2点25日。(9:00 PM UTC)

缩放信息:

缩放链接PW:810577

扬声器信息:

萧宇是波士顿大学的博士学位,在那里弗朗切斯科奥巴察州教授建议。她获得了中国科学技术大学的数学和应用数学学士学位。她是Stony Brook大学的博士学位,并在诺基亚贝尔实验室担任实习生。她的主要研究兴趣在于随机优化和理论机器学习。她目前正在制作机器学习中的优化方法,具体,随机梯度下降及其变体,自适应梯度方法和动量方法。

这篇文章! 帖子在linkedin
多线程

来吧我们!

我们是一支多元化的团队,致力于建立伟大的产品,我们喜欢你的帮助。你想用惊人的同伴建造惊人的产品吗?加入我们!