当前位置 : 经济|法律 - 法律论文 → 文章正文

    北大数学系毕业UIUC助理教授60页论文综述深度学习优化

    来源:本站整理| 作者:佚名 | 时间:2020-01-07 05:23:26

      优化问题的分解。深度学习的优化问题比较复杂,需要进一步分解。大致上来说,对优化算法的设计可以分为三个步骤。第一步是使算法开始运行,并到一个合理的解,如一个驻点 (stationary point)。第二步是使算法尽快。第三步是确保算法到一个低目标值的解 (如全局极小值, 可使得训练误差小)。除了这三步之外,还有一个额外的步骤是取得比较小的测试误差,但是这超出了优化分析的范围。简而言之,我们将优化问题分为三个考量: 性、速度和全局表现。

      本综述涉及的文献分三个主要部分: 第四节 (Section 4),第五节 (Section 5) 和第六节 (Section 6)。大致说来,每个部分主要由上述优化分析的三个考量之一所驱动。这三个部分之间的边界是比较模糊的。例如,第四节中讨论的一些技术也可以提高速度,第六节中的一些分析也解决了问题而不仅仅是解的全局表现。我们划分这三节的另一个原因是它们代表了神经网络优化的三个相当的子领域:从历史上来说它们在一定程度上是发展的。

      这篇文章的结构如下。在第二节中,我们介绍监督学习中的神经网络优化问题。在第三节中,我们介绍了反向(BP),并分析了将经典应用于梯度下降的主要困难。在第四节中,我们讨论训练神经网络的一些特定技巧,以及一些基本理论。这些是和神经网络相关的方法,它们打开了神经网络的黑盒子。我们讨论了一个称为梯度爆炸/消失的主要挑战,以及控制频谱这个更一般的挑战,并回顾了主要的解决方案,如仔细的初始化和归一化方法。在第五节中,我们讨论了将神经网络视为一般非凸优化问题的泛型算法设计。特别地,我们回顾了S的各种学习速率调整方式 (learning rate schedule)、自适应梯度方法、大规模分布式训练、二阶方法以及关于它们的现有理论结果。在第六节中,我们回顾了神经网络的全局优化研究,包括全局函数图景 (global landscape)、模式连接、彩票假设和无限宽度分析(如神经切线核)等等。

      孙若愚是UIUC(伊利诺伊大学香槟分校)助理教授,研究数学优化和机器学习 。在加入UIUC之前,曾担任FAIR (Facebook AI Research) 的访问科学家,并曾于斯坦福大学从事博士后研究,本科毕业于大学。最近的研究方向包括神经网络的优化理论和算法、生成对抗网络、非凸矩阵分解、大规模优化算法的设计和分析等等。

      补充说明:此文是作者在UIUC开设的”深度学习的优化理论”一课的重要基础,也是作者在大学应用数学暑期学校所教“深度学习中的数学”一课的基础。

      

    上一页  [1] [2] [3] 


合作伙伴: 开心笑话
Copyright 2010-2012 大戏院论文网 All Rights Reserved. 如需合作请联系站长
技术支持:FXT