最近来自UIUC的助理教授孙若愚撰写了一篇关于深度学习优化的综述论文,共60页257篇文献,概述了神经网络的优化算法和训练理论,并得到众多大佬的推荐
深度学习理论是当下研究的热点之一。最近来自UIUC的助理教授孙若愚撰写了一篇关于深度学习优化的综述论文《Optimization for deep learning: theory and algorithms》,共60页257篇文献,概述了神经网络的优化算法和训练理论,并得到众多大佬的推荐,比如模仿学习带头人理工Yisong Yue,欢迎大家阅览,需要一番数学理底,方能扛过。
为什么一个复杂的神经网络居然可以被成功训练出来?到底是哪些要素促成的? 为了理解这些问题,本文概述了神经网络的算法和优化理论。首先,我们讨论梯度爆炸/消失问题和更一般的谱控制问题,然后讨论实际中常用的解决方案,包括初始化方法和归一化方法。其次,我们回顾用于训练神经网络的一般优化方法,如S、自适应梯度方法和大规模分布式女人痣面相图训练方法,以及这些算法的现有理论结果。第三,我们回顾了最近关于神经网络训练的全局问题的研究,包括局部极值、模式连接、彩票假设和无限宽度分析等方面的结果。
神经网络包含大量的参数,这些参数一般通过求解一个优化问题来找到,这是一个很复杂的非凸优化问题。本文的主旨是理解如此复杂的神经网络得以被成功训练的关键要素,以及可能导致训练失败的因素。想象你在1980年试图用神经网络解决一个图像分类问题,没有任何关于神经网络的知识,很可能你最初的几次尝试都会得到很差的结果,比如算法不或者最终到的解的误差很大。你需要哪些变化才能让你的算法成功运行? 总体上来说,你需要三样东西(除了硬件和数据之外): 合适的神经网络、合适的训练算法和合适的训练技巧。
1)合适的神经网络。这包括神经网络架构和激活函数。对于神经网络架构,你可以用一个至少有5层和足够多神经元的卷积网络来替换一个全连接网络。为了获得更好的性能,你可以将深度增加到20甚至100,并添加跳跃连接 (skip connection)。对于激活函数,一个好的选择是ReLU激活函数,但是使用tanh或swish激活也可以得到不错的结果。
2)训练算法。一个重要的选择是使用随机版本的梯度下降(S)并下去 。经过仔细调整的学习率(learning rate)表现已经可以相当好了,而使用动量和自适应的学习率可以提供额外的好处。
3)训练技巧。适当的初始化对于算法的训练常重要的。要训练一个超过10层的网络,通常需要两个额外的技巧:添加归一化层 (normalization layer) 和添加跳跃连接。