当前位置 : 经济|法律 - 法律论文 → 文章正文

    北大数学系毕业UIUC助理教授60页论文综述深度学习优化

    来源:本站整理| 作者:佚名 | 时间:2020-01-07 05:23:26

      在上述诸多元素中, 哪些元素是必要的? 目前我们已经了解了一些元素的作用,包括初始化策略、归一化方法、跳跃连接、过参数化 (大宽度)和S,如图1所示。我们将它们对优化算法的影响大致分为三部分: 控制Lipschitz(以使算法)、更快的速度和更好的函数全局性质 (landscape)。还有许多其他的元素是很难理解的,尤其是神经架构。话说回来,要理解这个复杂系统的每个部分是几乎不可能的,而这个领域目前的研究已经可以提供一些有用的理解和。

      图1: 对神经网络训练的几个主要元素的理论解读。它们对算法的三个方面有影响:使成为可能、更快的和更好的全局解。这三个方面有一定的联系,因此上述分类只是一个粗略的分类。请注意,对一些重要元素(特别是神经网络架构)的理论理解还非常欠缺,因此在该图中被省略了。还有一些重要理论方面(比如泛化能力和表示能力),在这个图中被省略了。

      这篇文章的目标读者是对神经网络的理论理解(尤其是优化算法方面)感兴趣的研究人员。为了理解这篇文章,了解机器学习和优化的一些基本理论会很有帮助 (参见[24,200,29]),但也不需要很多优化知识。我们注意到现有的关于深度学习算法的介绍主要针对一般的机器学习研究者,如Goodfellow等[76]的第8章。这些介绍通常不深入讨论算法背后的理论。相反,在本文中我们更多地强调理论分析,但同时尽量使其对非理论背景的读者易于理解。如果可能的话,我们将提供一些简单的例子来说论背后的直觉,但我们一般不会解释的细节。本文尝试厘清大框架和主要的脉络,会重点介绍一部分文章的主要想法,而由于篇幅所限,对绝大多数文章着墨甚少(如果读者想进一步了解,有些地方会指出一些可继续阅读的参考文献)。

      分解 (reductionism, 或还原论) 是研究科学的一个很有用且流行的元方法。我们首先简要回顾如何分解机器学习理论以及优化在其中的作用,然后讨论如何对深度学习的优化理论进行进一步的分解。

      表示、优化和泛化。监督学习的目标是根据观察到的样本找到一个近似真实函数的函数。第一步是找到一个丰富的函数族(如神经网络)以表示真实的函数。第二步是通过最小化某个目标来计算出这个函数的参数。第三步是使用第二步中找到的函数对新的测试数据进行预测,产生的错误称为测试误差。测试误差可以分解为表示误差、优化误差和泛化误差,分别对应这三个步骤引起的误差。

      在机器学习中,表示、优化和泛化这三个学科经常被分开研究。例如,在研究一类函数的表示能力时,我们往往不关心优化问题能否很好地解决。在研究泛化误差时,我们通常假设已经找到了全局最优值 (可参考一个关于泛化能力的综述[95])。类似地,在研究优化理论 时,研究者经常不考虑泛化误差(但有时假定表示误差为零)。注意,理想的研究方式是对多个方面做综合分析而不仅仅只考虑一个方面,但如果一个方面都没有理解清楚,合并在一起分析只会更加困难,这是所有学科研究者都会面临的一个权衡取舍。我们希望未来会有更多的综合性研究出现。

    上一页  [1] [2] [3]  下一页


合作伙伴: 开心笑话
Copyright 2010-2012 大戏院论文网 All Rights Reserved. 如需合作请联系站长
技术支持:FXT