Parameters vs Hyperparameters

想要让你的深度神经网络运作得更为高效你不仅要好好设置参数更需要用心配置超参数让我们来看一下什么是超参数在神经网络模型中我们常见的参数是W和b 而在整个学习算法模型中还有另一些参数比如学习率α 和梯度下降算法中的迭代次数决定了你神经网络模型中的参数会如何变化你还需要为学习算法设定其他超参数你还需要为学习算法设定其他超参数比如隐藏层的层数即L 还有隐藏神经元的个数比如n[1] n[2]等等还有激活函数的选择还有激活函数的选择在隐藏层中可以使用ReLu或tanh或sigmoid 或其他激活函数这些参数都是你需要在学习算法中设定的这些参数都是你需要在学习算法中设定的这些参数都是你需要在学习算法中设定的它们会影响到参数W和b的最终结果它们会影响到参数W和b的最终结果我们称之为超参数因为像学习率α 迭代次数因为像学习率α 迭代次数还有隐藏层的层数等等都会影响W和b 所以我们称之为超参数因为超参数在某种程度上决定了W和b的最终结果决定了W和b的最终结果实际上深度学习中有许多不同的超参数实际上深度学习中有许多不同的超参数在后面的课程中我们会学习其他超参数比如动量最小批大小

以及各种形式的正则化参数等等如果这些术语你都不理解如果这些术语你都不理解别担心我们会在第二课中学习这些知识跟之前几代的机器学习算法相比深度学习算法多了不少超参数以后我都会把学习率α称为超参数以后我都会把学习率α称为超参数以后我都会把学习率α称为超参数而不是参数在之前的机器学习时代中我们没有这么多的超参数很多人就常常偷懒把α称为参数很多人就常常偷懒把α称为参数其实α的确是个参数只是它是一个可以决定真正参数的参数所以为了在学习的过程中将概念梳理得更为清晰我们会将类似α和迭代次数的这类参数统称为超参数当你在训练深度神经网络的时候你会发现在超参数取值的问题上会有很多不同的选择而你需要尝试许多可能的值所以在深度学习算法中的超参数如何取值是一个以实验为依据的过程你可能经常会有些直觉比如当你在设定学习率的时候你可能会说我认为α应该设为0.01 然后你实际操作了一下并且得到了最终结果但是基于结果你可能会说我觉得把学习率增加到0.05 会比较好所以如果你不确定学习率的最优值应该是多少你可以先随意尝试一个学习率α 如果发现代价函数J像这样下降你可能会尝试一个更大的值你可能会尝试一个更大的值却发现代价函数增长并且发散了你可能会再换一个值发现它迅速下降但却收敛于一个较高的值你就会再试一个值发现代价函数J如图所示基于你所尝试的取值集合你可能会说最后这个α的取值让学习效率变得很高并且使代价函数J收敛于一个较低的值所以我决定就用这个值来作为学习率所以我决定就用这个值来作为学习率在之前的幻灯片中可以看到有许多不同的超参数并且当你创建新模型的时候并且当你创建新模型的时候很难提前知道超参数的最优取值是多少很难提前知道超参数的最优取值是多少所以通常我们会这么做首先尝试许多不同的取值就像图中的模型这样尝试不同的参数配置比如5个隐藏层数个隐藏单元构建模型并运行看看效果如何然后循环往复直到找到最优值这个幻灯片的标题是应用深度学习是一个基于实验的过程基于实验的过程就是不断尝试然后找到最优值的高端说法另一个我观察到的现象是如今深度学习被应用于众多领域如今深度学习被应用于众多领域从计算机视觉到语音识别到自然语言处理到许多结构化数据应用比如在线广告或者网页搜索或者产品推荐等等我观察到的情形有以下几种第一种某一个领域的研究者尝试去拓展另一个领域有时候可以完美继承对超参数配置的直觉而有时候却得到大相径庭的结果所以我建议大家多尝试几次取不同的值看看结果是不是尽如人意尤其是在开始新项目的时候下节课我们会学习一些系统性方法来看看怎样才能取到最优值第二种情形是就算你已经在某个领域上已经工作了很久很久比如你在研究在线广告随着你的研究不断深入很有可能学习率和隐藏单元的个数等超参数的最优值会发生改变尽管已经把模型的参数都设置成当前的最优值有可能一年后你会发现这些竟然不是最优值了可能是因为计算机基础结构比如CPU GPU的类型或者其他一些构架发生了很大改变所以这里我分享一个经验之谈如果你研究的问题会持续比较久例如很多年你可以不时地比如每隔几个月尝试一些不同的超参数取值来确认这些超参数是否存在更为合适的取值相信经过不断尝试并且累积一些经验之后你也会慢慢养成关于最优超参数取值的直觉说到这里我也明白去逐个尝试超参数的取值听起来可能是深度学习中不那么令人愉快的部分但这是因为深度学习的研究依然处于初级阶段或许不久后对于超参数的最优值选取会出现更好的方法但也有可能因为CPU GPU 网络和数据库一直在不断变化这些方法在一段时间内不会趋于一致你还是需要不断地尝试对超参数不同的取值在预留的交叉验证集或其他集合上进行评估然后选取最优解这就是本期视频教程中关于超参数的简短讨论在第二课中我们会就如何系统地探索超参数空间提供一些建议但是学习完本视频后其实你已经具备了所有完成编程作业需要的工具和方法在下个视频中就一个提问频率比较高的问题深度学习和人类大脑有什么关系我还会分享一些观点翻译 | 审阅：Cousera Global Translator Community

PreviousForward and Backward Propagation NextWhat does this have to do with the brain?

Last updated 6 years ago

Was this helpful?