Activation functions

当你建立一个神经网络的时候你需要做的众多选择之一是对隐藏层使用什么样的激活函数以及对输出层的神经元使用什么样的激活函数到现在为止我们都（对输出层）使用了Sigmiod函数但是有时候使用别的激活函数会更好我们一起来看看其中的一些选择在神经网络正向传递步骤中我们在这三个步骤中使用了Sigmiod函数因此Sigmiod函数在这里也被称为激活函数这是一个大家熟悉的Sigmiod函数曲线 a等于1除于1加欧拉常数e的负z次方在一般情况下我们可以使用其他的关于z的函数g 我们把它写在这里 g为一个非线性函数但是不一定是Sigmiod函数比如说，Sigmoid函数值的范围在0和1之间一个通常情况下效果比Sigmoid函数效果更好的激活函数是tanh函数也叫做双曲正切函数这是z，a和关于z的tanh函数 函数值的范围在1和-1之间 tanh函数的公式为 e的z次方和e的-z次方之差除以他们的和它其实在数学上看是一个移位后的Sigmoid函数也就是一个普通的Sigmoid函数但是通过移位后经过原点并且重新调整比例使函数输出范围在-1和1之间如果在隐藏单元中令关于z的函数g 等于tanh(z) 那么最终效果基本都会好过使用Sigmoid函数的结果这是因为此时函数的值介于1和-1之间因此隐藏层激活函数输出的平均值会更加逼近于0 有时候当你训练一个学习算法的时候你可能会中心化你的数据并且使用tanh替代Sigmiod函数以达到数据中心化的效果数据中心化使数据的平均值更加逼近零，而不是比如说0.5 这个会使得下一层的学习变的更简单一点我们将在第二个课程中具体讨论彼时我们会在讨论优化算法时进行进一步的研究这里面一个需要知道的是我几乎再也不使用Sigmoid函数作为激活函数再也不使用因为tanh函数在大多数情况下几乎都相当严格地优于Sigmoid 一个例外是在输出层上因为y的值是0或者1 因此可以理解你需要输出的y帽（拟合值）的输出在0和1之间而不是在-1和1之间在一个特例下我会使用Sigmoid 作为激活函数，就是当你使用二元分类的时候在这种情况下你可以使用Sigmoid激活函数用于输出层

关于z2的函数g等于Sigmoid(z2) 你看到的例子这里你可能会在隐藏层用tanh作为激活函数将Sigmoid用作输出层的激活函数因此不同的层会使用不同的激活函数有时候需要标明每个层使用的激活函数都可能不同我们可以使用方括号的上标来表明G[1] 和G[2]可能是不尽相同的函数上标标明在哪个层上标表示为层带有方括号的上标2表示输出层输出层 Sigmoid和tanh函数的缺点之一是如果Z的值非常大或者非常小那么关于这个函数导数的梯度或者斜率会变的很小当Z很大或者很小的时候函数的斜率值会接近零这会使得梯度下降变的缓慢一个在机器学习界很流行的小工具叫做线性整流函数线性整流函数大概是这么样子的 ReLU的公式为 a等于0和z中较大一个值当z为正时导数为1 反之当z为负的时候斜率，或说导数就为0 当技术上去实现的时候虽然z正好为0时候的导数并不存在但是当你在计算机上实现的时候你通常会得到 z正好为000...的非常小的数值所以你不需要去担心（遇到z恰好为0的情况）在实际应用当中你可以认为当z为0时候的导数为1或者0 这样做并不会有什么大的问题即使这个函数是不可微的这里有一些大致规则来选取激活函数当你处理的问题是二分类问题此时的输出为0和1 那么Sigmoid激活函数在输出层的使用是顺理成章的选择而在其他神经元上使用ReLU，或者也叫做线性整流函数会是一个用来做激活函数的更好选择如果你不确定用什么样的激活函数用在你的隐藏层上我推荐使用线性整流函数函数 ReLU是目前广泛被人们使用的一个方法虽然有时候人们也会使用双曲函数作为激活函数 ReLU的缺点之一是当z为负数的时候其导数为0,但在实际应用中并不是问题不过还有另外一个版本的ReLU 叫做Leaky Relu 我们将在下一张幻灯片上给出公式当z为负值时，函数值不是为0 而是包含像这样的一个很小斜率这个叫做Leaky ReLU Leaky ReLU效果通常要好于 ReLU激活函数虽然在实践中使用的相对少这是因为无论使用哪个，问题都是不大的如果你必须从2个中选取一个我通常会选用ReLU

ReLU和Leaky ReLU的共有的优势是在z的数值空间里面激活函数的导数或者说激活函数的斜率离0比较远因此在实践当中使用普通的 ReLU激活函数的话那么神经网络的学习速度通常会比使用双曲函数tanh或者Sigmoid函数来的更快主要原因是使学习变慢的斜率趋向0的现象变少了激活函数的导数趋向于0会降低学习的速度我们知道，一半z的数值范围 ReLU的斜率为0 但是在实际使用中大多数的隐藏单元的z值将会大于0，因此学习仍然可以很快让我们快速的回顾一下不同激活函数的优缺点这是一个Sigmoid激活函数我会建议不要使用这样的函数，除了输出层上并且你要解决的是二分类问题或者干脆完全不使用这个函数

我几乎不使用这个函数的原因是 tanh函数相比要好很多 tanh激活函数大概是这个样子的而默认的最经常使用的激活函数则是ReLU函数，它是这个样子的当你没有特别好的选择的时候可以使用ReLU 你也可以尝试使用 Leaky ReLU函数其a是0.01z，z值中的最大的0.01z和z中最大的那个 0.01z和z使得函数略微弯曲你可能会说为什么要使用0.01这个常数你完全可以将其看作算法的另外一个参数有人说那样做效果更好但是我很少看到有人真正去做这件事如果你想在你的应用里面尝试一下大胆的去尝试吧！你能发现其是否有效如果效果好的话继续使用它我希望本课程给你一些可选的激活函数你可以用于你自己的神经网络事实上在深度学习中你通常会有很多选择来建立你的深度神经网络你通常会有很多选择来建立你的深度神经网络从隐藏单元的数量到激活函数的选择到我们将讨论的如何初始化权重有很多的选择还有很多相类似的选择多数时候很难得到现成的实践指导来精确的适配你的问题并最好的解决它通过这个系列的课程我会让你了解我在业界看到的方法哪些更流行，哪些少流行一些但是对于你的应用以及你应用的特征其实是很难事先去断定什么方法是最好的，通常的建议通常是如果你不确定哪个激活函数效果最好你可以逐个尝试使用他们并用交叉验证集或说开发数据集去验证他们的效果我们将在后面讲到看哪个方法的效果最好并选择它我认为通过测试这些不同的选择你能够更好的设计面向未来的神经网络架构来对应你问题的特征和算法的演进而不是我来告诉你例如使用ReLU激活函数而不要使用别的方法这样的建议不一定对于你想要在不久或者长远的将来解决的问题这个就是关于选择激活函数的内容你看到了最为流行的几种激活函数还有一个时常被提起的问题为什么你需要一个激活函数为什么不能干脆不用它我们会在下一个视频中讨论（音乐）你会理解为什么神经网络需要某种非线性的激活函数 GTC字幕组翻译

Why do you need non-linear activation functions?

为什么神经网络需要使用非线性激活函数事实上想要让神经网络实现一些有趣的功能非线性激活函数是不可或缺的我们来看下原因这是神经网络前向传播的方程为什么我们不能把这个去掉？去掉函数g 并让a[1]等于z[1] 或者说g(z)等于z 通常我们把这称为线性激活函数有时候我们也会用专业性更强的名称恒等激活函数因为它直接将输入的值输出为了说明问题我们一起来看看如果a2等于z2会怎样假如这么做那么这个模型计算的仅仅是输入特征x的线性函数y或y帽根据前两个等式如果令a[1]等于z[1]等于W[1]x+b[1] 并令a[2]等于z[2]等于W[2]a[1]+b[2] 如果把a[1]的定义代入你就会发现a[2]等于 W[2](W[1]x+b[1])+b[2] 这一部分是a[1]+b[2] 简化一下就是 W[2]W[1]x 加上 W[2]b[1]+b[2] 然后让我们把这两项标记为W' b' 表达式就等于W'x+b' 如果你使用线性激活函数或者叫恒等激活函数那么神经网络的输出仅仅是输入函数的线性变化我们之后会讲到深度网络也就是有很多层很多隐藏层的神经网络以上推导证明如果你使用线性激活函数或者说没有使用激活函数那么无论你的神经网络有多少层它所做的仅仅是计算线性激活函数这还不如去除所有隐藏层在上述例子中如果在这里使用线性激活函数在这里使用sigmoid激活函数那么这个模型其实和没有任何隐藏层的逻辑回归模型相同我不会在这里证明如果你有时间可以自己尝试但请记得线性的隐藏层没有任何用处因为两个线性函数的组合仍然是线性函数除非你在这里引入非线性函数否则无论神经网络模型包含多少隐藏层都无法实现更有趣的功能只有一个地方会使用线性激活函数当g(z)等于z 就是使用机器学习解决回归问题的时候 y是一个实数比如你想预测房价 y不是0或1 而是一个实数从0美元到可能存在的最高价格任何值都有可能也许要几百万美元但无论数据集中的房价是多少只要y是实数那么在这里使用线性激活函数就没问题这样的预测输出y帽也是从负无穷到正无穷的任意实数但此时隐藏单元不应该使用线性激活函数可以使用ReLU或者Tanh 或者leaky ReLU等所以唯一可以使用线性激活函数的地方通常就是输出层除此之外只有在一些极为特殊的情况下才会在隐藏层使用线性激活函数比如与压缩有关的处理我们就不进行深入讨论了此外使用线性激活函数的情况极为少见当然如果你要预测房价例如在第一周视频中看到的因为房价是非负数这种情况下也可以使用ReLU激活函数使你输出的y帽都大于等于0 希望以上这些已经让你了解为什么使用非线性激活函数对神经网络至关重要下期预告我们将会讨论梯度下降为了先让大家熟悉梯度下降的基础在下个视频中我会展示如何估计以及如何计算单个激活函数的斜率或者导数下个视频见翻译 | 审阅：Cousera Global Translator Community

PreviousVectorizing across multiple examples NextDerivatives of activation functions

Last updated 6 years ago

hashtagWhy do you need non-linear activation functions?

Why do you need non-linear activation functions?