Random Initialization

当你开始训练神经网络时将权重参数进行随机初始化非常重要在逻辑回归的问题中把权重参数初始化为零是可行的但把神经网络的权重参数全部初始化为零并使用梯度下降将无法获得预期的效果让我们来看看为什么这里有两个输入样本参数因此n[0]等于2 还有两个隐藏单元因此n[1]也等于2 所以与隐藏层关联的权重w[1] 是一个2x2的矩阵现在我们将这个矩阵的初始值都设为0 同样我们将矩阵b[1]的值也都初始化为零偏离度矩阵b[1]的初始值都是0 不会影响最终结果但是将权重参数矩阵w[1]初始值都设为零会引起某些问题这样的初始权重参数会导致无论使用什么样的样本进行训练 a[1]1与a[1]2始终是相同的这第一个激活函数和这第二个激活函数将是完全一致的因为这些隐藏神经元在进行完全相同的计算工作当你进行反向传播的计算时由于对称问题这些隐藏单元将会在同样的条件下被初始化最终导致z[1]1的导数和dz[1]2的导数也不会有差别同样的我假设输出的权重也是相同的所以输出权重参数矩阵w[2]也等于[0,0] 但如果你使用这种方法来初始化神经网络那么上面这个隐藏单元和下面这个隐藏单元也是相同的它们实现的是完全相同的功能有时候我们也称这是“对称”的我们来归纳一下这个结果经过每一次训练迭代你将会得到两个实现完全相同功能的隐藏单元在之前的视频中W的导数将会是一个矩阵大概看上去是这样每一行都是相同的然后我们进行一次权重更新当你在实际操作时 w[1]将被更新成w[1]-αdw 而你将会发现经过每一次迭代后 w[1]的第一行与第二行是相同的所以根据上述信息来归纳我们可以得到一个证明结果如果你在神经网络中将所有权重参数矩阵w的值初始化为零由于两个隐藏单元肩负着相同的计算功能并且也将同样的影响作用在输出神经元上经过一次迭代后依然会得到相同的结果这两个隐藏神经元依然是“对称”的同样推导下去经过两次迭代三次迭代以及更多次迭代无论你将这个神经网络训练多久这两个隐藏单元仍然在使用同样的功能进行运算在这个例子中由于隐藏单元实现的都是相同的功能所以我们使用一个就够了在更大的神经网络中假设我们有三个输入特征值以及非常多的隐藏单元一个类似的结论也同样成立就像我现在画的这样我不会画出所有的连接线如果你依然将权重参数矩阵初始化为零那么无论你运行梯度下降多长时间所有的隐藏神经元都将是“对称”的它们依然将运行在完全相同的功能下而这并不能给我们带来任何帮助因为我们希望两个不同的隐藏单元能实现不同的功能因此只有进行随机初始化能够解决这样的问题让我们看看如何在Python中操作我们通常使用w[1]=np.random.randn((2,2))0.01 这样的写法来对这个22的矩阵进行随机初始化并乘上一个非常小的数比如0.01 这样操作后你已经将权重参数矩阵赋予了非常小的随机初始值然后对于b来说 b并不会由于初始值为零而产生对称问题或称之为对称失效问题所以使用b[i]=np.zeros((2,1))将b矩阵初始值设为零好了现在权重参数矩阵w已经完成了随机初始化不同的隐藏单元会承担不同的计算工作我们也不会再遇到类似前面说的对称失效问题了然后我们可以用同样的方法来将w[2]进行随机初始化 b[2]也依然可以初始化为零好了现在你想知道的可能是为什么使用这个常量为什么是0.01 为什么我们不把它设置为100或1000？主要原因是我们通常比较喜欢使用非常非常小的随机初始值而当你使用tanh或者sigmoid的激活函数时或者在输出层使用了sigmoid函数如果步长过大那么当你要计算激活值的时候你应该还记得z[1]=w[1]x+b[1] 而a[1]=g[1](z[1]) 所以当w非常大的时候 z（的绝对值）也相应的会非常大 或者说z可能是一个非常大的数或是一个非常小的数在这样的情况下你可能最终会发现图上 tanh和sigmoid函数中这些相对平坦的部分

梯度的斜率非常小这意味着梯度下降会非常缓慢所以整个学习过程也会变得尤为缓慢概括一下如果w过大你很容易在开始时就得出一个非常大的z 而这会导致你的tanh和sigmoid激活函数学习进度缓慢无法实现预期功能如果在你的神经网络中未使用任何sigmoid或者tanh激活函数这种情况可能不明显但是如果你使用二分类并且你的输出神经元使用了sigmoid函数那么你不会希望初始参数过大所以这就是为什么我们说在上述公式中需要乘以0.01 或者其他比较小的数值对权重参数矩阵w2来说也适用我们可以表示成 w[2]=np.random.randn((1,2))0.01 噢上面应该是zeros 这里还有另外一个结论分享给大家有时候会有比0.01更为合适的数值当你在训练一个仅含一个隐藏层的神经网络时显而易见 0.01这个数值在类似于这样不含过多隐藏层的浅层神经网络中是非常合适的但当你要训练一个非常非常复杂的深度神经网络时我们会使用一个不同的数值在下周的课程中我们会简单说一下如何根据不同的情况来挑一个与0.01不同的数值无论如何通常情况我们的计算结果都会是一个相对小的数值所以这周我们就先讲到这里从这期的教学视频中你应该学到了如何设计一个含有单独隐藏层的神经网络参数初始化使用前向传播进行预测以及在梯度下降时使用反向传播中涉及的导数计算所以现在你应该能完成课后测试和本周的编程练习祝你好运我希望各位能喜欢我的课程在其中学到知识也希望在后几期课程中能继续见到各位翻译 | 审阅 Cousera Global Translator Community

PreviousBackpropagation intuition (optional)NextDeep L-layer neural network

Last updated 6 years ago