Forward Propagation in a Deep Network

在上节课中我们介绍了 L层的深度神经网络以及用于描述深度神经网络所使用的各种标记符号在本次视频中我们会讲怎样在深度神经网络中进行前向传播和反向传播和以往一样我们先来看一下对于单独的训练样本X 如何实现前向传播之后我们会讨论向量化的情况这种情况下我们会学到如何同时对整个训练集进行前向传播假设给定一个单一的训练样本x 我们会这样来计算第一个隐藏层的激活函数对这里的第一个隐藏层先计算z[1]=w[1]x+b[1] 在这里划出来的w[1]和b[1]是影响第一层激活函数的参数这是神经网络中的第一个隐藏层然后来计算这一层的激活函数等于 g(z[1]) 激活函数g 的上标取决于你现在在哪一层我们现在正在计算第一个隐藏层的激活函数所以上标为1 现在我们已经得出了第一个隐藏层的计算公式第二个隐藏层怎么处理呢我把它框起来这里就是z[2]=w[2]a[1]+b[2] 所以第二层的激活函数就是权重参数矩阵w乘以第一层的输出函数也就是我划出的这个值加上第二层的偏差向量然后a[2]等于z[2]代入激活函数这就是第二层的计算公式后面几层以此类推直到输出层这个例子中输出层是第四层在第四层的计算中 z[4]等于权重参数矩阵w[4] 乘以上一层的激活函数再加上这个偏差向量类似的将z[4]代入激活函数就是a[4] 这样你就推导出了输出值y帽另外要注意一下这里的X也等于a[0] 因为我们也可以将输入的特征向量x 看作是第0层的激活函数输出所以我们这里就用a[0]来取代x 然后你就会发现所有屏幕上的等式看起来形式都相同我们来总结一下通用规则 z[l]=w[l]a[l-1]+b[l] 其次是l层的激活函数 a[l]就是将z[l]代入到激活函数g中这两个就是通用的前向传播等式我们已经完成了对单一训练样本的前向传播通用公式地推导下面我们来看看怎样将其向量化后应用在整个训练集中公式看起来和之前很类似我们先来看第一层使用大写字母 Z[1]=W[1]X+b[1] 而A[1]=g1 要记住X=A[0] 其实这些大写字母只是意味着把训练样本放入了矩阵的不同列中这里我们一样可以用A[0]来代替X 下一层的公式看起来很相似 Z[2]=W[2]A[1]+b[2] A[2]=g2 我们将这些向量例如z和a等把它们堆叠起来变成矩阵这是第一个训练样本的z向量这是第二个训练样本的z向量以此类推直到第m个训练样本把这些都堆叠在列中形成矩阵将Z大写我们称之为Z矩阵对矩阵A做类似的操作将所有的训练样本从左到右堆叠起来形成矩阵然后在整体向量化完成之后我们能得到Yhat=g(Z[4]) 这也等于A[4] 这就是将所有训练样本经过深度神经网络生成的预测值水平堆叠起来下面来总结一下我们用过的的标记符号我在这里修改一下把小写z和a替换成大写的Z和A 噢这个小写的z看上去已经像是大写的Z了这样我们就在整个训练集上得到了向量化的前向传播公式这里的A[0]=X 如果你仔细观察这个向量化的过程就会发现看起来很像for循环当i取值范围是1到4时当l取值范围是1到总层数大写L时去计算第一层的激活函数接着是第二层然后类推至第三层和第四层看起来在这里就有个for循环我们之前讲过在使用神经网络时要尽可能避免使用for循环但这是唯一的一处我觉得除了使用for循环以外并没有更好的实现方法所以当你在实现前向传播的时候使用一个for循环是可以接受的它被用来计算第一层的激活函数然后是第二层和第三层至今为止没有人提出而且我也不觉得有别的方法可以让我们不通过for循环来完成从1到L层的计算也就是整个深度神经网络的计算工作所以在这里使用for循环是没有问题的到这里深度神经网络的标记符号和如何在该网络中进行前向传播已经讲完了如果你觉得有些内容看起来很眼熟那是因为其实这些内容和我们之前提到的只有一个隐藏神经层的神经网络很相似只是将它重复了几次而已下期预告当我们在构建自己的神经网络时如果试图尽量减少发生问题的概率就必须要很系统很仔细地处理相关矩阵的维度当我自己在写代码的时候通常会拿一张纸仔细地考虑我正在使用的矩阵的维度我们会在下一个视频教程中学习如何使用这种方法 GTC字幕组翻译

PreviousDeep L-layer neural network NextGetting your matrix dimensions right

Last updated 6 years ago