Forward and Backward Propagation

在上节课里我们学习了搭建深度神经网络时所需的基本模块比如每层都有前向传播的步骤以及对应的反向传播的步骤这节课我们会讲一下如何实现这些步骤首先我们来说前向传播回忆一下这一步做的是输入a[l-1] 输出a[l] 以及将z[l]放入缓存而在实践中我们也同样会把w[l]和b[l]放入缓存这样调用起来会比较容易下面这个的公式大家应该很熟悉了前向函数就是z[l]=w[l]a[l-1]+b[l] 其中a[l]是作用于z[l]的激活函数如果你想用向量化来实现那就是Z[l]=W[l]A[l-1]+b[l] 这里加上的b能通过python的广播来实现 (详见第二周Broadcasting in Python课程) A[l]是将激活函数作用于矩阵Z[l]每一个元素后得到的结果你应该还记得在前向传播的计算导图中我们曾经画了这样一个前向流程图通过输入a[0]来进行初始化这里的a[0]就是X 所以初始化的这个就是最上面这个输入值如果你只有一个训练样本 a[0]就是这个训练样本的输入特征如果你在处理整个训练集代表整个训练集的输入特征这就是前向传播计算导图的初始输入值然后以此类推就能从左到右计算前向传播接着我们来讨论反向传播这个代表输入da[l] 输出da[l-1]和dW[l]以及db[l] 我来写一下需要用到计算步骤 dz[l]=da[l]g[l]'(z[l]) da[l]与gl矩阵元素依次相乘然后计算导数 dW[l]=dz[l]a[l-1] 这里我没有写把它们放入缓存但是你要记得这是必须的接着db[l]=dz[l] 最后da[l-1]=W[l]转置乘以dz[l] 在这里我不会把求导过程写出来但结果是若将da的定义代入这里你会得到一个我们之前上课见过的公式即用之前的dz[l]来计算新的dz[l] 如果我在这里代入你会得到dz[l]=w[l+1]转置乘以dz[l+1]乘以g[l]‘(z[l]) 我知道这里看起来有很多公式不用担心这些公式以前都出现过就是上周我们在学习单隐藏层神经网络时见过的反向传播等式注意这里是矩阵元素依次相乘所以其实只需要这四个等式来进行反向函数计算最后我们来写一下向量化的版本第一行就是dZ[l]=dA[l]与 g[l]'(Z[l])的元素乘积这比较容易理解 dW[l]等于1/m乘以dZ[l]*A[l-1]转置然后db[l]等于1/m乘以np.sum(dZ[l]) np.sum(dZ[l], axis=1, keepdims=True) 上周我们讲过使用np.sum来计算db的方法最后dA[l-1]等于W[l]转置乘以dZ[l] 这个公式模型能通过输入da[l] 这里和这里来输出dW[l]和db[l] 以及da[l-1] 这些你需要的导数这就是构建反向函数的方法总结一下对于输入x 第一层也许有一个ReLU激活函数第二层可能会使用另一个ReLU激活函数到第三层如果你要做二元分类可能会用Sigmoid激活函数以及输出结果y帽通过y帽可以计算出损失然后就可以开始向后迭代了我们先把箭头都画好这样之后就不用一直换笔了这里我们会用反向传播计算导数来得到dw[3] db[3] dw[2] db[2] dw[1] db[1] 在此过程中缓存输出z[1] z[2] z[3] 这里会反向传播da[2]和da[1] 然后就可以计算da[0] 但这并没有意义所以我们直接将它去掉就好了以上就是实现一个三层神经网络前向传播和反向传播的流程现在还有最后一个细节没讲当前向传播时我们会用输入数据X来进行初始化那反向传播又是如何初始化的呢? 当你使用逻辑回归做二元分类时 da[l] 等于 -y/a+(1-y)/(1-a) 可以得出最终输出的损失函数对y帽求导结果就是这样的形式如果你熟悉微积分可以尝试推导损失函数L 对y帽或者a求导你就会得到这个公式这个输出da的公式会用在最终层L上当然如果要使用向量化实现先要初始化反向传播在L层用dA[l]代表这个公式即使对不同的例子来说这也是一样的对第一个训练样本dA[l]=(-y[1]/a[1]) 加上(1-y[1])/(1-a[1]) 从第一个训练样本一直到第m个训练样本最后除以(1-a[m]) 这是实现向量化的方法也就是如何初始化一个向量化版本反向传播的方法现在我们已经学习了前向传播以及反向传播的基础知识如果你尝试使用这些公式可以通过前向传播以及反向传播来得到你需要的导数你也许会觉得公式过多不便于理解开始迷茫不知道这些公式能干什么如果你有这样的困扰我建议当你在本周的编程实践时亲手实现这些步骤这会让你的理解更加深刻这节课有很多公式也有些公式不容易弄懂如果有条件的话你最好自己用微积分和线性代数知识来推导一遍我知道这有难度所以这并不强求事实上这已经是机器学习中比较困难的推导了这些课程中列出的公式或者说微积分公式仅仅是反向传播中的导数计算再强调一下如果你觉得这些公式看起来有点抽象不容易理解我的建议是认真完成作业然后就会豁然开朗但我不得不说即便是现在当我实现一个机器学习算法的时候有时我也会惊讶我的机器学习算法被证明有效是因为机器学习的复杂度来源于数据而非一行行的代码所以有时候你会觉得你写了几行代码但不确定代码在干什么最后它们竟然产生了神奇的结果因为实际上大部分神奇的地方并不在你写的几行短短的代码中可能并不是真的那么短但不会是成千上万行的代码而是碰巧输入了大量数据即使我已经从事机器学习很多年了有时候我依然感到意外我的机器学习算法起效是因为算法的复杂度来源于数据而不一定是你写的成千上万行的代码好了这就是实现深度神经网络的方法再提醒大家一下你完成课后作业就会更了解一些在进入下一个话题前下个视频中我们会讨论超参数和参数当你在训练深度网络时若能正确调整超参数会让深度神经网络开发工作更为高效我们下期见翻译 | 审阅：Cousera Global Translator Community

PreviousBuilding blocks of deep neural networks NextParameters vs Hyperparameters

Last updated 6 years ago

Was this helpful?