Backpropagation intuition (optional)

上个视频中你已经看过了反向传播的等式在这个视频中我们会用计算图来更直观地学习这些式子的推导过程这个视频不是必须要看的所以看或者不看这个视频都可以不看这个视频你也应该可以完成所有任务那么回忆一下我们讨论的逻辑回归我们首先从这个向前的步骤算出z 然后算出a 还有损失函数之后我们要计算导数从这个反向的步骤中我们可以先算出da 然后去计算dz 然后去计算dw和db 这个损失函数L(a,y) 等于-yloga-(1-y)log(1-a) -yloga-(1-y)log(1-a) 如果你熟悉微积分并对a进行求导的话你就会得到da的表达式所以da就等于这个如果你算出这个微积分的话就会知道这个是 -y/a+(1-y)/(1-a) 这就是对这个进行求导的结果当你再反向推导一步去计算dz时我们已经弄清楚了dz等于a-y 我之前解释过了为什么但是事实证明从微积分的链式求导法则来说dz等于 da乘上g(z)的导数这里的g(z)等于sigmoid(z) 也就是对于这个输出单元的逻辑回归的激活函数对吧？所以记住这仍然是那个输入x1 x2 x3 然后通过一个sigmoid单元输出a 也就是y-hat的逻辑回归这里激活函数是个sigmoid函数顺便说一下对于那些熟悉微积分的链式求导法则的同学这个的原因是a等于sigmoid(z) 因此 L关于z的偏导数等于 L关于a的偏导数乘da/dz 这里的a等于sigmoid(z) 这个等于d(g(z))/dz 即g'(z) 这就是为什么这个表达式也就是我们代码中的dz 等于这个表达式也就是我们代码中的da乘g'(z) 于是这个就是这个所以只有你熟悉微积分中的链式求导法则才能理解那个最后的推导过程但如果你不熟悉的话别担心在需要的地方我会具体解释最后在计算完了这个dz之后我们会计算dw 也就是 dz乘上x 还有db 当只有一个训练样本时它就是dz 那么以上就是逻辑回归了现在当我们要计算神经网络的反向传播时我们要做的其实很像这个但是我们要做两次因为现在我们的x 不单单是一个输出单元它会先成为一个隐藏层之后再变成一个输出单元所以我们会在这个有两层的神经网络里做两步而不是像在这里一样只计算一步那么在这个有一个输入层一个隐藏层和一个输出层的两层神经网络里回想一下计算步骤首先用这个等式算出z1 然后算出a1 再算出z2 注意这里的z2也取决于参数W2和b2 然后根据z2 计算出a2然后最终得到损失函数而反向传播做的事是它会从反方向计算da2和dz2 然后向后去计算dW2和db2 再向后计算da1 dz1 等等我们不需要关于输入x进行求导因为对于监督学习来说x是不变的所以我们不会去优化x 至少对于监督学习来说我们不会关于x进行求导我将会跳过具体计算da2的步骤如果你想的话你其实可以算出来 da2然后用它去计算dz2 但是在实际使用中你可以把这两步合并成一步然后就会得到 dz2等于a2-y 就像以前一样而且我先把dw2和db2写在这下面你会得到dw2等于dz2乘以 a1的转置然后db2等于dz2 这步和我们在逻辑回归中计算dw=dzx 的步骤挺像的只是现在 a1在这里替代了x而且这里有个多出来的转置步骤因为我们的这个大写的W矩阵和单个的w参数之间需要进行转置对吧？因为在只有一个输出的逻辑回归的情况下w是一个行向量 dw2是这样的然而这里的w是一个列向量所以这就是为什么a1有个转置而在逻辑回归的x这里没有这样我们就完成了一半的反向传播然后如果你想的话你可以去计算da1 虽然在实际操作中da1和dz1的计算通常被合并到一步里你实际上要实现的是 dz1=W2 的转置乘上dz2 然后再用它的每个元素与 g1'(z1)的每个元素相乘然后检查一下维度就行了对吧？如果你有一个像这样的神经网络输出y 如果你有n0个输入的特征这里nx=n0 n1个隐藏单元和n2 这种情况下的n2 只是一个输出单元然后W2矩阵的大小就是n2n1 z2和dz2的大小就是n21 在我们实现二元分类的时候这个的大小其实是11 z1还有 dz1就是n11维的对吧？注意任意的变量foo和dfoo都会有相同的维度这就是W和dW的维度永远相同的原因而相似地对于b和db与z和dz都是一样的为了确认它们的维度相同我们有dz1等于W2的转置乘以dz2 这里是与g1'(z1)进行一个单独元素间的乘法现在与上面的维度匹配一下的话这里就应该是n11 等于W2的转置我们对这个矩阵进行一下转置它就会变成n1n2维的 dz2就是n21维的然后这个这个东西的维度应该与z1相同这个也是n11维的这里有个元素间的乘法现在维数就对了吧？ n11维的向量可以通过 n1n2维的矩阵乘以n2n1因为它们两个的乘积是一个n11维的矩阵之后这就变成了两个n11的向量的单独元素间的乘法这样维度就匹配了在写反向传播时有一个注意事项就是如果你确认你的矩阵维度匹配了的话如果你从头到尾想一想你的矩阵比如W1 W2 z1 z2 a1 a2等等的维度然后确认一下这些矩阵运算结果的维度都可以相互匹配有时就已经可以消除许多反向传播过程中的bug了那么我们现在得到了dz1 最后总结一下 dW1和db1 也许我们应该把它们写在这但现在地方不够我还是把它们写在幻灯片的右边吧 dW1和db1可以用以下公式表示这个就会等于dz1乘以x的转置这个等于dz 你也许注意到了这些等式之间的相似之处其实这是必然的因为x 在这里是a0的角色所以x的转置就是a0的转置所以这些方程实际上非常相似这些给了我们一些关于推导反向传播的理解我们一共有6个等式分别是dz2 dW2 db2 dz1 dW1和db1 我现在要把这六个等式给放到下一页好了目前为止我们已经推导出了对于只有一个训练样本的反向传播算法但是不足为奇的是比起一次只能训练一个样本我们更想要可以向量化多个不同样本的训练模型回想一下在前向传播中我们一次处理一个训练样本时我们有这样的等式 a1=g1(z1) 为了进行向量化我们取出这些z 然后把它们以列的方式堆在一起然后把它命名为大写的Z 然后我们发现通过把这些以列堆叠之后在用一个大写字母来定义它们我们就可以直接得到Z1=W1X+b A1=g1(Z1) 对吧？我们在这节课中非常仔细地定义符号来确保把样本以列堆叠成一个矩阵可以把所有这些解决事实表明如果你仔细研究一下其中的数学相同的技巧对于反向传播同样适用因此向量化的等式如下首先如果你把这些不同训练样本的dz 以列堆叠成一个矩阵而且对这个和这个也进行相同操作的话那么这就是它向量化的实现然后这里是计算dW2的方式这里有一个1/m因为代价函数J 等于1/m乘以损失函数从i=1到n的和在计算导数时我们会加上1/m 就像我们在计算逻辑回归的权重时那样这是db2 就是把这里dz的值都加起来乘以1/m 然后dZ1是这么算的这里与以前一样是一个单独元素间的乘法只是之前的幻灯片上它是n11维的向量现在它是一个n1m维的矩阵这两项都是n1*m维的这就是这个星号代表着单独元素间的乘法的原因最后这是剩下的两个它们看起来不太让人吃惊我希望以上这些给你了一些关于反向传播推导过程的理解在所有机器学习算法中我认为反向传播算法的推导实际上是我见过用到的数学最复杂的推导之一你需要熟悉线性代数以及对于矩阵的求导来从最基本的原理开始推导如果你十分熟悉矩阵微积分的话根据这个过程你也许可以自己推出这个算法但是我认为实际上许多看过像视频里这个级别的推导过程的深度学习的从业人员已经完全有能力对这个算法有一个直观的理解并且有效地实现它了所以如果你特别熟悉微积分的话看看你是否可以从头开始推导这个算法它运用了极难的数学是我见过在所有机器学习算法中很难推导的之一但是无论如何如果你要实现这个你已经有足够的经验去调试并且让它正常工作最后我还想在你自己写神经网络之前与你分享最后一个细节就是怎样去初始化你的神经网络的权重事实表明随机初始化你的参数而不是直接初始为0 对于训练你的神经网络十分重要在下一个视频中你将看到原因

PreviousGradient descent for Neural Networks NextRandom Initialization

Last updated 6 years ago