Gradient descent for Neural Networks

我相信这会是一个令人激动的视频在本期视频中我们将学习如何在神经网络中使用一个隐含层实现梯度下降本视频中我将写出所有方程你需要使用这些方程来实现梯度下降法中梯度的逆传播在之后的视频中我会解释为什么这些方程是精确的换句话说正确的它们可以用于计算神经网络中需要用到的梯度神经网络中需要用到的梯度现在你的神经网络只包含一个隐含层且有参数 W1 b1 W2 b2 回顾一下它有nx(即n0)个输入特征 n1个隐藏单元和n2个输出单元在我们的例子中 n2=1 那么矩阵W1就是n1n0的 b1是一个n1维向量可以视作n11矩阵即一个列向量 W2的维度是n2n1 b2的维度是n21 我们目前只考虑 n2=1的情况也就是说只有一个隐藏单元而且在这种神经网络中我们还有一个损失函数现在假设我们在做二分类问题那么参数整体的损失就是m分之一倍的平均损失函数这里的L表示当模型预测为y帽(即a2) 但真实标签为y时的损失而且如果做二分类损失函数可以与逻辑回归完全一致所以为了训练算法的参数我们需要采用梯度下降法当我们训练神经网络时初始化参数随机在全0附近十分重要我们之后再讨论其中的原因初始化完参数后梯度下降的每一次循环都要对样本做预测所以我们计算y帽i i取从1到m 之后需要计算导数计算dW1 也就是损失函数对W1求导数我们还需计算另一个参数 db1 也就是损失函数对b1求导亦称为求斜率依此类推同样对W2和b2求导最后梯度下降的更新就是 W1更新为W1减去𝛼 即学习率乘上dW1 b1更新为b1减去学习率乘db1 类似地还要更新W2和b2 有时我写"冒号等号" 有时我还写"等号" 两种写法都可以这就是梯度下降的单次循环然后重复这个循环很多遍直到参数看似收敛了在之前的视频中我们讨论了如何计算预测值即如何计算输出我们还介绍了如何向量化所以关键只需了解如何计算这些偏导数dW1 db1 以及偏导数dW2 db2 我希望直接给你们计算这些导数的方程我将在下一个视频中那是个选修视频深入介绍我们如何推导这些公式那么我们总结一下用于传播的公式我们有Z1=W1X+b1 A1等于那一层的激励函数作用于Z1的每一个元素然后Z2=W2A1+B2 最后这些都是对训练集做了向量化的 A2=g2(Z2) 我们假定在做二分类那么激励函数应当就是sigmoid函数所以我就直接写在这儿所以这些就是前向传播也就是神经网络从左向右进行前向计算我们来计算导数也就是逆向传播步骤 dZ2等于A2减去真实标签Y 我再提醒一下本例中我们做了向量化所以矩阵Y是这个1m矩阵其中水平拼接了所有的m个样例所以dW2就等于这个公式其实这里的前三个公式与逻辑回归的梯度下降十分类似与逻辑回归的梯度下降十分类似 axis=1, keepdims=True 这里我说一个小细节这个np.sum是一个Python numpy指令它作用于矩阵的某一维度在这里是水平方向求和而这里的keepdims是用于防止输出奇怪的一阶数组也就是说数组的维度会是(n,) 所以设定keepdims=True 我们可以保证Python的db2输出为(n,1)维严格地说这里应写作 n21 而这里则是一个 11的数可能现在看来无所谓但我们之后就会解释这里很重要到此为止我们做的和逻辑回归很像但是当你继续计算梯度逆传播的时候你需计算这个 [读公式] 所以这里的g1'就是你隐含层所使用的激励函数的导数对于输出层我假定你在做二分类问题用的是sigmoid函数我已经把它代入了得到这里的dZ2公式而这个乘号是指每个元素对应相乘所以这里应当是n1m的矩阵而这里是对每一个元素代入求导所以同样也是 n1m的矩阵所以这里的乘号指矩阵对应元素相乘最后dW1就等于这个而db1就等于这个 [读公式] 所以尽管之前这里的keepdims可能不重要因为n2=1 这里只是个11矩阵是个实数这里db1是n1*1向量所以我们希望Python的 np.sum输出这种维度而不是一个奇怪的如此处所示维度的矩阵那会导致之后的计算很混乱另一种方法就是你无需保留这些参数但需要显式地调用一个reshape函数来把np.sum的输出转变为你希望的db的维度所以这些就是前向传播的四个方程以及逆向传播的六个方程我直接写出了这些方程但在下一个选修视频中我们将回顾逆向传播算法的六个方程直觉上是如何推导的请自己决定是否观看但是无论如何只要你实现我写的算法你就能实现正确的前向和逆向传播而且你将能够计算梯度下降法所需要的导数从而学出你的神经网络参数你同样可以实现这个算法并使其生效你同样可以实现这个算法并使其生效即使你没有深入理解背后的代数计算许多成功的深度学习实践者就这么做的但如果你想理解你可以看下一个视频从中学习这些方程导数的推导方法的推导方法

PreviousDerivatives of activation functions NextBackpropagation intuition (optional)

Last updated 6 years ago

Was this helpful?