Gradient Descent

我们已经讲了逻辑回归模型。我们已经讲了如何通过损失函数来界定你的模型对单一样本的训练效果。我们还讲了代价函数，代价函数可以用来衡量参数w与b在你设计的整个模型中的作用效果现在，我们继续来看看如何使用梯度下降模型去训练，或者去学习，来调整你的训练集中的参数w和b。总的来说，这里有一个我们已经熟悉的逻辑回归算法。

在第二行我们看到了代价函数 J 代价函数J有参数w和b，并且定义为平均值。计算从1到m的损失函数之和损失函数可以衡量你的算法的效果对每一个训练样例都输出y^(i) 对每一个训练样例上的真实结果y(i)进行比较完整的公式在等号右边展开所以代价函数可以衡量你的参数w和 b在训练集上的效果要使得参数w和b的设置变得合理自然地想到要去找到使得代价函数 J(w, b) 尽可能小所对应的w和b 接下来给出梯度下降法(gradient descent)的说明在这个图中横轴表示你的空间参数w和b 在实践中w可以是更高的维度，但是为了更好地绘图我们定义w和b都是单一实数代价函数J(w,b)是在水平轴w和b上的曲面因此曲面的高度就是 J(w,b)在某一点的值我们所想要做的就是找到这样的w和b 使得对应的代价函数J值是最小值

我们可以看到代价函数J是一个凸函数(convex function) 像这样的一个大碗，因此这是一个凸函数并且这与看起来像这样的函数相反它是非凸的，并且有很多不同的局部最优因此我们的成本函数J(w,b)，之所以定义为凸函数一个重要原因是我们使用对于逻辑回归这个特殊代价函数J造成的为了去找到优的参数值我们将会用一些初始值来初始化w和b 可能是用那个小红点表示的对于逻辑回归几乎所有的初始化方法都有效通常用0来进行初始化随机初始化也有效但是对于逻辑回归我们通常不这么做但是因为函数是凸函数，无论在哪里初始化你应该达到同一点或大致相同的点梯度下降法以初始点开始然后朝最陡的下坡方向走一步因此在梯度下降法一步后，你或许会停在那里因为它正试图沿着最陡下降的方向走下坡路或者尽可能快地下坡这是梯度下降的一次迭代两次迭代或许会到达那里三次或更多我猜想这是隐藏在曲线后面希望你收敛到这个全局最优值或接近全局最优值所以这张图片说明了梯度下降模型让我们多说一些细节为了更好地说明，让我们来看一些函数你想要找到J(w)的最小值，可能函数会看起来像这样为了画起来容易些，我现在忽略b 仅仅是用一维曲线代替多维曲线梯度下降是这样做的我们将重复执行以下更新的操作我们更新w的值使用“:=”表示w进行迭代设置w为w-α dJ(w)/dw(公式如图) （dJ(w)/dw表示函数J(w)对w求导）在算法收敛之前我会重复这样做。公式中有两点是我要提一下的，首先在这里的α表示学习率(learning rate) 学习率可以控制我们在每一次迭代或者梯度下降法中步长大小我们之后讨论如何选择学习率α 其次在这里的这个数是导数这就是对参数w的基本更新或者改变当我们开始编写代码来实现梯度下降我们将使用代码中变量名的约定

dw表示导数因此你会像这样编写代码 w:=w-α*dw(公式如图) 我们用dw作为导数的变量名现在我们确保梯度下降法更新是有意义的 w在这对应的代价函数J(w)在曲线上的这一点记住导数的定义是函数在这个点上的斜率而函数的斜率是高除宽在这个点相切于 J(w)的一个小三角形在这里导数是正的 w通过w自身减去学习率乘导数来更新导数是正的所以你每一次从w中减去这个乘积接着每一次都向左边走一步如果在一开始你参数w的值就非常的大的话像这样梯度下降法会使你的算法渐渐地减小这个参数w。另一个例子，如果w的位置是在这里这个点处的斜率 dJ/dw将会是负的并且梯度下降法在更新参数时 w将会减去α乘上一个负数并慢慢地使得参数w增加所以这样的迭代和梯度下降法会使得参数w逐步变大无论你初始化的位置是在左边还是右边梯度下降法会朝着全局最小值方向移动如果你不熟悉导数或者微积分你也不熟悉dJ(w)/dw的含义，别急在下一节课我们会讨论更多关于导数的知识如果你深入了解过微积分你应该可以对神经网络如何工作有更深刻更直观的认识但是即使你并不熟悉微积分通过下面的几节课，我们也会对导数和微积分有足够直接的认识使你能够有效的使用神经网络但是现在所有的直观认识便是这个术语，表示的是函数的斜率并且我们希望知道在当前的参数条件下，斜率是怎样的所以我们可以采用下降速度最快的步长我们也可以知道下一步更新的方向让代价函数J逐渐减小

因此目前对于(w)J的梯度下降法我们写出来的参数中假设了只有w 在逻辑回归中你的代价函数是一个含有w和b的函数在这种情况下，梯度下降的内部循环就是这里的这个公式，你需要不断重复迭代我们可以把w的迭代公式写成这样 w:=w-αdJ(w,b)/dw 以及把b的迭代公式写成这样 b:=b-αdJ(w,b)/db 这两个等式是你实际迭代更新参数时进行的操作另外我想提到的是，在微积分的符号约定中某些符号可能会让人疑惑。我不认为目前理解微积分（符号约定）是非常重要的如果你看到这些，希望你不要想太多在微积分中在这的术语作为这一有趣的花体标志我们实际上这么写

（如图所写的是偏微分符号,读作round）所以这个符号这实际上只是一个小写d 当你看到这个表达式的时候用一个花哨的、样式化的字体所有的含义都是J(w,b)的导数或者函数J(w,b)的斜率也即是函数在w这一点的斜率在微积分中这个符号的规则我认为并不是完全符合逻辑的同时对于微积分中这个符号的规则我认为会让理解变得更为困难。也就是说当函数J有两个以上的变量（使用偏导数符号）我们不使用小写字母d 而使用更加花哨的符号这个就称作偏导数符号但是别担心如果J只有一个变量，就使用小写字母d 唯一的区别就是你是用偏导数符号还是小写字母d 取决于你的函数J是否含有两个以上的变量变量超过两个，就使用偏导数符号如果你的函数只有一个变量你就使用小写字母d 这是在微积分上一个有趣的符号规则我认为它使学习和理解变得更加复杂了但是如果你看到了偏导数符号其含义就是计算函数关于其中一个变量在对应点处的斜率类似在这里，这里的微积分符号正式地写的话应该改用另一个数学符号因为在这里J有两个输入参数而不是一个屏幕底部的这个东西应该用这个偏导数来写但是这其实表达了和小写字母d同样的含义最后当你编写代码想要实现我们屏幕写出的这个公式时通常在迭代更新w的值的时候我们会用dw这个变量来代替这个式子同样的情况，还有下面这个公式当你想去更新b的数值我们将会用db这个变量来代表下面这个公式所以，这就是梯度下降法的实现方法如果现在你已经有很多年没接触微积分了我明白你看到这个视频中一黑板的导数公式会有些焦虑如果你有这种感觉，不要担心我们会在下一个教程中，给你更多关于导数的解释甚至不用通过深度数学知识来理解微积分而是通过直观图示来理解微积分这样学习完后，你将会更容易理解什么是神经网络让我们进入下一个视频，我们会讨论导数的知识 GTC字幕组翻译恩

PreviousLogistic Regression NextDerivatives

Last updated 6 years ago

Was this helpful?