Logistic Regression Gradient Descent

欢迎回来这个视频中我们将讨论在实现逻辑回归时如何计算导数来实现梯度下降重点在于逻辑回归中梯度下降的关键方程在这个视频里我将用计算图来进行计算我必须承认使用计算图对于逻辑回归的梯度下降来说有些大材小用但我想通过这种方式让你们熟悉这些想法希望会对你学习经过神经网络有所帮助现在我们深入探讨逻辑回归的梯度下降充分之前我们建立了这样的逻辑回归方程预测值y_hat的定义如图 z的定义如图我们关注这一个例子损失函数关于这个例子的定义如图其中a是逻辑回归的输出 y是真实值我们通过计算图表示它例如有两个特征x1和x2 为了计算z 我们要输入w1,w2和b 还有特征x1和x2的值这些东西在计算图里用来计算z z=w1x1+w2x2+b 用方框框起来接着计算y_hat y_hat=a=sigma(z) 这是计算图里接下来的一步最后我们计算L(a,y) 我不再抄一遍公式了在逻辑回归中我们要做的就是修改参数w和b 来减少损失函数之前讲前向传播的步骤中讲了如何计算单个样本的损失函数现在我们讲讲如何反向计算导数这是一个整理后的框图因为我们要计算关于损失函数的导数反向传播时首先要做的是计算损失函数对于a的导数所以在代码中你只要用da来表示dL/da 如果你对微积分熟悉你可以得到dL/da=-y/a+(1-y)/(1-a) 得到的方法是通过loss的表达式然后如果你熟悉微积分的话你可以计算关于变量a的导数然后得到这个式子但你不熟悉的话也别担心我们会提供导数表和其他的这门课需要的东西所以如果你特别熟悉微积分的话我鼓励你从之前的讲义中找出损失函数的方程然后试着对a求导如果你不懂微积分也别担心现在已经算出了da的值是最终输出值对a的导数你可以继续往回可以算出dz 是python例子中起的变量名是损失函数对z的导数你可以把损失函数显式地写成a和y的函数或者直接写L也行可以得到dz=a-y 讲一点过程给熟悉微积分的同学如果你不熟悉也别担心这个dL/dz 可以被表示成dL/da乘以da/dz da/dz可以算出是a(1-a) 注:仅对于sigmoid函数成立 dl/da之前得到右边这个结果所以dl/da的表达式和da/dz的结合起来相乘可以得到结果是a-y 这是求解过程这是链式法则如果你会微积分可以自己算算如果不会你只需要知道 dz=a-y 我们已经替你做完了微积分反向传播的最后一步是反向算出你需要改变w和b多少特别地你可以算出L对w1的导数通常记作dw1 它等于x1乘以dz 同样 dw2 代表你要改变w2的值是x2乘以dz db等于dz 所以如果你要对于一个例子进行梯度下降你需要做如下事情用公式算出dz 然后算出dw1 dw2 和db 然后进行更新 w1=w1-α*dw1 α代表学习速率 w2也按一样的方式更新 b=b-αdb 这是一个简单例子一步梯度的情况你看了对于一个单一的训练样本如何计算导数和执行逻辑回归的梯度下降但训练一个逻辑回归模型你不止有一个样本而是有m个在下节课中我们将谈谈如何应用这些想法到多个训练样本而不是单独的一个

在之前的课程中，你们学习了怎样计算导数以及怎样实现梯度下降在只有一个训练样例的逻辑回归情况下现在我们来讨论 m个训练样例的情况我们先回顾一下代价函数J(w,b) 我们关心的J(w,b)是个平均数 1/m乘上求和从i取1到m时的这个损失函数L 当你的算法输出关于样本y的a^i 你知道a^i是训练样本的预测值也就是𝜎(z^i) 等于𝜎函数作用于w的转置乘上x^i 加上b 所以我们在前几页幻灯片中展示的是对任意单个训练样本如何计算导数当你只有一个训练样本时 dw1 dw2和 db 加上上标i 表示你求得的相应值如果你现在在做我们在之前的幻灯片中演示的情况但只使用一个训练样本(x^i,y^i) 抱歉我这里少了个i 现在你发现了带求和的全局代价函数实际上是从第1项到第m项各项损失的平均所以这表明全局代价函数对w_1的导数也同样是各项损失对w_1导数的平均值但之前我们已经演示了如何计算这项也就是我所写的即之前幻灯片中演示的如何对单个训练样本进行计算所以你真正需要做的是计算这些导数正如我们在之前的训练例子中演示的并且求平均这会给你全局梯度值你能够直接把它实现到梯度下降法中所以这里有很多细节但让我们把这些装进一个具体的算法你需要实现的就是使逻辑回归和其中的梯度下降法生效我们可以初始化J等于0 dw_1等于0 dw_2等于0 db等于0 我们将要做的是使用一个 for循环遍历训练集同时计算相应的每个训练样本的微分并把它们加起来好的如我们所做的让i 取1到m m是训练样本数我们计算z^i就等于 w的转置乘上x^i加上b a^i的预测值等于σ(z^i) 然后我们要累加J J加等于(y^i)log(a^i)加上 (1-y^i)log(1-a^i) 然后加一个负号在整个公式的前面然后如我们早前所见我们有dz^i或者它等于a^i减去y^i dw加等于(x_1)^i乘上dz^i dw_2加等于(x_2)^i乘上dz^i 我做这个计算已经假设你只有两个特征所以n等于2 否则你需要对dw_1 dw_2 dw_3等等做同样的计算同时db加等于dz^i 我觉得这个for循环就到此结束最终对所有的m个训练样本都进行这个计算后你还需要除以m 因为我们是在计算平均值因此dw_1除等于m dw_2除等于m db除等于m 全都以平均的形式做完所有这些计算后你已经计算了代价函数J 对各个参数w_1 w_2 和b的导数回顾我们正在做的细节我们使用dw_1 dw_2和db 作为累加器所以算完这个以后 dw_1等于你全局代价函数对w_1的导数对dw_2和db也是一样注意dw_1和dw_2没有上标i 这是因为我们在这代码中把它们作为累加器去求取整个训练集上的和然而dz^i是对应于单个训练样本的dz 这也就是为什么这里会有个上标i 指代对应的第i个训练样本所以完成所有这些计算后实现一步梯度下降来更新w_1 即w_1减去学习率乘上dw_1 而w_2更新为w_2减去学习率乘上dw_2 同时b更新为b减去学习率乘上db 这里dw_1 dw_2和db都是如之前所说那样计算的最终这里的J也会是你代价函数的正确值所以幻灯片上的所有东西只实现了一步梯度下降因此你需要重复以上内容很多次以完成多次梯度下降这些细节看起来似乎很复杂但目前不要担心太多所有这些将会变的更加清楚当你继续尝试并在编程作业中实现这些方法的时候但它表明计算中有两个缺点如果按照这里的方法实现的话那就是这样实现逻辑回归时你需要两个for循环第一个for循环是一个小循环用于遍历m个训练样本第二个for循环是一个遍历所有特征的for循环这个例子中我们只有2个特征所以n等于2并且n_x等于2 但如果你有更多特征你需要编写dw_1 dw_2 以及类似地计算dw_3等等直到dw_n 所以看来你需要一个for循环遍历所有n个特征当你实现深度学习算法时你会发现在代码中显式地使用for循环会使你的算法不够高效在深度学习时代会有越来越大的数据集所以不使用显式的for循环来实现你的算法是非常重要的而且会帮你适用于更大的数据集所以这里有一些技术叫做矢量化技术它可以帮助你的代码摆脱这些显式的for循环我想在前深度学习的时代也就是深度学习兴起之前矢量化是有着两面性的有时候能加速你的代码有时候也未必能加速但在深度学习时代矢量化也就是像这样摆脱for循环已经变得相当重要因为我们越来越多地训练非常大的数据集因此你需要代码变得非常高效所以在接下来的几个视频中我们将讨论矢量化以及如何实现这些同时连一个for循环都不使用所以到这里我希望你明白如何实现逻辑回归或者逻辑回归中的梯度下降法这一切都会变得更加清晰当你进行编程练习以后但在真正做编程练习前让我们先谈谈矢量化所以到时候你可以实现全部这些东西实现一个梯度下降的迭代而不使用任何for循环 GTC字幕组翻译

PreviousDerivatives with a Computation Graph NextVectorization

Last updated 6 years ago

Was this helpful?