Vectorizing Logistic Regression

我们已经谈过向量化能够大大地加速你的代码在本节课中我们会讲讲逻辑回归的向量化实现使得它们可以被用于处理整个训练集也就是说可以用梯度下降法的一次迭代来处理整个训练集甚至不需要使用任何一个for循环我对于这个技术兴奋不已后面当我们讨论神经网络时也不需要使用任何一个for循环那么就让我们开始吧首先让我们看看逻辑回归的前向传播假设我们有m个训练样本为了预测第一个样本你需要计算这个计算z 使用这个我们熟悉的公式来计算激活函数即计算第一个例子的y值然后预测第二个样本你需要做同样的计算然后预测第三个样本你还需要做这个计算以此类推如果你有m个训练样本你可能需要重复m次不过为了实现前向传播即计算出m个训练样本的预测结果有一种实现方法可以不需要for循环让我们看看如何做到首先回忆一下我们曾把矩阵X 定义为训练的输入值就像这样排列在不同的列中这就是一个矩阵一个nx乘m的矩阵我现在用Python numpy的shape形式来写这是说X是一个nx乘m维的矩阵现在我先告诉你如何计算z(1)和z(2) 以及z(3)等等以上全部在一个步骤中完成实际上仅用一行代码即可实现所以我要先构造一个 1xm维的行向量方便计算z(1) z(2)等等直到z(m) 都是在同一时间内(完成计算) 实际上它可以表达成 W的转置矩阵(W^T)与矩阵X相乘再加上这个向量 b b b ... 其中这个[b b ... b b]的东西其中这个[b b ... b b]的东西是个1m维的向量或者称为一个1m维的矩阵或一个m维的行向量如果你比较熟悉矩阵乘法的话你可能就能看出 W的转置乘上X 其实就等价于 W的转置乘上x(1) x(2)等等直到x(m) 其中W^T应该是一个行向量 W^T应该是一个这样的行向量所以第一项就等于W^Tx(1) W^Tx(2)等等... 直到W^Tx(m) 而当你加上第二项 [b b ... b]时就等同于你把每一项加上b 所以你得到了另一个1m的向量这是第一个元素这是第二个元素等等这是第m个元素如果你参照上面的定义第1个元素就是z(1)的定义第2个元素就是z(2)的定义等等就如同我们构造X那样把你的训练样本水平排列在一起把你的训练样本水平排列在一起我将把Z定义为把z(1) z(2) ... z(m)们水平排列在一起所以当你把代表着不同训练样本的x们水平排列在一起你得到了X 当你用同样的方法把这些z们水平排列在一起你会得到Z 为了实现这些计算 numpy命令为Z=np.dot(W.T,X)+b 其中W.T为W的转置这里有一个python的精妙的地方这里b是一个实数或者说一个11的矩阵即一个普通的实数但是当你把这个实数b 加到这个向量上的时候 python自动把这个实数b 扩展为一个1m的行向量为了防止你觉得这个运算难以理解这个在python中叫做广播(broadcasting) 现在你不需要担心这个我们会在下一个视频中详细讨论这里值得学习的是你可以用这一行代码来计算Z 其中Z是一个包含z(1) z(2) ... z(m)的1m矩阵其中Z是一个包含z(1) z(2) ... z(m)的1m矩阵所以这是求z的过程那我们怎么求这些a们的值呢我们下一步要做的就是找到一个同时求 a(1), a(2), ..., a(m) 的方法就像把所有x排列在一起可以得到X 把所有z排列在一起可以得到Z 把所有a排列在一起可以得到一个新的变量我们将它定义为A 在程序作业中你会看到如何实现一个 (输入输出为)向量值的sigmoid函数所以将这个Z作为sigmoid函数的输入值会非常高效地得到A 你将在程序作业中看到细节复习一下我们在这个幻灯片中学到的是我们不需要遍历m个训练样本来一次一次计算z和a 你可以用一行代码来实现同时计算所有的z 用这一行代码以及sigma函数的恰当实现来同时计算所有的a 这就是你如何通过向量化同时实现这就是你如何通过向量化同时实现所有m个训练样本的前向传播总结一下你刚刚看到了你如何使用向量化来高效同时计算所有的激活函数所有a(1) a(2) ... a(m) 下一步我们会证明你还可以用向量化来高效计算反向传播计算导数让我们在下一节课中学习如何实现它 GTC字幕组翻译

PreviousVectorization NextVectorizing Logistic Regression's Gradient Output

Last updated 6 years ago

Was this helpful?