Computing a Neural Network's Output

在上一节课里你看到了单隐层神经网络是什么样子的在这节课中我们将详细了解一下神经网络计算它的输出的细节你将会发现我们只是将逻辑回归进行多次的重复让我们一起来看看这是一个双层的神经网络我们深入了解一下这个神经网络计算了什么我们在讲逻辑回归的时候曾经说过在逻辑回归中一个圆代表了两步计算首先你可以按照这种方式计算z 然后计算sigmoid(z)作为激活函数神经网络只是把这个过程做了多次首先我们注意隐藏层里面的一个节点我们先看隐藏层的第一个节点我把其他的节点标为灰色和左边的逻辑回归类似隐藏层中的节点进行了两步计算第一步和左边的这个节点一样计算了了z=W^T·x+b 我们使用的符号是关联了第一隐藏层中的所有节点的这也是为什么这里有一堆方括号这是隐藏层的第一个节点所以我们有一个上标1 首先我们做了这个第二步就像这样计算 a_1^[1]=sigmoid(z_1^[1]) 对于z和a 在符号上的惯例为a^[l]_i 这里的l指的是第l层这里的i指的则是第l层中的第i个节点注意我们刚刚看的是第一层(隐藏层)中的第一个节点所以它的上标和下标都是1 这个小圆圈表示神经网络中的第一个节点执行了这两步计算现在我们来看神经网络隐藏层中的第二个节点和左边的逻辑回归单元类似这个小圆表示了两步计算第一步计算z 这里还是第一层但是已经是第二个节点=W_2^[1]^T·x+b a_2^[1]=σ(z_2^[1]) 你可以暂停视频再次检查上标和下标以确保它们遵循了我们上面约定的书写规则我们探讨了神经网络中的前两个隐藏单元第三个和第四个隐藏单元表示了相似的计算现在我把这组等式和这一组等式复制到下一页这就是我们的神经网络这是第一个这是第二个我们之前计算出的第一隐藏单元和第二隐藏单元的等式然后继续写下第三隐藏单元和第四隐藏单元对应的等式你就得到了下面的这些等式明确一下这是向量W_1^[1] 这是一个向量转置乘以X OK? 所以这里有一个上标T 表示向量转置你可能猜到了如果你实际实现一个神经网络使用for循环来实现它似乎效率很低所以我们下一步要做的就是将这四个等式向量化我们将从如何用向量的方法计算z开始接下来你可以用这种方法来计算它将这些W叠放到一个矩阵中你就得到了w[1],1的转置这就是一个行向量或者说这是一个列向量经过转置所得到的行向量然后是w[1],2的转置 w[1],3的转置 w[1],4的转置如此通过把那四个w向量堆叠在一起你就得到了一个矩阵你也可以从另外一个角度来理解我们现在有四个逻辑回归单元每一个逻辑回归单元都有一个相对应的参数向量w 通过堆叠这四个向量你就得到了这个(4,3)矩阵所以，如果你用这个矩阵去乘输入变量 x1,x2,x3 通过矩阵乘法运算你就得到了w1[1]的转置乘以x w2[1]的转置乘以x w3[1]的转置乘以x w4[1]的转置乘以x 同时别忘了那些b 我们现在把这些b向量加上去 b[1]1,b[1]2 b[1]3,b[1]4 也就是绿色的这些项那么这里就是b[1]1,b[1]2,b[1]3,b[1]4 你就会看到结果中每一行都是一一对应于上面这四行中的一行换句话说我们刚刚展示了我们得到的结果就等于z[1]1 z[1]2,z[1]3,z[1]4，就像这里定义的一样。或许你已经猜到了我们将把这一大坨东西叫做向量Z[1] 向量Z[1]就是把这些单独的Z 堆叠在一起而形成的列向量当我们进行向量化时一个经验能帮到你那就是在一层中有不同的神经元时我们就把他们堆叠起来这就是为什么当你有Z[1]1到Z[1]4这些在隐藏层中对应于不同神经元的时候，我们就把这四个垂直堆叠起来而形成Z[1]向量与此同时这边这个通过堆叠w[1]1,w[1]2等而得到的(4,3)矩阵我们将把这个矩阵称为W[1] 类似的这边这个向量我们将把它成为b[1] 这是一个(4,1)向量到目前为止我们已经通过这个向量矩阵计算了向量Z 最后我们要做的是去计算出这些a 可能你又猜到了我们将会通过堆叠来定义a 我们把那些激活值a[1]1到a[1]4堆叠起来就是把这四个值堆叠在一起得到向量a[1] 这将会是Sigmoid函数作用在 z[1]上后得到的值这里这个Sigmoid函数将会接受z[1]中的每个元素然后用Sigmoid函数来进行运算来复习一下我们通过运算得出 z[1]=W[1]x+b[1] 同时a[1]=Sigmoidz[1] 我们把这个拷贝到下一页

Vectorization

我们会看到对于第一层神经网络来说如果输入是一组x (x向量) 我们就有z[1]=W[1]x+b[1]，同时 a[1]=σ(z[1]) (4,1) = (4,3) x (3,1) + (4,1) 这个的维度是(4,1) 和最后的维度是相同的还记得吧我们说过x=a[0] y^=a[2] 所以如果你想的话你可以用a[0]来替代x 因为a[0]就是x向量的别名。现在通过类似的推导你可以得出下一层的表达式这个表达式和第一层的表达式十分类似输出层(就是z[2])的参数W[2]和b[2] 这里的W[2]是一个(1,4)矩阵 b[2]就是一个实数你也可以说它是个(1,1)矩阵 z[2]最后也是一个实数也可以把它写成(1,1)矩阵这个W[2]是个(1,4)矩阵用它去乘 a[1]这个(4,1)矩阵然后加b[2]这个(1,1)矩阵所以最后结果就是个实数然后如果你把最后的输出项去和逻辑回归做一个类比 (逻辑回归有参数W和b) 你会发现在逻辑回归运算里面的W其实就是起着神经网络运算里面W[2]转置的作用或者说 (神经网络的)W[2]就是(逻辑回归的)W的转置，同时(逻辑回归的)b就等于(神经网络的)b[2] 现在如果我们把左边这个部分都挡住不看那么这最后的输出单元就与逻辑回归非常相似了有些不同的就是我们现在不写(逻辑回归参数)W和b 我们写(神经网络的)W[2]和b[2] 它们的维度分别是(1,4)和(1,1) 来复习一下对于逻辑回归来说去实现一个输出或者说去预测一个结果你会计算z=w^Tx+b y^等于a 等于 sigmoid of (z). (注：y^就等于a[2]) 当你有一个神经网络中有一个隐藏层你需要做的就是通过这四个运算去计算最终的输出你可以把这些运算想象成第一步--通过向量化运算得出隐藏层a[1]里这四个逻辑回归的输出 (注：这四个输出是下一层a[2]的输入) 第二步--用a[1]的四个输出作为a[2]层的输入就像第三第四个运算做的一样希望你能理解我的表述其实你要掌握的就是你只需要那四行运算代码去计算神经网络的输出现在你知道了给你一个输入参量x 你可以用四行代码就计算出这个神经网络的输出。然后与逻辑回归类似我们也想实现出一个能够同时在多个样本上进行运算的向量化算法我们会看到通过把训练样本堆叠在矩阵的不同列中只要通过很小的改变我们就能将逻辑回归中的向量化实现照搬过来以使得神经网络不仅能计算单个样本上的输出值而且能计算整个训练样本集上的输出值我们将在下一节课中讨论这些细节 GTC字幕组翻译

PreviousNeural Network Representation NextVectorizing across multiple examples

Last updated 6 years ago

Was this helpful?