One Layer of a Convolutional Network

现在让我们做好准备来构建单层卷积神经网络我们先来看一个例子 0:12 之前我们已经提过如何应用两个不同的过滤器对三维输入进行卷积计算 0:21 比如现在，对图中的输入，我们想要得到不同的4x4输出 0:30 应用第一个卷积过滤器我们得到了第一个4x4的输出应用第二个卷积过滤器我们得到了另一个4x4输出最终我们需要把这些输出变成单层卷积神经网络还需要对每一个输出添加一个偏差（bias）这里偏差是一个实数这里使用的是广播机制，我们对这 16个元素添加同样的偏差然后我们可以继续添加一些非线性转换ReLU 最终，通过添加偏差和非线性转换我们得到一个4x4矩阵输出对于下面的矩阵也是一样，添加一个不同的偏差值这里的偏差也是一个实数这个数字也像上面一样，通过广播添加到其他16个元素中最后应用一些非线性处理比方线性整流函数(ReLU) 这样我们得到了另一个4x4的矩阵输出像之前一样我们最后把这两个矩阵放在一起得到一个4x4x2的输出这个例子中对于6x6x3的输入我们通过计算得到一个4x4x2的输出(Andrew原话是4x4x4，应该是口误）这就是卷积神经网络的一层现在我们把这个例子和普通的非卷积单层前向传播神经网络对应起来在（神经网络）传播之前我们需要做这些 z[1] = w[1] x a[0], a[0] = x 再加上b[1] 然后再应用非线性函数g 也就是g(z[1]) 得到a[1] 在图中这个例子中，这个输入就是a[0]，也就是x

这里的过滤器作用和w[1]类似之前我们在卷积计算中我们有27个输入或者确切的说是两组27个输入因为我们有两个过滤器我们需要把上面这些数字相乘这其实就是通过一个线性方程计算得到一个4x4的矩阵这里通过卷积计算得出4x4矩阵这个过程和 w[1] x a[0] 类似输出也是一个4x4的矩阵另外就是添加偏差值因此方框里的这些作用和z类似最后应用非线性方程因此这里的输出其实成为了下一层(神经网络)的激活函数这就是从a[0]到a[1]的步骤：首先是线性计算然后再进行卷积，对这些相乘因此，卷积计算其实就是应用线性操作计算再添加偏差然后通过ReLU操作我们从6x6x3的输入 a[0] 经过一层神经网络的传播得到了4x4x2的输出也就是a[1] 从6x6x3到4x4x2 这就是一层卷积(神经)网络 4:33 在这个例子中我们有2个过滤器也就是两个特征因此我们得到输出是4x4x2 如果我们有10个过滤器而不是2个那么我们得到的输出就是4x4x10 因为这里需要有10个这样的操作(而不是2个). 然后把结果放到一起得到一个4x4x10的输出也就是a[1] 为了进一步理解这里所说的我们来做一个练习假定你的单层神经网络中有10个而不是2个 3x3x3的过滤器，这层网络中有多少参数？

我们来计算一下每个过滤器是一个3x3x3的三维矩阵因此每个过滤器有27个参数也就是，有27个数字需要进行训练学习得到 5:42 还有一个参数b，也就是总共28个参数 5:50 现在想象一下前面我们的图中是两个过滤器现在这里我们有10个过滤器 1, 2, ... 10个加起来是28x10 也就是280个参数注意这里. 一个很好的特性是. 不管输入的图像有多大比方1000 x 1000 或者5000 x 5000，这里的参数个数不变. 依然是280个因此用这10个过滤器来检测一个图片的不同的特征，比方垂直边缘线，水平边缘线或者其他不同的特征不管图片多大所用的参数个数都是一样的 6:40 这个特征使得卷积神经网络不太容易过拟合（overfitting）因此，比方你训练学习得到10个特征检测器(函数) 你可以把它们应用到非常大的图像(特征检测)中所用的参数数目还是不变的，比方这个例子中的280 相对(图片大小)来说非常小现在我们来总结回归一下用来在卷积神经网络中用来描述一层网络的(形式化表示的)符号标记我们说，l层是一个卷积层用f加上标l来表示过滤器的(矩阵维度)大小之前我们用 f x f 来表示现在我们加上上标[l]来表示这是一个l层大小为 f x f 的过滤器按照惯例这里的上标[l] 表示当前层l

p加上上标[l] 表示填充（padding）的大小填充的大小也可以通过不同的卷积名称来定义比方valid填充，就是没有填充 Same填充，表示应用的填充大小会使得输出的结果大小和输入拥有相同的维度大小 7:59 s加上上标[l]表示步长大小 8:03 这一层的输入是一个多维矩阵也就是一个n x n x n c (上一层的通道数目）我们来变一下这个表示方法我们用上标l-1 因为这个来自上一层的激活函数 n[l-1] 乘以 nc [l-1] 迄今为止我们所用的例子中图像的长宽都是一样的有些情况下图像长宽可能不同因此我们用下标 h 和 w 来表示来自上一层的输入的长和宽因此l层的矩阵大小是 n_h n_l n_c, 所有都加上上标[l] 这个是l层的情况. 这一层的输入是上一层的输出. 因此这里是l-1 然后这一层神经网络的输出就是 n_h[l] x n_w[l] x n_c[l] 这就是输出的(维度)大小和之前所说的一样，这里输出的大小起码长和宽是由这个公式 (n+2p-f)/2 决定的结果如果不是整数的话取下界在我们现在的表示方法中 l层的输出是前一层的维度加上当前l层的padding 再减去当前l层所用的过滤器大小我们现在计算的是输出矩阵的长同样这个公式也可以计算矩阵的宽只要把h换成 w就可以这两个的计算公式都是一样的

这就如何从n_h[l-1]到n_h[l]，和从n_w[l-1]到n_w[l] 那么通道数目呢，我们从哪里得到这个数字？我们来看一下输出的(维度的)深度从之前的例子中我们知道通道数目的大小和过滤器数目是一样的比方如果我们有2个过滤器那么我们的输出就是4x4x2. 是2维的如果过滤器数目是10个那么大小就是4x4x10 因此这个输出中的通道数目就是我们这一层神经网络中所用的过滤器的数目下面我们来看一下过滤器的大小每个过滤器的大小是f[l] x f[l] 再乘一个数那么这个数是什么呢？我们之前的例子中，如果对一个6x6x3的图像进行卷积所用的filter是3x3x3 11:43 因此所用的过滤器的通道的大小应该和输入的通道数目相同这两个数字一样大小因此过滤器就是f[l] x f[l] x n_c[l-1] 最后通过非线性计算. 这一层的输出就是这一层的激活函数a[l] 这个维度我们已经在这里可以看到了 a[l] 是一个三维矩阵 n_h[l] x n_w[l] x n_c[l] 如果你应用的是向量化实现或者批量梯度下降或者是小批量梯度下降那么你的输出A[l]，加入你有m个输入，就是一组m个激活函数也就是 m x n_h[l] x n_w[l] x n_c[l] 如果你是用的是批量梯度下降在代码中这就是你需要使用的变量的(梯度下降)顺序首先我们有这些训练数据的大小然后，这三个变量那么权重矩阵w呢？我们已经知道了过滤器的维度过滤器是f[l] x f[l] x n_c[l-1] 但是这只是一个过滤器的维度我们需要多少个过滤器呢？这个是我们需要的过滤器的数目所有过滤器的权重的维度就是所有的过滤器的大小总和由这个给定对吧？因为这个，最后的数字大小是l层神经网络中过滤器的数目大小

13:45 最后每一个过滤器加上一个偏差也就是每个过滤器加上一个实数因此(我们有) 偏差参数有这么多变量这只是一个大小为这个的向量虽然后面我们会看到更加方便的偏差系数编码 (1, 1, 1, n_c[l]) 这样的四维矩阵，或称为4维tensor 14:16 到现在为止我们提到了很多的参数和符号这些都我们在本课程会用到的另外我想提一下如果你上网搜索或者查看源代码的话你会发现并没有一个标准的惯例来规定(公式中的）长宽和通道的顺序因此你如果你读到GitHub 或者其他开源的实现源代码你可能会发现有些作者会把通道数放到最前面另外一些时候你看到(我们之前用的)那个顺序其实在一些常见的框架中会有一个参数来设置在(矩阵的) 索引中是要把通道数目放在最开始还是最后面我觉得这些情况都合理只要你使用的时候保持前后一致。不幸的是这个表示方式并没有在深度学习的各种文章中广泛使用但是在这门课中我会采用这种表示方式 15:24 (也就是)高和宽这两个维度放在前面通道维度放在最后我知道这里突然出现了很多的注释符号你可能会觉得太多了记不住不要担心你不需要记住这些注释和符号通过本周的练习你会更加熟悉这些表示方式和注释的这里我希望你把这个视频的重点放在卷积神经网络的单层卷积神经网络工作原理以及在这层中激活函数的计算还有怎么把激活函数对应到下一层现在你知道了单层卷积神经网络怎么工作下一步我们联合几层(神经网络) 来讨论深度卷积神经网络我们来看下一个视频 GTC字幕组翻译

PreviousConvolutions Over Volume NextSimple Convolutional Network Example

Last updated 6 years ago

Was this helpful?