Edge Detection Example

卷积运算是卷积神经网络的基础组成单元之一在这个视频中我们用边缘检测作为引发兴趣的例子你将了解卷积运算是如何进行的

在之前的一节中我已经讨论过神经网络的前几层是怎样检测边缘的并且后几层可能会检测对象的某些部分而更后的几层会检测到某些整个的对象比如在此例中的人脸

在本视频中你将看到如何在一个图像中进行边缘检测举个例子来看我们举个例子说明给出一张这样的图片让电脑算出在这张图片中的物体是什么你做的第一件事可能是检测图片中的垂直边缘

例如在这个图像中垂直的线是栅栏所在的地方还有比较垂直的线是这些行人的轮廓所以在这个垂直边缘检测结果中它们被检测出来了

你也许也想要检测水平边缘比如说有一个非常明显的水平线段在栅栏在的地方它也被检测到大概在这里

所以你怎样才能在像这样的图像中检测边缘呢我们来看个例子 1:27 这里是一个6x6的灰度图像因为这是一个灰度图像所以只是一个6x6x1的矩阵而不是6x6x3 因为没有分开的RGB通道 1:41 为了检测边缘比如这个图像中的垂直边缘你能做的是建立一个3x3的矩阵在池化(pooling)过程中用卷积神经网络中的专业术语来说这会被称为一个过滤器(filter) 1:57 我将要建立一个3x3的过滤器或者说是3x3的矩阵像这样 111 000 -1 -1 -1的有时候科研论文中会将它称为核(kernel)而不是过滤器但是在这个视频中我将会用过滤器这个术语

你需要做的是获得6x6的图像并求其卷积卷积运算用这个星号代替

用这个3x3的过滤器去求它的卷积稍微有点遗憾的是这个符号在数学中星号是卷积的标准符号但是在Python中这被用来表示乘法也许元素积乘法所以这个星号有双重用法这是个重复的符号但是当星号表示卷积的时候我会在这个视频中明确表示这个卷积运算的输出是一个4x4的矩阵你可以将它理解为一个4x4的图像下面是计算这个4x4输出的方法计算第一个元素也是就这个 4乘以4矩阵中左上角的这个元素你要做的是用这个3X3的过滤器把它粘贴到你的原始图像的这块3x3区域上面我在这里写了111 0 0 0 -1 -1 -1 你需要做的是计算元素积所以第一个是3乘以1 然后第二个是1乘1 把它放到这里 1乘1 然后加上这个 2乘1 然后把九个结果全部加起来所以中间的列得到 0乘0加5乘0加7乘0 然后最右边的列得到1乘-1 8乘-1加上2乘-1 把这九个数字相加你将得到-5 然后我把-5填在这里对你当然可以用任何顺序把这九个数字相加比如说我先计算第一列然后第二列然后第三列接下来为了计算出第二个元素你要将蓝色的方形向右平移一步像这样让我把这里的绿色标记都去掉你将要求同样的元素积然后相加所以你有0乘1加上5乘1加7乘1 加1乘0加8乘0加2乘0 加2乘-1加9乘-1加5乘-1 如果你把这九个数加起来你得到-4 以此类推如果你把这个向右平移得到九个乘积然后把它们相加得到0 然后在这里你应该得到8 只是验证一下你有2加9加5 得到16 然后中间的列得到0 最右边的列 4加1加3乘-1 得到-8 然后就是在左边的列是16 -8 然后得8 和我们算好的一样接下来为了得到下一行的元素你需要做的是把这个蓝色的方形往下移一步然后它现在在这个位置然后再次重复元素积然后相加如果你这么做了你在这里得到-10 6:05 然后你把它向右移一步应该得到-2 然后是2 然后是3等等然后算出矩阵中的所有元素 6:21 再解释清楚一点这个-16是从右下端的3x3区域得到的 6:31 所以用3x3矩阵卷积6x6的矩阵将得到一个4x4的矩阵 6:38 这些是图像和过滤器这些都只是多维的矩阵 6:44 不过左边的矩阵可以容易地理解为一个图像中间这个我们把它理解为一个过滤器然后右边的这一个也许可以理解为另一个图像这就是一个垂直边缘检测器你会在下一页知道为什么是这样的在我们继续之前我有另一个提醒那就是如果你将这运用到编程语言中在实践中大部分的编程语言都会有一些不同的方法而不用一个星号去标记卷积比如说在编程练习中你会实现一个conv_forward函数如果你用TensorFlow做有一个函数tf.nn.conv2d 而在其他的深度学习编程框架中比如Keras 后面会学到有一个函数Conv2D来实现卷积运算但是所有支持卷积的深度学习框架都会有一些函数实现这个卷积运算 7:56 为什么这是在进行垂直边缘检测呢让我们看看另一个例子。 8:03 为了更好的解释我们用一个简化了的图像这有一个简单的6x6的图像这个图像的左半边是10 右半边是0 如果你以图片形式得到它它将是这个样子的左半边的10 得到更亮的像素强度值右半边得到比较暗的像素强度值我们用灰色来表示0 虽然可能也能画成黑色但是在这个图像的正中间很清晰地有一个明显的垂直边缘是从白到黑或者说从白到暗色的过度 8:44 所以当你用这个3x3的过滤器做卷积运算这个3x3的过滤器可以被可视化成这样更明亮的像素点在左边然后有中间调的颜色在中间然后更暗的在右边你得到的是在右边的这个矩阵 9:06 如果你想可以验证这个数学运算比如说这个0 是取元素积然后与这个3x3的块相乘得到的然后从最左列你得到10加10加10 然后中间是0 然后-10 -10 -10 这就是为什么你最后在这里得到0 与之不同 30是从这里得到的 9:36 从10加10加10得到的然后-0 -0 这是为什么你最后在那里得到30 如果你把最右边的矩阵画成图像它将会是这样更亮的区域在正中间这与检测出的垂直边缘相对应在这个6x6的图像的中间这里的维数看起来不太对检测出来的边缘看起来很厚那只是因为我们在这个例子中用了一个很小的图像如果你用一个1000x1000的图像而不是一个6x6的图像你会发现它能很好得检测出在你图像中的垂直边缘在这个例子中这个在中间的明亮区域只是用输出图像的方式来表示有一个强垂直边缘正好在图像的中间垂直边缘检测里也许能得到一个直观的理解一个垂直边缘是一个3x3的区域因为我们用的是3x3的过滤器左边有亮像素你并不在意中间有什么然后在右边是暗像素在这个6x6的图像的中间可能会有亮像素在左边暗像素在右边这就是为什么它认为那里有一个垂直边缘卷积运算提供了一个方便的方法去弄清楚如何在图像中找到这些垂直边缘所以现在你知道卷积运算是怎么发挥作用的在下一个视频中你会看到如何运用它作为卷积神经网络中的一个基本构成

你已经了解了卷积操作是如何进行垂直边缘检测的在本视频中你将会学会正边缘和负边缘的差别即由亮变暗和由暗变亮的边缘过渡你还将会看到其他几种边缘检测器以及如何让算法来学习（这个边缘检测器）而不是手动设定边缘检测器我们目前一直还是这样的现在我们进入正题

这是我们在上一个视频中看到的例子有一个图片 6x6大小左边亮右边暗将它与垂直边缘检测器进行卷积得到在图中间的垂直边缘

如果将颜色翻转将会发生什么即左边是暗的部分右边是亮的部分因此 10现在在右半部分 0现在在左半部分。如果将它与相同的边缘检测器做卷积你将会在中间部分得到-30 而不是30 你可以将结果画出来可能看起来是这样因为亮暗变化是反的这些30现在也反了变为-30 表示由暗变亮而不是由亮变暗的转换如果你不在乎这两个的区别你可以取输出矩阵的绝对值但是这个过滤器确实能够区分亮到暗的边界和暗到亮的边界

现在看更多边界检测的例子我们已经学习了能够检测垂直边界的3乘3的过滤器因而你不会太惊讶于 3乘3的过滤器同样能够检测水平的边界回顾一下由这个过滤矩阵得到的垂直边界是个3乘3的区域左边比较亮右边区域比较暗同样的一个水平边界也会是3乘3的区域其上方区域比较亮而下面比较暗现在有一个更加复杂的例子其左上方和右下方的元素全为10 如果将之视为图片元素为0的区域会比较暗将这些暗的区域涂黑左上方和右下方比较亮如果用一个水平边界检测器来卷积你会得到这个矩阵

拿几个例子来看这个30对应了这个3乘3的区域在这个区域里上方的像素比较亮下方的像素比较暗在这里检测器在这里找到了一个很强的正边界这个-30对应了这个3乘3的区域在这个区域里上方的比较暗下方比较亮因此在这个例子里是一个负边界这是一个有些不实际的例子我们在考虑一个只有6乘6个像素的非常小的图片但是这些介于中间的值像-10 反映了过滤器捕捉到了左边正边界的一部分和右边负边界的一部分因此混合在一起从而得到介于两者之间的值如果这是一个非常大的图片比方说这是一个1000乘1000的图片同样是棋盘形式那么就不会有这些元素为10的过渡区域这些过渡值相对于图片的大小会非常小总而言之不同的过滤器可以找到垂直和水平的边界事实上这些3乘3的垂直边界检测器只是一个可能的选择在计算机视觉的文献中对于用哪些数字组合是最好的仍然存在相当大的争议这里你也可以选择使用别的数字比如1 2 1 0 0 -1 -2 -1 这个被称为Sobel过滤器这个过滤器的优点在于它给中间行赋予了更大的权重从而可能使得它更加稳定计算机视觉的研究人员同样会使用其他的数字组合比方说可以使3 10 3 而不是1 2 1 另外一列为-3 -10 -3 这个被称为Scharr过滤器这个过滤器有些其他的略微不同的性质上面这个只是对于垂直边界检测器而言如果将上面这些矩阵旋转90度可以得到水平边界检测器随着深度学习的发展我们发现如果你想要检测一些复杂图片的边界可能并不需要计算机视觉的研究人员挑选出这9个矩阵元素你可以把矩阵里的这9个元素当做参数通过反向传播来学习得到他们的数值目标是要获得这9个参数使得对6乘6的图片用这个3乘3的过滤器进行卷积能得到一个优良的边界检测器

在后面的视频中可以看到将这9个元素当成参数学习如果需要的话反向传播可以选择学习得到1 1 1 0 0 0 -1 -1 或者是Sobel过滤器或是Scharr过滤器更有可能的是它能学到比前述这些人为定义的过滤器更加善于捕捉你的数据的统计学特征的过滤器除了垂直和水平边界同样能够学习去检测45度的边界 70度或73度无论什么角度通过将这个数字设成参数从数据中自动学习得到我们发现神经网络可以学习底层特征得很好比如边界甚至比计算机视觉研究人员所精心选择的更加稳定但是这些计算仍旧是卷积运算这使得反向传播可以学习任何所需的3乘3的过滤器并应用于整个图片的任何位置这里这里从而得到所需要检测的特征无论是垂直边界水平边界倾斜的边界甚至是其他一些还没有名字的过滤器

总之将这9个数字当成参数去学习是计算机视觉里的一个有用的想法在本课程本周稍后的课程里我们会讲到具体的细节你将会学习如何通过反向传播来学习这9个数字但首先我们先讲讲基本的卷积运算的一些细节和变化在接下来的两个视频里我想与大家讨论如何使用补白(padding) 和不同的步幅这两个是卷积神经网络的卷积底层架构非常重要的组成部分让我们继续下一期教程

PreviousComputer Vision NextPadding

Last updated 6 years ago

Was this helpful?