Computer Vision
Last updated
Was this helpful?
Last updated
Was this helpful?
欢迎来到卷积网络这门课 受益于深度学习 计算机视觉是目前快速发展的领域之一 深度学习的计算机视觉 现在能帮助自动驾驶汽车 判断其周围的其他汽车 和行人的位置以躲避他们 也使面部识别比从前任何时候都要好 你们中的一部分人也许很快或已经 能使用面部识别解锁手机 甚至打开门 如果你查看一下你的手机 我相信会有很多应用 为你们展示食物的图片 酒店的图片或一些有趣的风景图片 部分开发这些应用的公司 正使用深度学习向你展示最具吸引力 最美或最相关的图片 我认为深度学习 甚至催生了新的艺术形式 因此我认为计算机视觉的深度学习 吸引了我也许也能吸引你们 的原因主要有两个 首先 计算机视觉的急速发展 能产生全新的应用 而他们在几年前是不可能的 通过学习这些技术 也许你将能够发明这些新产品和应用 第二个原因 即使你最终没能 亲身开发计算机视觉系统 我发现 因为计算机视觉 研究社区已经如此 具有创造力 创新精神 在产生新的神经网络架构 和算法的方面 实际上也启发产生了 许多与其他领域的交叉 比如 当我研究语音识别的时候 实际上我有时候 会从计算机视觉中获得灵感 并将它们借鉴到语音领域 所以 即使你们最后不会做 计算机视觉这方面的工作 我希望你们在这门课中 学到的思想能对 你们的一些算法和结构有帮助 所以让我们开始吧 这里列出几个将在这堂课上 学习的计算机视觉问题的例子 你们已经看到图像分类了 有时也叫图像识别 你们也许输入一个 64x64的图像然后试着判断 它是不是一只猫 计算机视觉的另一个例子是目标检测 所以如果你们正在制作一辆无人车 也许你不仅需要 发现图片里有其它车辆 还需要计算出在这张图片中的 其他汽车的位置 这样你的车就能避开它们 通常在目标检测中 我们不仅要找出在图片中的 其他物体 像汽车 而且要圈出他们 我们有别的办法能辨识出 这些物体在图片中的位置 需要注意的一点是 在这个例子中 在同一张图片中可能有多辆汽车 或者至少它们中的每一个 都与你的汽车有特定距离 这是另一个例子 也许更有趣一点的神经风格转换 假设你有一张图片 你想要将这张图片 用不同的风格重绘 所以神经风格转换 是指你有一张内容图像 和一张风格图像 右边的图片实际上是毕加索的画 然后你能用神经网络把它们放在一起 用右边的图像的风格 去重绘左边的那张内容图像 最后你能得到在最底下的这张图片 所以像这些算法能够
创造新型的艺术作品 在这堂课上 你会学到 如何自己做到神经风格转换 计算机视觉问题的一个挑战 是输入可以任意大 比如 在之前的课程中 你用到64x64的图像 那是64x64x3 因为有三个颜色通道 如果你把它们相乘 得到12288 所以输入特征x的维度是12288 那并不太差 但是64x64事实上是一个非常小的图像 如果你使用较大的图像 也许这是一个1000像素 乘以1000像素的图像 那事实上只是1M像素 但是输入特征的维度 将会是1000x1000x3 因为你有3个RGB通道 然后那就是3百万 如果你用一个小屏幕看它 这也许并不明显 但是这实际上是一个 64x64的低分辨率图像 而这个是一个1000x1000的高分辨图像 假如你有三百万维的输入特征 也就是X有三百万维 所以如果第一个隐藏层 你也许只有1000个隐藏的单元 然后总共的权重 W1矩阵 如果你用像我们在第一 二门课中的 一个标准的或者全连接的网络 这个矩阵将会是一个 一千乘以三百万维的矩阵 x现在的维度是三百万 我用3m来表示3百万 这表示在这里这个矩阵会有 三百万个参数 这是非常非常大的 有这么多的参数 很难获得足够的数据 以避免神经网络过拟合 同时 训练一个
有三百万个参数的神经网络 对计算量和内存的需求是不太可行的 但对于计算机视觉应用 你不会想要被限制于使用一个小图像 你想要用大图像 为了做到这点 你需要更好地运用卷积运算 它是卷积神经网络的基础之一 让我们在下一个视频中了解它的含义 以及你可以如何运用它 我们将会用边缘检测 来说明卷积网络