Why deep representations?

我们都听说过深度神经网络对于很多问题确实很有效而它们不仅仅需要是大型的神经网络具体而言它们需要是深度的或者有很多隐藏层为什么会这样？让我们来看几个例子并试图获得一些直观的感受为什么深度网络可能会很有效那么首先什么是深度网络计算? 如果我们搭建一个系统用于面部识别或者面部检测那么神经网络就可以在此运用如果我们输入一张面部图片那么神经网络的第一层可以被我们认为是一个特征检测器或边缘检测器在这个例子中我正在绘制一个具有 20个隐藏神经元的神经网络可能是在这个图像上的某种算法且这20个隐藏神经元通过这些小方块可视化所以例如这个这个微型可视化图表示一个隐藏神经元正在试图找出在DMH (Depth-MHI-HOG) 中该方向的边缘位置也许这个隐藏神经元可能试图找出这幅图像中的水平边缘在哪里并且当我们在稍后的课程中讨论卷积网络时这个特殊的可视化可能会更有意义但是形式上我们可以认为神经网络的第一层就好比看一张图片并尝试找出这张图片的边缘现在让我们来找出这张图片的边缘通过将像素分组来形成边缘的方法然后可以取消检测边缘并将边缘组合在一起以形成面部的一部分所以例如我们可能有一个低神经元试图看看它是否发现了一个眼睛或者一个不同的神经元试图找到鼻子的一部分所以通过把大量的边缘放置在一起我们可以开始检测面部的不同部位然后最后通过将面部的不同部位如眼睛鼻子耳朵或下巴组合在一起然后可以尝试识别或检测不同类型的面部所以直观地我们可以将神经网络的浅层看作是简单的检测函数如 (检测) 边缘然后在神经网络的后一层将它们组合在一起以便它可以学习更多和更复杂的功能当我们谈论卷积网络时这些可视化将更有意义 (值得注意的是) 这种可视化的一个技术细节边缘检测器检测图像中相对较小的区域也许是像这样的非常小的区域然后面部检测器可能会看到更大的图像区域但是我们从中获取的进一步的关键信息仅仅是找到像边缘这样的简单事物然后构建它们将它们组合在一起以检测更复杂的事物例如然后 (再次) 将它们组合在一起以找到更复杂的事物这种由简单到复杂的分层表示或组合表示不仅适用于图像和面部识别也适用于其它类型的数据例如如果我们尝试建立语音识别系统则很难难形象化演说但如果我们输入一段音频剪辑那么神经网络的第一层可能学会检测低级的音频波形特征比如这个音调升高了吗? 亦或是降低了? 这是白噪声还是滑动声如 [声音]? 什么是音调? 当涉及到这一点时如上所述检测低级的波形特征然后通过组合低级波形 (特征) 我们就可以学到检测基本的声音单位在语言学中他们称之为音素但是例如在猫这个词中 C是一个音素 A是一个音素 T又是另一个音素但是学着找到可能的语音基本单元然后把它们组合在一起可能用来识别语音中的单词然后再把它们组合在一起用以识别整个短语或句子因此拥有众多隐藏层的深度神经网络可能能够让早期的神经层学习这些较低级别的简单特征然后让后面更深的神经层汇聚前面所检测到的简单信息以便检测更复杂的事物例如识别特定的单词甚至是短语或句子说出来才能进行语音识别我们看到的是尽管其它神经层正在计算着类似边缘这类似乎相对简单的输入函数而当我们深入研究 (神经) 网络的时候我们实际上可以做一些令人惊讶复杂的事情例如检测面部或是检测单词短语句子某些人喜欢在深度神经网络与人脑之间做类比我们认为或神经科学家认为人类的大脑开始也检测简单的东西如你所看到的边缘然后 (将这些信息) 建立起来以检测更复杂的事物如你所看到的面孔我认为将深度神经网络与人脑做类比是有点危险的但这对我们认知人脑的工作存在着很多启迪那就是人脑可能检测像边缘这类简单的信息然后将它们汇聚在一起来形成愈加复杂的物体从而成为人们学习的松散灵感形式本周我们将在视频领域中看到更多有关人类大脑或生物大脑的内容本周我们将在视频领域中看到更多有关人类大脑或生物大脑的内容

关于深度网络似乎有效的另一条直觉如下关于深度网络似乎有效的另一条直觉如下所以这个结果来自电路理论它涉及到什么类型的函数可以用不同的 (与或非) 逻辑情况来计算所以非正式地我们用相对较小但具有深度的神经网络来计算这些功能而这里的小是说隐藏神经元的数量相对较小但是如果我们尝试使用浅网络计算相同的功能它没有足够多的隐藏层然后我们可能需要更多的指数级的隐藏神经元来进行计算所以让我们来看一个例子来非正式的说明这一点假设我们尝试计算所有输入特征的异或或者奇偶性所以我们尝试计算 X1异或X2异或X3异或... 直到Xn 如果我们有n或者nX特征的话如果我们像这样自由建立异或树则首先计算X1和X2的异或然后是X3和X4的异或而在技术上如果我们只是使用与或非门我们可能需要几层来计算异或函数而不只是一层但是使用相对较小的电路我们可以计算异或等等然后你可以建立一个真正的异或树直到最终你有一个电路输出好吧让我们称之为Y 输出向量Y等于Y 也就是所有这些输入位的异或或奇偶性因此为了计算异或左侧确定的网络将有logN阶的复杂度我们就有了一个异或树所以在此网络中的节点数或电路组件数或门级数并不是很多我们并不需要很多门去计算异或但现在如果我们不能使用具有多层隐藏层的神经网络如本例对数阶的隐藏层如果我们强制采用一层隐藏层来计算该函数就像这样那么通过隐藏层将输出Y 那么为了计算出奇偶性或异或函数这些隐藏层将会呈指数级的扩大因为必然地我们需要穷举2到N种可能性也就是从2到N 异或为1或0的输入位的所有可能性所以我们最终需要一个位数是指数级的隐藏层所以我们最终需要一个位数是指数级的隐藏层我认为技术上你可以用2到N-1个隐藏单元来做到这一点但2的指数阶显然比常数阶大得多所以我希望这个例子告诉我们对一些数学函数使用深层网络进行计算比使用浅层网络更容易实际上我个人发现电路理论很难理解但它是人们在解释深度学习网络的价值时经常引用的例子之一但它是人们在解释深度学习网络的价值时经常引用的例子之一除了这个原因之外我认为深度学习这个词除了这个原因之外我认为深度学习这个词已经被滥用被炒作了神经网络原指有很多的隐藏层的网络但深度学习已经是一个很大的概念了它包罗万象所以我认为我们应该给原来的神经网络就是有很多隐藏层的神经网络再取一个名字还给他本来的面目大家都形成了这样一个概念那就是深度网络确实很有效有时候人们滥用神经网络弄太多隐藏层了但是当我开始解决一个新的问题时我经常会首先采用甚至是逻辑回归然后尝试一个或两个的隐藏层把它当作超参数将其用作我们调整的参数或超参数来为我们的神经网络找到合适的深度但是在过去的几年中人们发现对于某些应用来说超深的深度神经网络有时是(解决)问题的最佳模型这就是为什么深度学习看起来管用的原因现在让我们看看如何实现正向传播机制以及反向传播机制

PreviousGetting your matrix dimensions right NextBuilding blocks of deep neural networks

Last updated 6 years ago