Derivatives with a Computation Graph

上个视频中我们看了一个使用计算图来计算函数J的例子现在让我们用一个简明的例子说明如何用计算图来计算函数J 的导数这是一个计算图比方说你想计算J对于v的导数

它等于多少呢也就是说如果我们把v的值改变一点点 J的值将会如何变化呢？ J被定义为3乘以v 现在v等于11 因此如果我们把v提高一点点到11.001 那么J就从目前的33 提高到33.003 这里我们把v提高0.001 结果J增加了3个0.001 因此J对v的导数等于3 因为J的增量是v增量的3倍事实上这和我们之前视频的例子很相似之前的视频中 f(a)=3a 我们推导得到一个简化的df/da 我们采用不那么严谨的写法 df/da=3 回到我们现在的例子，我们有J=3v 所以 dJ/dv=3 这里J的作用相当于之前例子里的f 而v相当于a 用反向传播这个术语来解释的话如果你想要计算最终输出变量对于v的导数而这也是你通常最关心的变量这就是一步反向传播我们把这个过程叫做图中的一步反向传播现在我们来看另一个例子 dJ/da是什么换句话说如果我们增大一点a的值 J的值会如何变化呢

让我们仔细看一下这个例子，现在a=5 我们把它增大到5.001 那么对于v的影响，注意到v=a+u，原来是11 现在增加到11.001 正如我们在之前的例子中看到的那样 J现在从33增加到33.003 我们看到如果a增加0.001 J会增加0.003 刚才我说的增大a的意思是在原来值为5的基础上再加一个新的值那么a的变化会在计算图中向右传播结果J变成了33.003 因此J增量是a增量的3倍这意味着J对a的导数为3 我们来分解一下这个过程如果你改变了a v也会随之改变

v改变了 J也会改变所以当你增大a时的时候J的改变量也就是说当你将a的值改变一点点的时候

首先因为a有变化所以v也随之变化 v的值增加多少呢 v的增加量取决于dv/da 然后v的改变使得J的值也改变了在微积分中这叫做链式法则 a影响v v影响J 然后当你改变a的时候J的改变量等于改变a时v的改变量乘以改变v时J的改变量再强调一下在微积分中这叫做链式法则我们从这个例子中可以看到如果a增加0.001 v也变大了0.001 因此dv/da=1 事实上如果把之前的式子代入 dv/dJ=3 dv/da=1 乘积是3乘1 我们得到dJ/da正确答案是3 这个小例子展示了如何通过计算dJ/dv 即J关于v的导数来帮助你计算dJ/da 这是反向传播的另一步

接下来我要介绍另一种符号惯例当你写反向传播代码的时候那些你真正关心的或者你想优化的最终输出变量在这个例子里最终输出变量是J 也就是计算图中的最后一个节点因此你会做许多关于最终输出变量的导数的计算即这个FinalOutputVar(最终输出变量)对于其他变量我们就叫它dvar 你会需要计算做许多关于最终输出变量导数的计算在这个例子中是J 这会牵涉到许多中间变量例如a b c u v 当你在程序中实现的时候你给这些变量取什么名字呢在Python中你可以起一个很长的名字比如dFinalOutputVar/dvar 但这是一个很长的变量名你可以把这叫做dJdvar 但因为导数都是关于最终输出变量J的我想引入一种新的记号当你在代码中计算这个导数的时候我们就用变量名dvar来代表这个值所以dvar在你的代码里就代表最终输出变量比如J对它的导数有时候对于各种中间量的损失在你代码的计算中用dv来代表这个值 dv=3 在代码里你用da代表这个值 da也等于3 通过这个计算图我们介绍了一部分反向传播的知识我们将在下一张幻灯片中继续这个例子让我们换一张干净的图让我们回顾一下我们通过反向运算得到dv=3 dv只是一个变量名它代表的其实是dJ/dv 我们已经计算出da=3 同样da也是dJ/da在代码中的变量名

我们推演了反向传播是如何在这两条边上实现的现在让我们继续计算导数现在看u的值 dJ/du是什么我们来做一个跟之前类似的计算从u=6开始如果u从6变成6.001 那么v 原来是11 变成了11.001 J原来是33 变成了33.003 因此J增加了3倍u增加的量关于u的分析与对a的分析非常相像用dJ/dv乘以dv/du可以算出来这一项dJ/dv我们已经算出来是3 这一项dv/du可以算出是1 所以我们又完成了一步反向传播我们得出了du也等于3的结论当然du指的是dJ/du 我们再来仔细的计算最后一个例子 dJ/db是什么想一想如果你能改变b的值你想通过改变b的值来最小化或者最大化J的值那么dJ/db这个导数或者说当你稍微改变b的值函数J的斜率是多少呢

使用链式法则来计算 dJ/db可以写成两项相乘 dJ/du乘上du/db 原因是如果你稍稍改变b的值 b从3变成3.001 b首先改变u 那么它会对u产生多大影响呢 u被定义为b乘c u一开始是6 当b=3时 u变成6.002 因为在我们的例子中c=2 这告诉我们du/db=2 当你把b增加0.001时 u增加两倍也就是0.002 因此du/db=2 现在我们知道u的变化是b的变化的2倍那么dJ/du是什么我们已经算出了这等于3 因此把这两项乘起来我们得到dJ/db=6 重复一下这个推导过程的第二部分我们想知道当u增加了0.002的时候 J怎样变化 dJ/du=3告诉我们当u增加0.002时 J应该增加这个数值的3倍因此J应该增加0.006 这是因为dJ/du=3 如果举例计算一下你会发现如果b变成3.001 那么u变成6.002 v变成11.002 这是a+u 也就是5+u 然后J等于3倍的v 结果就是33.006 以上就是你推导出dJ/db=6的过程当我们反向传播的时候这里是db=6 db是python中dJ/db的变量名最后一个例子我就不详细说了但如果你也算出dJ 这一项是dJ/du乘du 结果是9 也就是3乘3 这个例子我就不细讲了通过最后一步我们可以算出dc=9

这个视频这个例子里最重要的东西是当在计算导数的时候最有效率的方式是按红色箭头方向从右往左特别的我们先计算对v的导数计算得到的结果对于计算J对a的导数和J对u的导数很有用然后J对u的导数这一项和这一项对于计算J对b的导数和J对c的导数都有用这就是计算图以及前向或者说从左到右计算代价函数比如你想优化的J 以及如何反向或从右到左计算导数如果你对微积分或者链式法则不熟悉我知道有些细节可能过得很快如果你没有跟上这些细节别担心这里这个我们会在讲解逻辑回归时再次复习这个视频中的内容并且展示你要怎样实现一个计算图在逻辑回归模型中计算导数 GTC字幕组翻译

PreviousComputation graph NextLogistic Regression Gradient Descent

Last updated 6 years ago