Broadcasting in Python

在上一个视频中我提到了广播是另一种能使Python代码运行得更快的技术在这个视频中我们将深入研究Python中广播的运行机制让我们用一个例子来解释广播在这个矩阵中我展示了各100克的4种不同食物中碳水化合物蛋白质脂肪的卡路里(Calorie)含量比如在100克苹果中有56大卡的热量来自碳水化合物而来自蛋白质和脂肪的热量就少多了相比之下在100克的牛肉中有104大卡的热量来自蛋白质有135大卡的热量来自脂肪现在假设你的目标是计算每种食物的热量中来自碳水化合物蛋白质和脂肪的比例举例来说你看这一列将其中的数字相加你会得到100克苹果中含有56+1.2+1.8=59大卡所以苹果所含的热量中来自碳水化合物的百分比应该是56/59 大约是94.9% 所以苹果中大部分的热量都来自碳水化合物与之相反牛肉中大部分的热量来自蛋白质和脂肪所以你需要做的计算是分别对矩阵的四列求和得到100克的苹果牛肉鸡蛋和土豆中含有的总热量并将矩阵的每个元素都除以对应列的和

以得到每种食物中来自碳水化合物蛋白质和脂肪的热量的百分比问题在于你能不用显式的for循环来完成这一操作吗？让我们看看应该怎么做

我将向你展示如何做到比如说这个3乘4的矩阵A 我们可以用一行Python代码对每列求和我们将会得到四个数字分别对应100克的 4种不同食物中的总热量接着我用第二行Python代码使每一列都除以对应的列的和如果这些口头说明不是很清晰希望你在看到Python代码时会更加清楚现在我们进入Jupyter笔记本我已经写好了第一段代码向矩阵A填充了前面的数值按下Shift+Enter运行可以看到这就是矩阵A 接着是两行Python代码首先计算 cal=A.sum(axis=0) axis=0的意思是沿垂直方向求和我们很快还会提到它接着 print(cal) 可以看到已经按列求和了这里的59是苹果的总大卡数 239是牛肉热量的大卡数还有鸡蛋和土豆的然后计算百分比 percentage=A/cal.reshape(1,4) 实际上我们要的是百分比数值所以乘以100

然后 print(percentage)

运行一下在这个命令中我们用矩阵A 除以了这个1乘4的矩阵从而得到了百分比矩阵就像我们刚才手算得出的苹果中有94.9%的热量来自碳水化合物回到幻灯片来把刚才的两行代码重写如下就是我们刚在Jupyter笔记本上写的需要说明的是这个axis=0的参数表示着你想让Python沿垂直方向求和如果axis=0 意味着垂直相加反之水平轴的axis是1 所以写axis=1就可以水平求和而不是垂直求和接下来对于这个命令这是一个Python广播的例子用一个3乘4的矩阵A 除以一个1乘4的矩阵严格地说在第一行代码执行完毕之后 cal已经是一个1乘4的矩阵所以严格地说你不需要再在这里调用reshape 这实际上有些多余但当我写Python代码时如果我不确定某个矩阵的维数我通常会调用reshape 以确保它是正确的列向量或者行向量或者任何你想要的维数 reshape消耗常量的时间是一个O(1)的操作调用的成本很低所以不要怕用reshape来确保矩阵是你想要的尺寸

现在我将深入解释这种操作的机制我们用3乘4的矩阵除以1乘4的矩阵怎么能用3乘4的矩阵除以1乘4的矩阵呢? 或者说除以1乘4的向量?

我们再看几个广播的例子如果你有一个4乘1的向量让它加一个数字 Python会自动将这个数字扩展成这样一个4乘1的向量例如对于向量[1 2 3 4] 加上数字100 就会得到右边那个向量你给每个数字都加了100 实际上我们之前使用过这种广播这里所加的常数就是前面视频中的参数b 这种广播适用于行向量和列向量实际上我们之前已经使用过了类似形式的广播之前在逻辑回归中的参数b 就相当于我们这里为向量加上的常量再来看一个例子假设有一个2乘3的矩阵让它加上这个1乘n的矩阵

一般情况而言如果你让一个m乘n的矩阵加上一个1乘n的矩阵 Python会将后者复制m次使其变为一个m乘n的矩阵所以在这个例子中这个1乘3的矩阵会被复制两次成为一个2乘3的矩阵然后相加得到右边的和所以你对第一列加了100 对第二列加了200 对第三列加了300 这基本上就是我们在前一页中所做的只不过当时我们用的是除法操作而这里是加法操作

再举最后一个例子假设你有一个m乘n的矩阵让它加上一个m乘1的向量或者说m乘1的矩阵 7:47 后者会在水平方向复制n次所以你会得到一个m乘n的矩阵你可以想象它被水平地复制了三次然后相加相加后得到这个结果我们给第一行加了100 第二行加了200 8:08 以下是Python广播的一些通用规则如果你有一个m乘n的矩阵让它加减乘除以一个1乘n的矩阵后者会被复制m次成为一个m乘n的矩阵然后再逐元素地进行加减乘除操作 8:37 反之如果你让一个m乘n的矩阵加减乘除以一个m乘1的矩阵后者也会复制n次成为一个m乘n的矩阵然后再逐元素地进行运算操作广播的另一种形式是如果你有一个m乘1的矩阵它实际上是一个列向量比如[1 2 3] 然后让它加减乘除以一个实数也就是一个1乘1的矩阵比如加上100 那么这个实数会被复制m次得到一个m乘1的矩阵然后再逐元素地进行运算例如这个例子中的加法操作类似地这也可以用于行向量 9:38 广播的全部功能比这里介绍的还要多如果你感兴趣可以去阅读NumPy的相关文档并查看其中关于广播的部分那里会给出更广泛的广播的定义这节课的幻灯片中给出的是你在实现神经网络时需要用到的广播的主要形式

结束之前我最后插一句对于习惯使用MATLAB或Octave编程的同学如果你在神经网络编程中用过MATLAB或Octave的bsxfun函数其实bsxfun做的事情类似但并不完全一样它与我们在Python中使用广播的目的是一致的这只是对于非常高端的 MATLAB和Octave用户而言如果你没听说过不用担心当你在Python中编写神经网络时并不需要知道它以上就是Python的广播机制我希望当你在做编程作业时广播不仅能让你的程序跑得更快也帮助你用更少的代码达到目的 10:50 在你进行编程练习之前我还想再和大家分享一些点子也就是一些能帮我减少Python代码中的bug的技巧希望也能帮到你那么我们下个视频见

PreviousVectorizing Logistic Regression's Gradient Output NextA note on python/numpy vectors

Last updated 6 years ago