Explanation of logistic regression cost function (optional)

在较早的视频中我已经写下了逻辑回归的成本函数的公式在这个选看的视频里我想向大家简短解释一下为什么我们在逻辑回归里使用这个代价函数我们快速地复习一下，逻辑回归中我们已经预测了ŷ=sigmoid(W^T X + b) 其中的sigmoid函数就是这个同时，我们想将ŷ解释为p(y=1|x)，在x的条件下，y=1的概率因此我们希望算法输出ŷ 表示当给定输入特征x的时候y=1的概率换句话说，如果y等于1 那么p(y|x)就等于ŷ 相反地，当y=0时

p(y|x)就等于1-ŷ 因此，如果ŷ表示当y=1的概率那么1-ŷ就表示y=0的概率现在把最后两个方程复制到下一张幻灯片里我把两个方程写在这，它们给出了，在y=0和y=1两种情况下， p(y|x)的定义接下来，把两个方程归纳为一个方程需要指出的是 y只能等于0或1，因为是二元分类函数因此这里只有y=0或1这两种可能性有人拿到这两个方程，然后归纳为下面这样我先写出这个方程然后我们再解释为什么有人这样写方程是：p(y|x)=ŷ^y (1-ŷ)^(1-y) 所以上面的两个方程就只用一行就概括了让我解释一下原因在第一种情况下，假设y=1 如果y=1，那么这一项就会变成了ŷ 因为这是ŷ的一次幂这一项最后会变成(1-ŷ)的(1-1)次幂也就是0次幂但是，任何数的零次幂等于1 所以这一项可以省略所以，当y=1时，这个方程就是p(y|x)=ŷ 这完全就是我们想要的方程那么，第二种情况呢如果y=0呢？如果y=0 那么上面这个方程就是p(y|x)=ŷ^0 ... 但是，任何数的零次幂等于1 所以这就等于1(1-ŷ)^(1-y) 所以1-y就是1-0，这项就是1 这项等于1*(1-ŷ)=1-ŷ

所以我们得到当y=0时，P(y|x)=1-ŷ 这完全就是我们上面想要的所以，刚才展示的这个公式的确是

p(y|x)的正确定义最后，因为对数函数是一个绝对的单调递增函数最大化log(p(y|x))会得出和最大化p(y|x)相似的结果如果计算log(p(y|x)) 也就是log((ŷ^y)*(1-ŷ)^(1-y)) 简化为ylog(ŷ)+(1-y)log(1-ŷ) 对吗其实，这就是我们之前找到的损失函数函数的相反数这里有一个负号，因为通常在训练一个学习算法的时候我们想要让概率变大而在逻辑回归中，我们这样来表示我们想要最小化L(ŷ,y)这个损失函数因此，最小化损失函数相当于最大化概率的对数这就是损失函数在单一样本上的例子那代价函数呢整体的代价函数，在所有样本的训练集里是怎样呢让我们搞明白把训练集里全部标签出现的概率用一种不是很正式地方法写下来如果假设取出的训练样本相互独立或者说服从IID 也就是独立同分布 (I.I.D: Independent and Identically Distributed) 那么这些样本的概率就是各项概率的乘积在给定X(i) 从i=1到m时 p(y(i))的乘积如果想要采用最大似然估计那么要就找到一些参数，使其能够最大化观察点和训练集中的样本的概率但最大化这个式子本身和最大化它的对数效果相同所以在方程两边取对数依据乘积的对数等于对数的和的性质训练集标签的概率的对数就可以表达为在给定X(i)时从i=1到m的log(p(y(i)))的和在前一张幻灯片中，我们已经知道这就是-L(ŷ(i),y(i))

在统计学上有个原理叫做最大似然估计原理意思是选择能使之最大化的参数换句话说，选这个参数来使这个式子最大化这项-sum(L(ŷ^i, y^i)，从i=1到m 可以直接将负号移到累加号的外边这样就解释了我们为逻辑回归设置的代价函数J(w,b)也就是对L(ŷ(i),y(i))的求和因为我们现在要最小化代价函数而不是最大化似然值所以要去掉这个负号最后为了方便起见我们使这些数值处于更好的尺度上就在前面添加一个缩放系数1/m 综上，通过最小化代价函数J(w,b) 实际上对逻辑回归模型进行了最大似然估计这是基于训练样本是i.i.d. 或者说是独立同分布的假设之上的谢谢你看这个视频即使这是选看的希望它帮助你理解为什么我们将这个代价函数用于逻辑回归的实际学习算法我希望你继续完成练习，本周编程练习和问答题祝在接下来的测验和编程练习中好运 GTC字幕组翻译

PreviousA note on python/numpy vectors NextNeural Networks Overview

Last updated 6 years ago

Was this helpful?