Gradient Descent

梯度下降算法

To reach a local minimum.

起始点的位置略有不同你会得到一个非常不同的局部最优解这就是梯度下降算法的一个特点

Gradient descent algorithm

Learn rate: Alpha

右边的方法和左边的区别是让我们看这里就是这一步如果这个时候你已经更新了θ0 那么你会使用 θ0的新的值来计算这个微分项所以由于你已经在这个公式中使用了新的 θ0的值那么这会产生一个与左边不同的 temp1的值所以右边并不是正确地实现梯度下降的做法我不打算解释为什么你需要同时更新同时更新是梯度下降中的一种常用方法我们之后会讲到实际上同步更新是更自然的实现方法当人们谈到梯度下降时他们的意思就是同步更新如果用非同步更新去实现算法代码可能也会正确工作但是右边的方法并不是人们所指的那个梯度下降算法而是具有不同性质的其他算法由于各种原因这其中会表现出微小的差别你应该做的是在梯度下降中真正实现同时更新这些就是梯度下降算法的梗概