函数的梯度是指它在这一点处增长最快的方向,显然负梯度方向就是下降最快的方向。梯度下降方向就是和负梯度方向的夹角小于90度的方向,也就是和负梯度方向的内积小于0,沿着梯度下降方向移动,函数的值会减小。因此最小化一个函数的通常做法是:从某一点出发,找到该点的梯度下降方向)沿着这个方向移动一定的距离。不断迭代,直到满足终止准则。目前几乎所有的机器学习求解算法都是基于梯度下降的,例如OWLQN、SGD、Async-SGD等