失眠网,内容丰富有趣,生活中的好帮手!
失眠网 > 随机梯度下降法(stochastic gradient descent SGD)

随机梯度下降法(stochastic gradient descent SGD)

时间:2018-08-18 06:58:14

相关推荐

随机梯度下降法(stochastic gradient descent SGD)

梯度下降法

大多数机器学习或者深度学习算法都涉及某种形式的优化。 优化指的是改变特征x以最小化或最大化某个函数f(x)的任务。 我们通常以最小化f(x)指代大多数最优化问题。 最大化可经由最小化算法最小化 ​​​​​​​-f(x)来实现。

我们把要最小化或最大化的函数称为目标函数或准则。 当我们对其进行最小化时,我们也把它称为损失函数或误差函数

下面,我们假设一个损失函数为 ,其中 然后要使得最小化它。

梯度下降:梯度的方向是函数在给定点上升最快的方向,那么梯度的反方向就是函数在给定点下降最快的方向,因此我们在做梯度下降的时候,应该是沿着梯度的反方向进行权重的更新,可以有效的找到全局的最优解。这个参数的更新过程可以描述为:

随机梯度下降法

随机梯度下降(SGD)是一种简单但非常有效的方法,多用用于支持向量机、逻辑回归(LR)等凸损失函数下的线性分类器的学习。并且SGD已成功应用于文本分类和自然语言处理中经常遇到的大规模和稀疏机器学习问题。

SGD既可以用于分类计算,也可以用于回归计算

SGD算法是从样本中随机抽出一组,训练后按梯度更新一次,然后再抽取一组,再更新一次,在样本量及其大的情况下,可能不用训练完所有的样本就可以获得一个损失值在可接受范围之内的模型了。(重点:每次迭代使用一组样本。)

为什么叫随机梯度下降算法呢?这里的随机是指每次迭代过程中,样本都要被随机打乱,这个也很容易理解,打乱是有效减小样本之间造成的参数更新抵消问题。

对于权值的更新不再通过遍历全部的数据集,而是选择其中的一个样本即可。一般来说其步长的选择比梯度下降法的步长要小一点,因为梯度下降法使用的 是准确梯度,所以它可以朝着全局最优解(当问题为凸问题时)较大幅度的迭代下去,但是随机梯度法不行,因为它使用的是 近似梯度,或者对于全局来说有时候它走的也许根本不是梯度下降的方向,故而它走的比较缓,同样这样带来的好处就是相比于梯度下降法,它不是那么容易陷入到局部最优解中去。 更新公式:

分类

随机梯度下降算法通常还有三种不同的应用方式,它们分别是SGD、Batch-SGD、Mini-Batch SGD

1.SGD是最基本的随机梯度下降,它是指每次参数更新只使用一个样本,这样可能导致更新较慢;

2.Batch-SGD是批随机梯度下降,它是指每次参数更新使用所有样本,即把所有样本都代入计算一遍,然后取它们的参数更新均值,来对参数进行一次性更新,这种更新方式较为粗糙;

3.Mini-Batch-SGD是小批量随机梯度下降,它是指每次参数更新使用一小批样本,这批样本的数量通常可以采取trial-and-error的方法来确定,这种方法被证明可以有效加快训练速度

优点:

(1)由于不是在全部训练数据上的损失函数,而是在每轮迭代中,随机优化某一条训练数据上的损失函数,这样每一轮参数的更新速度大大加快

缺点:

(1)准确度下降。由于即使在目标函数为强凸函数的情况下,SGD仍旧无法做到线性收敛。

(2)可能会收敛到局部最优,由于单个样本并不能代表全体样本的趋势。

(3)不易于并行实现

SGD的python实现

def SGD_LR(data_x, data_y, alpha=0.1, maxepochs=10000,epsilon=1e-4):xMat = np.mat(data_x)yMat = np.mat(data_y)m, n = xMat.shapeweights = np.ones((n, 1)) # 模型参数epochs_count = 0loss_list = []epochs_list = []while epochs_count < maxepochs:rand_i = np.random.randint(m) # 随机取一个样本loss = cost(xMat,weights,yMat) #前一次迭代的损失值hypothesis = sigmoid(np.dot(xMat[rand_i,:],weights)) #预测值error = hypothesis -yMat[rand_i,:] #预测值与实际值误差grad = np.dot(xMat[rand_i,:].T,error) #损失函数的梯度weights = weights - alpha*grad #参数更新loss_new = cost(xMat,weights,yMat)#当前迭代的损失值print(loss_new)if abs(loss_new-loss)<epsilon:breakloss_list.append(loss_new)epochs_list.append(epochs_count)epochs_count += 1print('迭代到第{}次,结束迭代!'.format(epochs_count))plt.plot(epochs_list,loss_list)plt.xlabel('epochs')plt.ylabel('loss')plt.show()return weights

如果觉得《随机梯度下降法(stochastic gradient descent SGD)》对你有帮助,请点赞、收藏,并留下你的观点哦!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。