ADSL拨号VPS包含了中国大陆（联通，移动，电信，）

中国香港，国外拨号VPS。

随机梯度下降最大的缺点在于每次更新可能并不会按照正确的方向进行，因此可以带来优化波动(扰动)。不过从另一个方面来看，随机梯度下降所带来的波动有个好处就是，对于类似盆地区域（即很多局部极小值点）那么这个波动的特点可能会使得优化的方向从当前的局部极小值点跳到另一个更好的局部极小值点，这样便可能对于非凸函数，最终收敛于一个较好的局部极值点，甚至全局极值点。

优点：训练速度快，每次迭代计算量不大
缺点：准确度下降，并不是全局最优；不易于并行实现；总体迭代次数比较多。

Mini-batch梯度下降算法

Mini-batch梯度下降综合了batch梯度下降与stochastic梯度下降，在每次更新速度与更新次数中间取得一个平衡，其每次更新从训练集中随机选择b,b<m个样本进行学习，即：

python代码实现

批量梯度下降算法

#!/usr/bin/python#coding=utf-8import numpy as npfrom scipy import statsimport matplotlib.pyplot as plt # 构造训练数据x = np.arange(0., 10., 0.2)m = len(x) # 训练数据点数目print mx0 = np.full(m, 1.0)input_data = np.vstack([x0, x]).T # 将偏置b作为权向量的第一个分量target_data = 2 * x + 5 + np.random.randn(m) # 两种终止条件loop_max = 10000 # 最大迭代次数(防止死循环)epsilon = 1e-3 # 初始化权值np.random.seed(0)theta = np.random.randn(2) alpha = 0.001 # 步长(注意取值过大会导致振荡即不收敛,过小收敛速度变慢)diff = 0.error = np.zeros(2)count = 0 # 循环次数finish = 0 # 终止标志 while count < loop_max: count += 1  # 标准梯度下降是在权值更新前对所有样例汇总误差，而随机梯度下降的权值是通过考查某个训练样例来更新的 # 在标准梯度下降中，权值更新的每一步对多个样例求和，需要更多的计算 sum_m = np.zeros(2) for i in range(m): dif = (np.dot(theta, input_data[i]) - target_data[i]) * input_data[i] sum_m = sum_m + dif # 当alpha取值过大时,sum_m会在迭代过程中会溢出  theta = theta - alpha * sum_m # 注意步长alpha的取值,过大会导致振荡 # theta = theta - 0.005 * sum_m # alpha取0.005时产生振荡,需要将alpha调小  # 判断是否已收敛 if np.linalg.norm(theta - error) < epsilon: finish = 1 break else: error = theta print 'loop count = %d' % count, '\tw:',thetaprint 'loop count = %d' % count, '\tw:',theta # check with scipy linear regressionslope, intercept, r_value, p_value, slope_std_error = stats.linregress(x, target_data)print 'intercept = %s slope = %s' % (intercept, slope) plt.plot(x, target_data, 'g*')plt.plot(x, theta[1] * x + theta[0], 'r')plt.show()

运行结果截图：

随机梯度下降算法

#!/usr/bin/python#coding=utf-8import numpy as npfrom scipy import statsimport matplotlib.pyplot as plt # 构造训练数据x = np.arange(0., 10., 0.2)m = len(x) # 训练数据点数目x0 = np.full(m, 1.0)input_data = np.vstack([x0, x]).T # 将偏置b作为权向量的第一个分量target_data = 2 * x + 5 + np.random.randn(m) # 两种终止条件loop_max = 10000 # 最大迭代次数(防止死循环)epsilon = 1e-3 # 初始化权值np.random.seed(0)theta = np.random.randn(2)# w = np.zeros(2) alpha = 0.001 # 步长(注意取值过大会导致振荡,过小收敛速度变慢)diff = 0.error = np.zeros(2)count = 0 # 循环次数finish = 0 # 终止标志######-随机梯度下降算法while count < loop_max: count += 1  # 遍历训练数据集，不断更新权值 for i in range(m): diff = np.dot(theta, input_data[i]) - target_data[i] # 训练集代入,计算误差值  # 采用随机梯度下降算法,更新一次权值只使用一组训练数据 theta = theta - alpha * diff * input_data[i]  # ------------------------------终止条件判断----------------------------------------- # 若没终止，则继续读取样本进行处理，如果所有样本都读取完毕了,则循环重新从头开始读取样本进行处理。  # ----------------------------------终止条件判断----------------------------------------- # 注意：有多种迭代终止条件，和判断语句的位置。终止判断可以放在权值向量更新一次后,也可以放在更新m次后。 if np.linalg.norm(theta - error) < epsilon: # 终止条件：前后两次计算出的权向量的绝对误差充分小 finish = 1 break else: error = thetaprint 'loop count = %d' % count, '\tw:',theta  # check with scipy linear regressionslope, intercept, r_value, p_value, slope_std_error = stats.linregress(x, target_data)print 'intercept = %s slope = %s' % (intercept, slope) plt.plot(x, target_data, 'g*')plt.plot(x, theta[1] * x + theta[0], 'r')plt.show()

运行结果截图：

Mini-batch梯度下降

#!/usr/bin/python#coding=utf-8import numpy as npfrom scipy importstatsimport matplotlib.pyplot as plt # 构造训练数据x = np.arange(0.,10.,0.2)m = len(x) # 训练数据点数目print mx0 = np.full(m, 1.0)input_data = np.vstack([x0, x]).T # 将偏置b作为权向量的第一个分量target_data = 2 *x + 5 +np.random.randn(m) # 两种终止条件loop_max = 10000 #最大迭代次数(防止死循环)epsilon = 1e-3 # 初始化权值np.random.seed(0)theta = np.random.randn(2) alpha = 0.001 #步长(注意取值过大会导致振荡即不收敛,过小收敛速度变慢)diff = 0.error = np.zeros(2)count = 0 #循环次数finish = 0 #终止标志minibatch_size = 5 #每次更新的样本数while count < loop_max: count += 1  # minibatch梯度下降是在权值更新前对所有样例汇总误差，而随机梯度下降的权值是通过考查某个训练样例来更新的 # 在minibatch梯度下降中，权值更新的每一步对多个样例求和，需要更多的计算  for i inrange(1,m,minibatch_size): sum_m = np.zeros(2) for k inrange(i-1,i+minibatch_size-1,1):  dif = (np.dot(theta, input_data[k]) - target_data[k]) *input_data[k]  sum_m = sum_m + dif #当alpha取值过大时,sum_m会在迭代过程中会溢出  theta = theta- alpha * (1.0/minibatch_size) * sum_m #注意步长alpha的取值,过大会导致振荡  # 判断是否已收敛 if np.linalg.norm(theta- error) < epsilon: finish = 1 break else: error = theta print 'loopcount = %d'% count, '\tw:',thetaprint 'loop count = %d'% count, '\tw:',theta # check with scipy linear regressionslope, intercept, r_value, p_value,slope_std_error = stats.linregress(x, target_data)print 'intercept = %s slope = %s'% (intercept, slope) plt.plot(x, target_data, 'g*')plt.plot(x, theta[1]* x +theta[0],'r')plt.show()

运行结果：

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持脚本之家。

(责任编辑：admin)