神经网络中Epoch、Iteration、Batchsize相关理解和说明

微信公众号看了半年论文，对这三个概念总是模棱两可，不是很清楚。所以呢！我就花了半天时间，收集网上写的很好的关于这三个概念的介绍，把他们总结到一起，希望能对大家有帮助！batchsize：中文翻译为批大小（批尺寸）。简单点说，批量大小将决定我们一次训练的样本数目。batch_size将影响到模型的优化程度和速度。为什么需要有Batch_Size：batchsize的正...

Microstrong0305

124416人浏览 · 2017-11-21 22:59:49

Microstrong0305 · 2017-11-21 22:59:49 发布

看了半年论文，对这三个概念总是模棱两可，不是很清楚。所以呢！我就花了半天时间，收集网上写的很好的关于这三个概念的介绍，把他们总结到一起，希望能对大家有帮助！

batchsize：中文翻译为批大小（批尺寸）。

简单点说，批量大小将决定我们一次训练的样本数目。

batch_size将影响到模型的优化程度和速度。

为什么需要有Batch_Size：

batchsize的正确选择是为了在内存效率和内存容量之间寻找最佳平衡。

Batch_Size的取值：

全批次（蓝色）

如果数据集比较小，我们就采用全数据集。全数据集确定的方向能够更好的代表样本总体，从而更准确的朝向极值所在的方向。

注：对于大的数据集，我们不能使用全批次，因为会得到更差的结果。

迷你批次（绿色）

选择一个适中的Batch_Size值。就是说我们选定一个batch的大小后，将会以batch的大小将数据输入深度学习的网络中，然后计算这个batch的所有样本的平均损失，即代价函数是所有样本的平均。

随机（Batch_Size等于1的情况）（红色）

每次修正方向以各自样本的梯度方向修正，横冲直撞各自为政，难以达到收敛。

适当的增加Batch_Size的优点：

1.通过并行化提高内存利用率。

2.单次epoch的迭代次数减少，提高运行速度。（单次epoch=(全部训练样本/batchsize)/iteration=1）

3.适当的增加Batch_Size,梯度下降方向准确度增加，训练震动的幅度减小。（看上图便可知晓）

经验总结：

相对于正常数据集，如果Batch_Size过小，训练数据就会非常难收敛，从而导致underfitting。

增大Batch_Size,相对处理速度加快。

增大Batch_Size,所需内存容量增加（epoch的次数需要增加以达到最好的结果）

这里我们发现上面两个矛盾的问题，因为当epoch增加以后同样也会导致耗时增加从而速度下降。因此我们需要寻找最好的Batch_Size。

再次重申：Batch_Size的正确选择是为了在内存效率和内存容量之间寻找最佳平衡。

iteration：中文翻译为迭代。

迭代是重复反馈的动作，神经网络中我们希望通过迭代进行多次的训练以达到所需的目标或结果。

每一次迭代得到的结果都会被作为下一次迭代的初始值。

一个迭代=一个正向通过+一个反向通过。

epoch：中文翻译为时期。

一个时期=所有训练样本的一个正向传递和一个反向传递。

深度学习中经常看到epoch、iteration和batchsize，下面按照自己的理解说说这三个区别：

（1）batchsize：批大小。在深度学习中，一般采用SGD训练，即每次训练在训练集中取batchsize个样本训练；
（2）iteration：1个iteration等于使用batchsize个样本训练一次；
（3）epoch：1个epoch等于使用训练集中的全部样本训练一次；

举个例子，训练集有1000个样本，batchsize=10，那么：
训练完整个样本集需要：
100次iteration，1次epoch。

参考链接：http://blog.csdn.net/anshiquanshu/article/details/72630012

------------------------------------------------------华丽的分割线----------------------------------------------------

神经网络训练中，Epoch、Batch Size、和迭代傻傻的分不清？

为了理解这些术语有什么不同，我们需要了解一些关于机器学习的术语，比如梯度下降，帮助我们理解。

这里简单的总结梯度下降的含义：

梯度下降是一个在机器学习中用于寻找较佳结果（曲线的最小值）的迭代优化算法。

梯度的含义是斜率或者斜坡的倾斜度。

下降的含义是代价函数的下降。

算法是迭代的，意思是需要多次使用算法获取结果，以得到最优化结果。梯度下降的迭代性质能使欠拟合演变成获得对数据的较佳拟合。

梯度下降中有一个称为学习率的参量。如上图左所示，刚开始学习率较大，因此下降步长更大。随着点的下降，学习率变得越来越小，从而下降步长也变小。同时，代价函数也在减小，或者说代价在减小，有时候也称为损失函数或者损失，两者是一样的。（损失/代价的减小是一个概念）。

只有在数据很庞大的时候（在机器学习中，数据一般情况下都会很大），我们才需要使用epochs，batch size，iteration这些术语，在这种情况下，一次性将数据输入计算机是不可能的。因此，为了解决这个问题，我们需要把数据分成小块，一块一块的传递给计算机，在每一步的末端更新神经网络的权重，拟合给定的数据。