详解神经网络的前向传播和反向传播(从头推导)
详解神经网络的前向传播和反向传播本篇博客是对Michael Nielsen所著的《Neural Network and Deep Learning》第2章内容的解读,有兴趣的朋友可以直接阅读原文Neural Network and Deep Learning。 对神经网络有些了解的人可能都知道,神经网络其实就是一个输入XXX到输出YYY的映射函数:f(X)=Yf(X)=Yf(X)=Y,函...
详解神经网络的前向传播和反向传播
本篇博客是对Michael Nielsen所著的《Neural Network and Deep Learning》第2章内容的解读,有兴趣的朋友可以直接阅读原文Neural Network and Deep Learning。
对神经网络有些了解的人可能都知道,神经网络其实就是一个输入 X X <script type="math/tex" id="MathJax-Element-1">X</script>到输出 <script type="math/tex" id="MathJax-Element-2">Y</script>的映射函数: f(X)=Y f ( X ) = Y <script type="math/tex" id="MathJax-Element-3">f(X)=Y</script>,函数的系数就是我们所要训练的网络参数 W W <script type="math/tex" id="MathJax-Element-4">W</script>,只要函数系数确定下来,对于任何输入 <script type="math/tex" id="MathJax-Element-5">x_i</script>我们就能得到一个与之对应的输出 yi y i <script type="math/tex" id="MathJax-Element-6">y_i</script>,至于 yi y i <script type="math/tex" id="MathJax-Element-7">y_i</script>是否符合我们预期,这就属于如何提高模型性能方面的问题了,本文不做讨论。
那么问题来了,现在我们手中只有训练集的输入 X X <script type="math/tex" id="MathJax-Element-8">X</script>和输出 <script type="math/tex" id="MathJax-Element-9">Y</script>,我们应该如何调整网络参数 W W <script type="math/tex" id="MathJax-Element-10">W</script>使网络实际的输出 <script type="math/tex" id="MathJax-Element-11">f(X)=\hat{Y}</script>与训练集的 Y Y <script type="math/tex" id="MathJax-Element-12">Y</script>尽可能接近?
在开始正式讲解之前,让我们先对反向传播过程有一个直观上的印象。反向传播算法的核心是代价函数 <script type="math/tex" id="MathJax-Element-13">C</script>对网络中参数(各层的权重 w w <script type="math/tex" id="MathJax-Element-14">w</script>和偏置 <script type="math/tex" id="MathJax-Element-15">b</script>)的偏导表达式 ∂C∂w ∂ C ∂ w <script type="math/tex" id="MathJax-Element-16">\frac{\partial{C}}{\partial{w}}</script>和 ∂C∂b ∂ C ∂ b <script type="math/tex" id="MathJax-Element-17">\frac{\partial{C}}{\partial{b}}</script>。这些表达式描述了代价函数值 C C <script type="math/tex" id="MathJax-Element-18">C</script>随权重 <script type="math/tex" id="MathJax-Element-19">w</script>或偏置 b b <script type="math/tex" id="MathJax-Element-20">b</script>变化而变化的程度。到这里,BP算法的思路就很容易理解了:如果当前代价函数值距离预期值较远,那么我们通过调整 <script type="math/tex" id="MathJax-Element-21">w</script>和 b b <script type="math/tex" id="MathJax-Element-22">b</script>的值使新的代价函数值更接近预期值(和预期值相差越大,则 <script type="math/tex" id="MathJax-Element-23">w</script>和 b b <script type="math/tex" id="MathJax-Element-24">b</script>调整的幅度就越大)。一直重复该过程,直到最终的代价函数值在误差范围内,则算法停止。
BP算法可以告诉我们神经网络在每次迭代中,网络的参数是如何变化的,理解这个过程对于我们分析网络性能或优化过程是非常有帮助的,所以还是尽可能搞透这个点。我也是之前大致看过,然后发现看一些进阶知识还是需要BP的推导过程作为支撑,所以才重新整理出这么一篇博客。
前向传播过程
在开始反向传播之前,先提一下前向传播过程,即网络如何根据输入 <script type="math/tex" id="MathJax-Element-25">X</script>得到输出 Y Y <script type="math/tex" id="MathJax-Element-26">Y</script>的。这个很容易理解,粗略看一下即可,这里主要是为了统一后面的符号表达。


记 <script type="math/tex" id="MathJax-Element-27">w_{jk}^{l}</script>为第 l−1 l − 1 <script type="math/tex" id="MathJax-Element-28">l-1</script>层第 k k <script type="math/tex" id="MathJax-Element-29">k</script>个神经元到第 <script type="math/tex" id="MathJax-Element-30">l</script>层第 j j <script type="math/tex" id="MathJax-Element-31">j</script>个神经元的权重, <script type="math/tex" id="MathJax-Element-32">b_j^l</script>为第 l l <script type="math/tex" id="MathJax-Element-33">l</script>层第 <script type="math/tex" id="MathJax-Element-34">j</script>个神经元的偏置, alj a j l <script type="math/tex" id="MathJax-Element-35">a_j^l</script>为第 l l <script type="math/tex" id="MathJax-Element-36">l</script>层第 <script type="math/tex" id="MathJax-Element-37">j</script>个神经元的激活值(激活函数的输出)。不难看出, alj a j l <script type="math/tex" id="MathJax-Element-38">a_j^l</script>的值取决于上一层神经元的激活:
利用 (2) ( 2 ) <script type="math/tex" id="MathJax-Element-44">(2)</script>式一层层计算网络的激活值,最终能够根据输入 X X <script type="math/tex" id="MathJax-Element-45">X</script>得到相应的输出 <script type="math/tex" id="MathJax-Element-46">\hat Y</script>。
反向传播过程
反向传播过程中要计算 ∂C∂w ∂ C ∂ w <script type="math/tex" id="MathJax-Element-47">\frac{\partial{C}}{\partial w}</script>和 ∂C∂b ∂ C ∂ b <script type="math/tex" id="MathJax-Element-48">\frac{\partial{C}}{\partial b}</script>,我们先对代价函数做两个假设,以二次损失函数为例:
假设1:总的代价函数可以表示为单个样本的代价函数之和的平均:
这个假设的意义在于,因为反向传播过程中我们只能计算单个训练样本的 ∂Cx∂w ∂ C x ∂ w <script type="math/tex" id="MathJax-Element-56">\frac{\partial{C_x}}{\partial w}</script>和 ∂Cx∂b ∂ C x ∂ b <script type="math/tex" id="MathJax-Element-57">\frac{\partial{C_x}}{\partial b}</script>,在这个假设下,我们可以通过计算所有样本的平均来得到总体的 ∂C∂w ∂ C ∂ w <script type="math/tex" id="MathJax-Element-58">\frac{\partial{C}}{\partial w}</script>和 ∂C∂b ∂ C ∂ b <script type="math/tex" id="MathJax-Element-59">\frac{\partial{C}}{\partial b}</script>
假设2:代价函数可以表达为网络输出的函数 costC=C(aL) c o s t C = C ( a L ) <script type="math/tex" id="MathJax-Element-60">costC=C(a^L)</script>,比如单个样本 x x <script type="math/tex" id="MathJax-Element-61">x</script>的二次代价函数可以写为:
反向传播的四个基本方程
权重 w w <script type="math/tex" id="MathJax-Element-3202">w</script>和偏置 <script type="math/tex" id="MathJax-Element-3203">b</script>的改变如何影响代价函数 C C <script type="math/tex" id="MathJax-Element-3204">C</script>是理解反向传播的关键。最终,这意味着我们需要计算出每个 <script type="math/tex" id="MathJax-Element-3205">\frac{\partial{C}}{\partial w_{jk}^l}</script>和 ∂C∂blj ∂ C ∂ b j l <script type="math/tex" id="MathJax-Element-3206">\frac{\partial{C}}{\partial b_j^l}</script>,在讨论基本方程之前,我们引入误差 δ δ <script type="math/tex" id="MathJax-Element-3207">\delta</script>的概念, δlj δ j l <script type="math/tex" id="MathJax-Element-3208">\delta_j^l</script>表示第 l l <script type="math/tex" id="MathJax-Element-3209">l</script>层第 <script type="math/tex" id="MathJax-Element-3210">j</script>个单元的误差。关于误差的理解,《Neural Network and Deep Learning》书中给了一个比较形象的例子。

如上图所示,假设有个小恶魔在第 l l <script type="math/tex" id="MathJax-Element-3211">l</script>层第 <script type="math/tex" id="MathJax-Element-3212">j</script>个单元捣蛋,他让这个神经元的权重输出变化了 Δzlj Δ z j l <script type="math/tex" id="MathJax-Element-3213">\Delta z_j^l</script>,那么这个神经元的激活输出为 σ(zlj+Δzlj) σ ( z j l + Δ z j l ) <script type="math/tex" id="MathJax-Element-3214">\sigma(z_j^l+\Delta z_j^l)</script>,然后这个误差向后逐层传播下去,导致最终的代价函数变化了 ∂C∂zljΔzlj ∂ C ∂ z j l Δ z j l <script type="math/tex" id="MathJax-Element-3215">\frac{\partial{C}}{\partial z_j^l}\Delta z_j^l</script>。现在这个小恶魔改过自新,它想帮助我们尽可能减小代价函数的值(使网络输出更符合预期)。假设 ∂C∂zlj ∂ C ∂ z j l <script type="math/tex" id="MathJax-Element-3216">\frac{\partial{C}}{\partial z_j^l}</script>一开始是个很大的正值或者负值,小恶魔通过选择一个和 ∂C∂zlj ∂ C ∂ z j l <script type="math/tex" id="MathJax-Element-3217">\frac{\partial{C}}{\partial z_j^l}</script>方向相反的 Δzlj Δ z j l <script type="math/tex" id="MathJax-Element-3218">\Delta z_j^l</script>使代价函数更小(这就是我们熟知的梯度下降法)。随着迭代的进行, ∂C∂zlj ∂ C ∂ z j l <script type="math/tex" id="MathJax-Element-3219">\frac{\partial{C}}{\partial z_j^l}</script>会逐渐趋向于0,那么 Δzlj Δ z j l <script type="math/tex" id="MathJax-Element-3220">\Delta z_j^l</script>对于代价函数的改进效果就微乎其微了,这时小恶魔就一脸骄傲的告诉你:“俺已经找到了最优解了(局部最优)”。这启发我们可以用 ∂C∂zlj ∂ C ∂ z j l <script type="math/tex" id="MathJax-Element-3221">\frac{\partial{C}}{\partial z_j^l}</script>来衡量神经元的误差:
1. 输出层的误差方程
(BP1)方程中两项都很容易计算,如果代价函数为二次代价函数 C=12∑j(yj−aLj)2 C = 1 2 ∑ j ( y j − a j L ) 2 <script type="math/tex" id="MathJax-Element-3230">C=\frac{1}{2} \sum_j{(y_j - a_j^L)^2}</script>,则 ∂C∂aLj=aLj−yj ∂ C ∂ a j L = a j L − y j <script type="math/tex" id="MathJax-Element-3231">\frac{\partial C}{\partial a_j^L}=a_j^L-y_j</script>,同理,对激活函数 σ(z) σ ( z ) <script type="math/tex" id="MathJax-Element-3232">\sigma(z)</script>求 zLj z j L <script type="math/tex" id="MathJax-Element-3233">z_j^L</script>的偏导即可求得 σ′(zLj) σ ′ ( z j L ) <script type="math/tex" id="MathJax-Element-3234">\sigma'(z_j^L)</script>。将(BP1)重写为矩阵形式:
2. 误差传递方程
证明过程如下:
3. 代价函数对偏置的改变率
4. 代价函数对权重的改变率
从上面的推导我们不难发现,当输入神经元没有被激活,或者输出神经元处于饱和状态,权重和偏置会学习的非常慢,这不是我们想要的效果。这也说明了为什么我们平时总是说激活函数的选择非常重要。
当我计算得到 ∂C∂wljk ∂ C ∂ w j k l <script type="math/tex" id="MathJax-Element-3255">\frac{\partial C}{\partial w_{jk}^l}</script>和 ∂C∂blj ∂ C ∂ b j l <script type="math/tex" id="MathJax-Element-3256">\frac{\partial C}{\partial b_j^l}</script>后,就能愉悦地使用梯度下降法对参数进行一轮轮更新了,直到最后模型收敛。
反向传播为什么快
回答这个问题前,我们先看一下普通方法怎么求梯度。以计算权重为例,我们将代价函数看成是权重的函数 C=C(w) C = C ( w ) <script type="math/tex" id="MathJax-Element-1830">C=C(w)</script>,假设现在网络中有100万个参数,我们可以利用微分的定义式来计算代价函数对其中某个权重 wj w j <script type="math/tex" id="MathJax-Element-1831">w_j</script>的偏导:
再反观反向传播算法,如方程(BP4)所示,我们只要知道 al−1k a k l − 1 <script type="math/tex" id="MathJax-Element-1835">a_k^{l-1}</script>和 δlj δ j l <script type="math/tex" id="MathJax-Element-1836">\delta_j^l </script>就能计算出偏导 ∂C∂wljk ∂ C ∂ w j k l <script type="math/tex" id="MathJax-Element-1837">\frac{\partial C}{\partial w_{jk}^l}</script>。激活函数值 al−1k a k l − 1 <script type="math/tex" id="MathJax-Element-1838">a_k^{l-1}</script>在一次前向传播后就能全部得到,然后利用(BP1)和(PB2)可以计算出 δlj δ j l <script type="math/tex" id="MathJax-Element-1839">\delta_j^l </script>,反向传播和前向传播计算量相当,所以总共只需2次前向传播的计算量就能计算出所有的 ∂C∂wljk ∂ C ∂ w j k l <script type="math/tex" id="MathJax-Element-1840">\frac{\partial C}{\partial w_{jk}^l}</script>。这比使用微分定义式求偏导的计算量少了不止一点半点,简直是质的飞跃。
更多推荐
所有评论(0)