详解神经网络的前向传播和反向传播（从头推导）

详解神经网络的前向传播和反向传播本篇博客是对Michael Nielsen所著的《Neural Network and Deep Learning》第2章内容的解读，有兴趣的朋友可以直接阅读原文Neural Network and Deep Learning。　　对神经网络有些了解的人可能都知道，神经网络其实就是一个输入XXX到输出YYY的映射函数：f(X)=Yf(X)=Yf(X)=Y，函...

Maples丶丶

107956人浏览 · 2018-08-06 17:12:35

Maples丶丶 · 2018-08-06 17:12:35 发布

详解神经网络的前向传播和反向传播

本篇博客是对Michael Nielsen所著的《Neural Network and Deep Learning》第2章内容的解读，有兴趣的朋友可以直接阅读原文Neural Network and Deep Learning。

　　对神经网络有些了解的人可能都知道，神经网络其实就是一个输入 X <script type="math/tex" id="MathJax-Element-1">X</script>到输出 $Y$ <script type="math/tex" id="MathJax-Element-2">Y</script>的映射函数： f(X)=Y <script type="math/tex" id="MathJax-Element-3">f(X)=Y</script>，函数的系数就是我们所要训练的网络参数 W <script type="math/tex" id="MathJax-Element-4">W</script>，只要函数系数确定下来，对于任何输入 $x_{i}$ <script type="math/tex" id="MathJax-Element-5">x_i</script>我们就能得到一个与之对应的输出 yi <script type="math/tex" id="MathJax-Element-6">y_i</script>，至于 yi <script type="math/tex" id="MathJax-Element-7">y_i</script>是否符合我们预期，这就属于如何提高模型性能方面的问题了，本文不做讨论。

　　那么问题来了，现在我们手中只有训练集的输入 X <script type="math/tex" id="MathJax-Element-8">X</script>和输出 $Y$ <script type="math/tex" id="MathJax-Element-9">Y</script>，我们应该如何调整网络参数 W <script type="math/tex" id="MathJax-Element-10">W</script>使网络实际的输出 $f (X) = \hat{Y}$ <script type="math/tex" id="MathJax-Element-11">f(X)=\hat{Y}</script>与训练集的 Y <script type="math/tex" id="MathJax-Element-12">Y</script>尽可能接近？

　　在开始正式讲解之前，让我们先对反向传播过程有一个直观上的印象。反向传播算法的核心是代价函数 $C$ <script type="math/tex" id="MathJax-Element-13">C</script>对网络中参数（各层的权重 w <script type="math/tex" id="MathJax-Element-14">w</script>和偏置 $b$ <script type="math/tex" id="MathJax-Element-15">b</script>）的偏导表达式 ∂C∂w <script type="math/tex" id="MathJax-Element-16">\frac{\partial{C}}{\partial{w}}</script>和 ∂C∂b <script type="math/tex" id="MathJax-Element-17">\frac{\partial{C}}{\partial{b}}</script>。这些表达式描述了代价函数值 C <script type="math/tex" id="MathJax-Element-18">C</script>随权重 $w$ <script type="math/tex" id="MathJax-Element-19">w</script>或偏置 b <script type="math/tex" id="MathJax-Element-20">b</script>变化而变化的程度。到这里，BP算法的思路就很容易理解了：如果当前代价函数值距离预期值较远，那么我们通过调整 $w$ <script type="math/tex" id="MathJax-Element-21">w</script>和 b <script type="math/tex" id="MathJax-Element-22">b</script>的值使新的代价函数值更接近预期值（和预期值相差越大，则 $w$ <script type="math/tex" id="MathJax-Element-23">w</script>和 b <script type="math/tex" id="MathJax-Element-24">b</script>调整的幅度就越大）。一直重复该过程，直到最终的代价函数值在误差范围内，则算法停止。

　　BP算法可以告诉我们神经网络在每次迭代中，网络的参数是如何变化的，理解这个过程对于我们分析网络性能或优化过程是非常有帮助的，所以还是尽可能搞透这个点。我也是之前大致看过，然后发现看一些进阶知识还是需要BP的推导过程作为支撑，所以才重新整理出这么一篇博客。

前向传播过程

　　在开始反向传播之前，先提一下前向传播过程，即网络如何根据输入 $X$ <script type="math/tex" id="MathJax-Element-25">X</script>得到输出 Y <script type="math/tex" id="MathJax-Element-26">Y</script>的。这个很容易理解，粗略看一下即可，这里主要是为了统一后面的符号表达。

记 $w_{j k}^{l}$ <script type="math/tex" id="MathJax-Element-27">w_{jk}^{l}</script>为第 l−1 <script type="math/tex" id="MathJax-Element-28">l-1</script>层第 k <script type="math/tex" id="MathJax-Element-29">k</script>个神经元到第 $l$ <script type="math/tex" id="MathJax-Element-30">l</script>层第 j <script type="math/tex" id="MathJax-Element-31">j</script>个神经元的权重， $b_{j}^{l}$ <script type="math/tex" id="MathJax-Element-32">b_j^l</script>为第 l <script type="math/tex" id="MathJax-Element-33">l</script>层第 $j$ <script type="math/tex" id="MathJax-Element-34">j</script>个神经元的偏置， alj <script type="math/tex" id="MathJax-Element-35">a_j^l</script>为第 l <script type="math/tex" id="MathJax-Element-36">l</script>层第 $j$ <script type="math/tex" id="MathJax-Element-37">j</script>个神经元的激活值（激活函数的输出）。不难看出， alj <script type="math/tex" id="MathJax-Element-38">a_j^l</script>的值取决于上一层神经元的激活：

a l j = σ (\sum k w l j k a l - 1 k + b l j) (1)

a l = σ (w l a l - 1 + b l) (2)

zl=wlal−1+bl z l = w l a l − 1 + b l <script type="math/tex" id="MathJax-Element-41">z^l=w^l a^{l-1} +b^l</script>为每一层的权重输入，

(2) ( 2 ) <script type="math/tex" id="MathJax-Element-42">(2)</script>式则变为

al=σ(zl) a l = σ ( z l ) <script type="math/tex" id="MathJax-Element-43">a^l=\sigma{(z^l)}</script>。
　　利用

(2) ( 2 ) <script type="math/tex" id="MathJax-Element-44">(2)</script>式一层层计算网络的激活值，最终能够根据输入

X X <script type="math/tex" id="MathJax-Element-45">X</script>得到相应的输出

\hat{Y}

反向传播过程

　　反向传播过程中要计算 ∂C∂w <script type="math/tex" id="MathJax-Element-47">\frac{\partial{C}}{\partial w}</script>和 ∂C∂b <script type="math/tex" id="MathJax-Element-48">\frac{\partial{C}}{\partial b}</script>，我们先对代价函数做两个假设，以二次损失函数为例：

C = 1 2 n \sum x ∥ y (x) - a L (x) ∥ 2 (3)

n n <script type="math/tex" id="MathJax-Element-50">n</script>为训练样本

x

y=y(x) y = y ( x ) <script type="math/tex" id="MathJax-Element-52">y=y(x)</script>为期望的输出，即ground truth，

L L <script type="math/tex" id="MathJax-Element-53">L</script>为网络的层数，

a^{L} (x)

C = 1 n \sum x C x C x = 1 2 ∥ y - a L ∥ 2 (4)

∂Cx∂w ∂ C x ∂ w <script type="math/tex" id="MathJax-Element-56">\frac{\partial{C_x}}{\partial w}</script>和

∂Cx∂b ∂ C x ∂ b <script type="math/tex" id="MathJax-Element-57">\frac{\partial{C_x}}{\partial b}</script>，在这个假设下，我们可以通过计算所有样本的平均来得到总体的

∂C∂w ∂ C ∂ w <script type="math/tex" id="MathJax-Element-58">\frac{\partial{C}}{\partial w}</script>和

∂C∂b ∂ C ∂ b <script type="math/tex" id="MathJax-Element-59">\frac{\partial{C}}{\partial b}</script>
假设2：代价函数可以表达为网络输出的函数

costC=C(aL) c o s t C = C ( a L ) <script type="math/tex" id="MathJax-Element-60">costC=C(a^L)</script>，比如单个样本

x x <script type="math/tex" id="MathJax-Element-61">x</script>的二次代价函数可以写为：

\begin{matrix} (5) & C_{x} = \frac{1}{2} ‖ y - a^{L} ‖^{2} = \frac{1}{2} \sum_{j} (y_{j} - a_{j}^{L})^{2} \end{matrix}

反向传播的四个基本方程

　　权重 w <script type="math/tex" id="MathJax-Element-3202">w</script>和偏置 $b$ <script type="math/tex" id="MathJax-Element-3203">b</script>的改变如何影响代价函数 C <script type="math/tex" id="MathJax-Element-3204">C</script>是理解反向传播的关键。最终，这意味着我们需要计算出每个 $\frac{\partial C}{\partial w_{j k}^{l}}$ <script type="math/tex" id="MathJax-Element-3205">\frac{\partial{C}}{\partial w_{jk}^l}</script>和 ∂C∂blj <script type="math/tex" id="MathJax-Element-3206">\frac{\partial{C}}{\partial b_j^l}</script>，在讨论基本方程之前，我们引入误差 δ <script type="math/tex" id="MathJax-Element-3207">\delta</script>的概念， δlj <script type="math/tex" id="MathJax-Element-3208">\delta_j^l</script>表示第 l <script type="math/tex" id="MathJax-Element-3209">l</script>层第 $j$ <script type="math/tex" id="MathJax-Element-3210">j</script>个单元的误差。关于误差的理解，《Neural Network and Deep Learning》书中给了一个比较形象的例子。

　　如上图所示，假设有个小恶魔在第 l <script type="math/tex" id="MathJax-Element-3211">l</script>层第 $j$ <script type="math/tex" id="MathJax-Element-3212">j</script>个单元捣蛋，他让这个神经元的权重输出变化了 Δzlj <script type="math/tex" id="MathJax-Element-3213">\Delta z_j^l</script>，那么这个神经元的激活输出为 σ(zlj+Δzlj) <script type="math/tex" id="MathJax-Element-3214">\sigma(z_j^l+\Delta z_j^l)</script>，然后这个误差向后逐层传播下去，导致最终的代价函数变化了 ∂C∂zljΔzlj <script type="math/tex" id="MathJax-Element-3215">\frac{\partial{C}}{\partial z_j^l}\Delta z_j^l</script>。现在这个小恶魔改过自新，它想帮助我们尽可能减小代价函数的值（使网络输出更符合预期）。假设 ∂C∂zlj <script type="math/tex" id="MathJax-Element-3216">\frac{\partial{C}}{\partial z_j^l}</script>一开始是个很大的正值或者负值，小恶魔通过选择一个和 ∂C∂zlj <script type="math/tex" id="MathJax-Element-3217">\frac{\partial{C}}{\partial z_j^l}</script>方向相反的 Δzlj <script type="math/tex" id="MathJax-Element-3218">\Delta z_j^l</script>使代价函数更小（这就是我们熟知的梯度下降法）。随着迭代的进行， ∂C∂zlj <script type="math/tex" id="MathJax-Element-3219">\frac{\partial{C}}{\partial z_j^l}</script>会逐渐趋向于0，那么 Δzlj <script type="math/tex" id="MathJax-Element-3220">\Delta z_j^l</script>对于代价函数的改进效果就微乎其微了，这时小恶魔就一脸骄傲的告诉你：“俺已经找到了最优解了（局部最优）”。这启发我们可以用 ∂C∂zlj <script type="math/tex" id="MathJax-Element-3221">\frac{\partial{C}}{\partial z_j^l}</script>来衡量神经元的误差：

δ l j = \partial C \partial z l j

δ L j = \partial C \partial z L j = \partial C \partial a L j \partial a L j \partial z L j = \partial C \partial a L j σ' (z L j) (BP1)

∂C∂aLj ∂ C ∂ a j L <script type="math/tex" id="MathJax-Element-3224">\frac{\partial C}{\partial a_j^L}</script>衡量了代价函数随网络最终输出的变化快慢，而第二项

σ′(zLj) σ ′ ( z j L ) <script type="math/tex" id="MathJax-Element-3225">\sigma'(z_j^L)</script>则衡量了激活函数输出随

zLj z j L <script type="math/tex" id="MathJax-Element-3226">z_j^L</script>的变化快慢。当激活函数饱和，即

σ′(zLj)≈0 σ ′ ( z j L ) ≈ 0 <script type="math/tex" id="MathJax-Element-3227">\sigma'(z_j^L)\approx0</script>时，无论

∂C∂aLj ∂ C ∂ a j L <script type="math/tex" id="MathJax-Element-3228">\frac{\partial C}{\partial a_j^L}</script>多大，最终

δLj≈0 δ j L ≈ 0 <script type="math/tex" id="MathJax-Element-3229">\delta_j^L\approx0</script>，输出神经元进入饱和区，停止学习。
　　（BP1）方程中两项都很容易计算，如果代价函数为二次代价函数

C=12∑j(yj−aLj)2 C = 1 2 ∑ j ( y j − a j L ) 2 <script type="math/tex" id="MathJax-Element-3230">C=\frac{1}{2} \sum_j{(y_j - a_j^L)^2}</script>，则

∂C∂aLj=aLj−yj ∂ C ∂ a j L = a j L − y j <script type="math/tex" id="MathJax-Element-3231">\frac{\partial C}{\partial a_j^L}=a_j^L-y_j</script>，同理，对激活函数

σ(z) σ ( z ) <script type="math/tex" id="MathJax-Element-3232">\sigma(z)</script>求

zLj z j L <script type="math/tex" id="MathJax-Element-3233">z_j^L</script>的偏导即可求得

σ′(zLj) σ ′ ( z j L ) <script type="math/tex" id="MathJax-Element-3234">\sigma'(z_j^L)</script>。将（BP1）重写为矩阵形式：

δ L = \nabla a C ⊙ σ' (z L) (BP1a)

⊙ ⊙ <script type="math/tex" id="MathJax-Element-3236">\odot</script>为Hadamard积，即矩阵的点积。
2. 误差传递方程

δ l = ((w l + 1) T δ l + 1) ⊙ σ' (z l) (BP2)

l+1 l + 1 <script type="math/tex" id="MathJax-Element-3238">l+1</script>层的误差

δl+1 δ l + 1 <script type="math/tex" id="MathJax-Element-3239">\delta^{l+1}</script>计算第

l l <script type="math/tex" id="MathJax-Element-3240">l</script>层的误差

δ^{l}

δL δ L <script type="math/tex" id="MathJax-Element-3242">\delta^L</script>，然后计算

δL−1 δ L − 1 <script type="math/tex" id="MathJax-Element-3243">\delta^{L-1}</script>，

δL−2 δ L − 2 <script type="math/tex" id="MathJax-Element-3244">\delta^{L-2}</script>，…，直到输入层。
证明过程如下：

δ l j = \partial C \partial z l j = \sum k \partial C \partial z l + 1 k \partial z l + 1 k \partial z l j = \sum k δ l + 1 k \partial z l + 1 k \partial z l j

zl+1k=∑jwl+1kjalj+bl+1k=∑jwl+1kjσ(zlj)+bl+1k z k l + 1 = ∑ j w k j l + 1 a j l + b k l + 1 = ∑ j w k j l + 1 σ ( z j l ) + b k l + 1 <script type="math/tex" id="MathJax-Element-3246">z_k^{l+1}=\sum_j{w_{kj}^{l+1}a_j^l+b_k^{l+1}}=\sum_j{w_{kj}^{l+1}\sigma{(z_j^l)}+b_k^{l+1}}</script>，所以

∂zl+1k∂zlj=wl+1kjσ′(zlj) ∂ z k l + 1 ∂ z j l = w k j l + 1 σ ′ ( z j l ) <script type="math/tex" id="MathJax-Element-3247">\frac{\partial z_k^{l+1}}{\partial z_j^l}=w_{kj}^{l+1}\sigma'(z_j^l)</script>，因此可以得到(BP2)，

δ l j = \sum k w l + 1 k j δ l + 1 k σ' (z l j)

\partial C \partial b l j = \partial C \partial z l j \partial z l j \partial b l j = \partial C \partial z l j = δ l j (BP3)

zlj=∑kwljkal−1k+blj z j l = ∑ k w j k l a k l − 1 + b j l <script type="math/tex" id="MathJax-Element-3250">z_j^l=\sum_k{w_{jk}^l a_k^{l-1}}+b_j^l</script>所以

∂zLj∂bLj=1 ∂ z j L ∂ b j L = 1 <script type="math/tex" id="MathJax-Element-3251">\frac{\partial z_j^L}{\partial b_j^L}=1</script>
4. 代价函数对权重的改变率

\partial C \partial w l j k = \partial C \partial z l j \partial z L j \partial w l j k = \partial C \partial z l j a l - 1 k = a l - 1 k δ l j (BP4)

\partial C \partial w = a i n δ o u t (6)

∂C∂w ∂ C ∂ w <script type="math/tex" id="MathJax-Element-3254">\frac{\partial C}{\partial w}</script>的改变都很小，这也就解释了为什么神经元饱和不利于训练。

　　从上面的推导我们不难发现，当输入神经元没有被激活，或者输出神经元处于饱和状态，权重和偏置会学习的非常慢，这不是我们想要的效果。这也说明了为什么我们平时总是说激活函数的选择非常重要。

　　当我计算得到 ∂C∂wljk <script type="math/tex" id="MathJax-Element-3255">\frac{\partial C}{\partial w_{jk}^l}</script>和 ∂C∂blj <script type="math/tex" id="MathJax-Element-3256">\frac{\partial C}{\partial b_j^l}</script>后，就能愉悦地使用梯度下降法对参数进行一轮轮更新了，直到最后模型收敛。

反向传播为什么快

　　回答这个问题前，我们先看一下普通方法怎么求梯度。以计算权重为例，我们将代价函数看成是权重的函数 C=C(w) <script type="math/tex" id="MathJax-Element-1830">C=C(w)</script>，假设现在网络中有100万个参数，我们可以利用微分的定义式来计算代价函数对其中某个权重 wj <script type="math/tex" id="MathJax-Element-1831">w_j</script>的偏导：

\partial C \partial w j \approx C ( w + ε e j \to ) - C ( w ) ε (7)

∂C∂wj ∂ C ∂ w j <script type="math/tex" id="MathJax-Element-1833">\frac{\partial C}{\partial w_j}</script>，我们需要从头到尾完整进行一次前向传播才能得到最终

C(w+εej→) C ( w + ε e j → ) <script type="math/tex" id="MathJax-Element-1834">C(w+\varepsilon \vec{e_j})</script>的值，要计算100万个参数的偏导就需要前向传播100万次，而且这还只是一次迭代，想想是不是特别可怕？
　　再反观反向传播算法，如方程（BP4）所示，我们只要知道

al−1k a k l − 1 <script type="math/tex" id="MathJax-Element-1835">a_k^{l-1}</script>和

δlj δ j l <script type="math/tex" id="MathJax-Element-1836">\delta_j^l </script>就能计算出偏导

∂C∂wljk ∂ C ∂ w j k l <script type="math/tex" id="MathJax-Element-1837">\frac{\partial C}{\partial w_{jk}^l}</script>。激活函数值

al−1k a k l − 1 <script type="math/tex" id="MathJax-Element-1838">a_k^{l-1}</script>在一次前向传播后就能全部得到，然后利用(BP1）和（PB2）可以计算出

δlj δ j l <script type="math/tex" id="MathJax-Element-1839">\delta_j^l </script>，反向传播和前向传播计算量相当，所以总共只需2次前向传播的计算量就能计算出所有的

∂C∂wljk ∂ C ∂ w j k l <script type="math/tex" id="MathJax-Element-1840">\frac{\partial C}{\partial w_{jk}^l}</script>。这比使用微分定义式求偏导的计算量少了不止一点半点，简直是质的飞跃。