先给出一些结论:

  1. GRU和LSTM的性能在很多任务上不分伯仲。
  2. GRU 参数更少因此更容易收敛,但是数据集很大的情况下,LSTM表达性能更好。
  3. 从结构上来说,GRU只有两个门(update和reset),LSTM有三个门(forget,input,output),GRU直接将hidden state 传给下一个单元,而LSTM则用memory cell 把hidden state 包装起来。

1. 基本结构

1.1 GRU

这里写图片描述

GRU的设计是为了更好的捕捉long-term dependencies。我们先来看看输入 ht1 x(t) , GRU怎么通过计算输出 h(t)

这里写图片描述

  • Reset gate

    r(t) 负责决定 h(t1) 对new memory h^(t) 的重要性有多大, 如果 r(t) 约等于0 的话, h(t1) 就不会传递给new memory h^(t)

  • new memory

    h^(t) 是对新的输入 x(t) 和上一时刻的hidden state h(t1) 的总结。计算总结出的新的向量 h^(t) 包含上文信息和新的输入 x(t) .

  • Update gate

    z(t) 负责决定传递多少 ht1 ht 。 如果 z(t) 约等于1的话, ht1 几乎会直接复制给 ht ,相反,如果 z(t) 约等于0, new memory h^(t) 直接传递给 ht .

  • Hidden state:

    h(t) h(t1) h^(t) 相加得到,两者的权重由update gate z(t) 控制。

1.2 LSTM

这里写图片描述

LSTM 的设计也是为了更好的捕捉long-term dependencies,但是结构上有一些不同,更复杂一些,我们想来看看计算过程:
这里写图片描述

  • new memory cell

    这一步和GRU中的new memory类似,输出的向量 c^(t) 都是对新的输入 x(t) 和上一时刻的hidden state h(t1) 的总结。

  • Input gate

    i(t) 负责决定输入的 x(t) 信息是否值得保存。

  • Forget gate

    f(t) 负责决定past memory cell c^(t1) c(t) 的重要性。

  • final memory cell

    c(t) c^(t1) c^(t) 相加得到,权重分别由 Forget gate 和Input gate 决定

  • Output gate

    这个门是GRU没有的。它负责决定 c(t) 中的哪些部分应该传递给hidden state h(t)

2. 区别

1. 对memory 的控制

LSTM: 用output gate 控制,传输给下一个unit

GRU:直接传递给下一个unit,不做任何控制

2. input gate 和reset gate 作用位置不同

LSTM: 计算new memory c^(t) 时 不对上一时刻的信息做任何控制,而是用forget gate 独立的实现这一点

GRU: 计算new memory h^(t) 时利用reset gate 对上一时刻的信息 进行控制。

3. 相似

最大的相似之处就是, 在从t 到 t-1 的更新时都引入了加法。

这个加法的好处在于能防止梯度弥散,因此LSTM和GRU都比一般的RNN效果更好。

Reference:
1. https://cs224d.stanford.edu/lecture_notes/LectureNotes4.pdf
2. Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling
3. https://feature.engineering/difference-between-lstm-and-gru-for-rnns/

Logo

学大模型,用大模型上飞桨星河社区!每天8点V100G算力免费领!免费领取ERNIE 4.0 100w Token >>>

更多推荐