从pytorch代码角度初次理解LSTM各种术语。


LSTM:

class torch.nn.LSTM(*args, **kwargs)

Parameters

input_size 输入特征维数:(特征向量的长度,如2048)
hidden_size 隐层状态的维数:(每个LSTM单元或者时间步的输出的ht的维度,单元内部有权重与偏差计算)
num_layers RNN层的个数:(在竖直方向堆叠的多个相同个数单元的层数)
bias 隐层状态是否带bias,默认为true
batch_first 是否输入输出的第一维为batchsize
dropout 是否在除最后一个RNN层外的RNN层后面加dropout层
bidirectional 是否是双向RNN,默认为false

Inputs: input, (h_0, c_0)

input (seq_len, batch, input_size) 时间步数或序列长度,batch数,输入特征维度。如果设置了batch_first,则batch为第一维。
(h_0, c_0) 隐层状态

h0 shape:(num_layers * num_directions, batch, hidden_size)

c0 shape:(num_layers * num_directions, batch, hidden_size)


Outputs: output, (h_n, c_n)

output (seq_len, batch, hidden_size * num_directions) 包含每一个时刻的输出特征,如果设置了batch_first,则batch为第一维
(h_n, c_n) 隐层状态

单层LSTM:

此结构包含3个LSTM单元,seq_len=3

两层LSTM: 

第一层的3个时间步的多维隐藏输出作为第二层的3个时间步的输入.

并且初始h0((2 * num_directions, batch, hidden_size))默认为0初始化。

参考文章:

1.【PyTorch】PyTorch进阶教程三 https://blog.csdn.net/q295684174/article/details/79043985 

2.对于LSTM输入层、隐含层及输出层参数的个人理解 https://blog.csdn.net/qq_27318693/article/details/85642827

3.多层LSTM结构的深入解读  https://blog.csdn.net/herr_kun/article/details/80697232

 RNN,LSTM,GRU等重要入门:

1. http://karpathy.github.io/2015/05/21/rnn-effectiveness/

2. http://colah.github.io/posts/2015-08-Understanding-LSTMs/

Logo

学大模型,用大模型上飞桨星河社区!每天8点V100G算力免费领!免费领取ERNIE 4.0 100w Token >>>

更多推荐