深度学习15（GRU、LSTM+词嵌入+seq2seq+attention）-EW帮帮网

GRU、LSTM

词嵌入

seq2seq

attention

GRU、LSTM

GRU和LSTM，这是两种重要的循环神经网络（RNN）变体，用于解决传统RNN中的梯度消失和长程依赖问题。

GRU：

GRU增加了两个门，一个重置门(reset gate)和一个更新门(update gate)

重置门决定了如何将新的输入信息与前面的记忆相结合
更新门定义了前面记忆保存到当前时间步的量
如果将重置门设置为 1，更新门设置为0，那么将再次获得标准 RNN 模型

为了解决短期记忆问题，每个递归单元能够自适应捕捉不同尺度的依赖关系
解决梯度消失的问题，在隐层输出的地方ht,ht-1的关系用加法而不是RNN当中乘法+激活函数

LSTM：

LSTM增加了三个门：遗忘门f、更新门4、输出门o

重置门决定了如何将新的输入信息与前面的记忆相结合
更新门定义了前面记忆保存到当前时间步的量
遗忘门决定丢弃哪些历史信息

便于记忆更长距离的时间状态。

词嵌入

定义:指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中，每个单词或词组被映射为实数域上的向量。

特点：

能够体现出词与词之间的关系
能够得到相似词。

词嵌入（Word Embedding）的实现本质上是通过神经网络学习一个映射函数，将离散的高维 one-hot 向量转换为低维连续向量。

原始空间 (|V|=5)       嵌入空间 (d=2)
   dog → [1,0,0,0,0]  --\
                         \
cat  → [0,1,0,0,0]  ----- W (5×2矩阵) → dog: [0.8, -0.3]
                         /               cat: [0.7, -0.2]
apple→ [0,0,1,0,0]  --/               apple: [-0.5, 0.9]
banana→[0,0,0,1,0]                    banana: [-0.4, 0.8]
car  → [0,0,0,0,1]                    car: [0.2, 1.1]