大部分图片来自

Photation is All You Need

在说变形金刚之前，我们考虑几个问题

LSTM,GRU的缺点有哪些，它有什么可取之处

很显然， LSTM , GRU 以及普通的 RNN 模型严重依赖上一个时间点的结果，这限制了模型的并行性。此外，对于超长文本，即使是 GRU LSTM 表现也不够好。

为什么要利用 CNN 替代 RNN ？

CNN的缺点有哪些？

Transformer

Transformer 是一个 enc-dec 的结构

enc 和 dec 具体如下

输入数据编码

Word2Vec

除了第一层的词向量是 Word2Vec 其他的都是上一个 enc 的输出

Self-Attention

我们想用 Self Attention 找到句子中每个词和哪个有关联，例如上面这句话，我们要做的就是找到it 指代的是 $animal$

在 selfattention 中，每个单词有三个不同的向量 Q K V ，它们是嵌入向量乘上三个不同的权重矩阵得到的。

计算流程如下

换句话说，最后得到的效果是这样的

这里需要进一步的解释：

1.在矩阵计算中，点积可以用来计算两个矩阵相似度，因此使用 $QK^{T}$ 来计算矩阵的相似度，然后加权匹配输出，权重恰好是这个相似度

2.但是此时存在的一个问题是梯度不一定稳定，通过玄学我们得到了把最后得分除 $\sqrt{d_k}$ 也就是 k 向量维度的根号可以让梯度更稳定的结论

3.但是权重还没有归一化，我们还得采用一个 $\rm{softmax}$ 函数归一化

4.此时我们得到的值再与 $V$ 乘，这里需要注意到 $X=Q=K=V$ 得到 $Z$ （放张图说明一下，图源见水印）