Transformer


(Optional) 0. The illustration of RNN unit

1. The illustration of Transformer

The Illustrated Transformer

Transformer-base: 65 million parameters

Transformer-base: 65 million parameters

<aside> 🛠 核心组件说明

</aside>

2. Parallel computing of Transformer

<aside> 💡 相较于RNN,Transformer在训练时能实现decoder的并行化

</aside>

  1. Encoder的并行能力
方法 应用类型 输入/输出并行 模块间并行 模块内并行
Transformer 训练 yes no yes
推理 yes no yes
RNN 训练 no no yes
推理 no no yes
  1. Decoder的并行能力
方法 应用类型 输入/输出并行 模块间并行 模块内并行
Transformer 训练 *yes no yes
推理 no no yes
RNN 训练 no no yes
推理 no no yes

*: masked self-attention