
Transformer-base: 65 million parameters
<aside> 🛠 核心组件说明
</aside>
<aside> 💡 相较于RNN,Transformer在训练时能实现decoder的并行化
</aside>
| 方法 | 应用类型 | 输入/输出并行 | 模块间并行 | 模块内并行 |
|---|---|---|---|---|
| Transformer | 训练 | yes | no | yes |
| 推理 | yes | no | yes | |
| RNN | 训练 | no | no | yes |
| 推理 | no | no | yes |
| 方法 | 应用类型 | 输入/输出并行 | 模块间并行 | 模块内并行 |
|---|---|---|---|---|
| Transformer | 训练 | *yes | no | yes |
| 推理 | no | no | yes | |
| RNN | 训练 | no | no | yes |
| 推理 | no | no | yes |
*: masked self-attention