Transformer-base: 65 million parameters
<aside> 🛠 核心组件说明
</aside>
<aside> 💡 相较于RNN,Transformer在训练时能实现decoder的并行化
</aside>
方法 | 应用类型 | 输入/输出并行 | 模块间并行 | 模块内并行 |
---|---|---|---|---|
Transformer | 训练 | yes | no | yes |
推理 | yes | no | yes | |
RNN | 训练 | no | no | yes |
推理 | no | no | yes |
方法 | 应用类型 | 输入/输出并行 | 模块间并行 | 模块内并行 |
---|---|---|---|---|
Transformer | 训练 | *yes | no | yes |
推理 | no | no | yes | |
RNN | 训练 | no | no | yes |
推理 | no | no | yes |
*: masked self-attention