Share: transformer family - 01/04/2022

Transformer

Transformer-base: 65 million parameters

<aside> 🛠 核心组件说明

</aside>

<aside> 💡 相较于RNN，Transformer在训练时能实现decoder的并行化

</aside>

方法	应用类型	输入/输出并行	模块间并行	模块内并行
Transformer	训练	yes	no	yes
	推理	yes	no	yes
RNN	训练	no	no	yes
	推理	no	no	yes

方法	应用类型	输入/输出并行	模块间并行	模块内并行
Transformer	训练	*yes	no	yes
	推理	no	no	yes
RNN	训练	no	no	yes
	推理	no	no	yes

*: masked self-attention