Transformer 架构是一种革命性的深度学习模型架构,由 Google 在 2017 年通过论文《Attention Is All You Need》首次提出。它完全基于自注意力机制,摒弃了传统的循环神经网络(RNN)和卷积神经网络(CNN)结构。