一图详解Transformer

量子位
2024-09-23 09:13:56

#一图详解Transformer#

数据科学家Josep Ferrer制作了一张详解Transformer原理的图片！（图1）
推荐还不了解Transformer的朋友们看看！

主要内容有：
1. 什么是Transformer？（图2）
Transformer是一种神经网络，擅长理解顺序数据的上下文并从中生成新数据。
它是第一个完全依赖自注意力，不使用 RNN 或卷积的架构。

2.把Transformer当成黑箱（图3）
将用于语言翻译的 Transformer 想象为一个黑箱。
• 输入：某种语言的一句话。
• 输出：翻译后的结果。
这个黑匣子里面会发生什么呢？让我们来看看吧！

3.编码器（encoder）/解码器（decoder）架构（图4）
• 输入：西班牙语句子¿De quién es?
• 编码器：将它转换为可以代表其本质的结构化格式。
• 解码器：接收编码数据并生成翻译。
• 输出：翻译后的句子：这是谁的？

4.Transformer背后的架构（图5）
每个编码器和解码器都由很多层（layer）组成。它们的工作原理如下：
• 编码器：按顺序、逐层处理输入。
• 解码器：获取编码数据并逐步生成输出。
两者都使用自注意力和前馈神经网络，能够生成自然语言结果！

发表评论